値の頻度

概要

値の頻度フィルターは、属性値がデータセット全体で出現する頻度に基づいてケースを選択します。このケースレベルのフィルターは、指定した属性の値ごとにケースをグループ化し、それぞれの値が何回現れるかをカウントし、頻度が指定した閾値を満たすかどうかに基づいてケースを含めるか除外します。閾値は絶対数（例：「少なくとも5回出現」）またはパーセンテージ（例：「少なくとも20%のケースで出現」）のいずれかで設定できます。

このフィルターは、一般的なパターンの特定、稀な外れ値の検出、高頻度カテゴリーへの注目、分析結果に影響を与える稀なエッジケースの除外に特に役立ちます。

一般的な使用例

主要カテゴリに注目：属性値が統計的に有意な頻度で現れるケースのみを保持し、稀な外れ値を排除する。
異常値検出：データセット内で稀にしか現れない属性値を持つ異常または稀なケースを識別する。
データ品質分析：一度だけ現れる値を特定し、データ入力ミスや重複レコードの可能性を見つける。
高頻度分析：よく現れる地域、製品、顧客セグメントに分析を集中させる。
ノイズ除去：複雑さを加えるだけで有益な洞察をもたらさないエッジケースや低頻度のバリエーションを除去する。
パターン認識：特定の頻度（例：ちょうど2回）で現れる値を識別して系統的な問題を発見する。

設定

列名：頻度を解析する属性を選択します。整数およびテキスト属性をサポートします。非表示列やケースID列は選択できません。

比較方法：頻度と閾値の比較方法を選択します：

等しい：値が指定した回数とちょうど同じ頻度で現れるケースを保持
より大きい：値が閾値より多く出現するケースを保持
以上：値が閾値以上に出現するケースを保持
より小さい：値が閾値より少ない頻度で現れるケースを保持
以下：値が閾値以下の頻度で現れるケースを保持
等しくない：値が指定した頻度と正確に等しくないケースを保持

閾値タイプ：閾値が示す内容を指定します：

カウント：出現件数の絶対値
パーセント：総ケース数に対する割合（0.0～1.0の小数）

比較閾値：数値の閾値を入力します。カウントモードでは出現回数、パーセントモードでは小数値（例：40%なら0.4）を入力します。

例

例1: 主要地域に注目

シナリオ：プロセスデータは15の地域のケースを含みますが、分析対象は全ケースの10%以上を占める主要地域だけに絞りたい。

設定：

列名: Region
比較方法: 以上
閾値タイプ: パーセント
比較閾値: 0.1

結果：データセットの10%以上のケースで現れる地域のケースのみが保持されます。例えば1,000ケースある場合は、100ケース以上の地域が含まれ、小さい地域は除外されます。

洞察：小規模な地域のノイズを排除し、主要地域に絞ってパターンや傾向の識別が容易になります。

例2: ユニークケースの特定

シナリオ：一意の属性値を持つケースをデータ品質問題や特別な処理が必要なケースとして特定したい。値がデータセット内でちょうど1回現れるケースを探す。

設定：

列名: Customer ID
比較方法: 等しい
閾値タイプ: カウント
比較閾値: 1.0

結果：Customer IDがデータセット全体でちょうど1回だけ現れるケースのみを返します。

洞察：これらのユニーク顧客は以下の可能性があります：

一度だけ利用した顧客
名前の誤入力などのデータ入力ミス
削除すべきテストケース
特別対応が必要なVIP顧客

例3: 高頻度製品の抽出

シナリオ：少なくとも50ケースで現れるベストセラー製品のみを分析し、成功パターンを理解したい。

設定：

列名: Product Name
比較方法: 以上
閾値タイプ: カウント
比較閾値: 50.0

結果：50回以上注文された製品のケースのみを保持します。

洞察：高頻度製品に注目することで、成功した製品処理のパターンや共通のボトルネック、最適化の機会を特定できます。

例4: 稀なプロセスバリアントの除外

シナリオ：プロセスマップが多くの稀なバリアントで複雑化している。開始アクティビティが全ケースの5%未満で現れるものを除外したい。

設定：

列名: _calcStartActivity
比較方法: より小さい
閾値タイプ: パーセント
比較閾値: 0.05

結果：開始アクティビティが5%未満のケースのみを保持し、稀なバリアントを効果的に選択します。

洞察：例外、エラー、非標準ワークフローを示唆する異常なプロセス開始点を特定するのに役立ちます。

例5: 重複検出の除外

シナリオ：属性値がちょうど2回現れるケースを探し、体系的な重複の可能性を特定したい。

設定：

列名: Order Number
比較方法: 等しい
閾値タイプ: カウント
比較閾値: 2.0

結果：Order Numberが正確に2回現れるケースのみを返します。

洞察：これらは以下の可能性がある：

重複注文作成を引き起こすシステムエラー
同一注文の分割配送
注文の修正や改訂
複数システムからのデータ統合問題

例6: 低頻度の外れ値除外

シナリオ：全ケースの2%未満のカテゴリケースを除外し、エッジケースを取り除いてデータセットをクリーンにしたい。

設定：

列名: Department
比較方法: 以上
閾値タイプ: パーセント
比較閾値: 0.02

結果：全ケースの2%以上を占める部門のケースのみを保持します。

洞察：小規模な部門やテスト部門を除外し、通常のプロセス動作に焦点を当てたクリアなデータセットを作成します。

出力

フィルターは、選択した属性の指定頻度条件を満たすケースのみを含む新しいデータセットを返します。同じ属性値を持つすべてのケースはグループとして扱われ、その値を共有するケースが閾値を満たせばグループ全体が含まれます。

例えば、「Region A」が100ケースあり閾値を満たせば、「Region A」の100ケースすべてが含まれます。フィルターは含まれたケースのすべてのイベントと属性を保持します。

技術的注意事項

フィルター種別：ケースレベルのフィルター（属性値の頻度に基づいてケース全体を除外）
グルーピングロジック：指定属性の値ごとにケースをグループ化し、各グループの頻度を閾値と比較
Null値取り扱い：Null値も他の値と同様に独立したグループとしてカウント
対応データ型：整数(Int32、Int64)およびテキスト(String)属性
閾値変換：パーセントモードでは、全ケース数に掛けて自動的に絶対数に変換
入力検証：属性名を誤入力した場合、類似の列名が提案される

このドキュメントはmindzieStudioプロセスマイニングプラットフォームの一部です。