値の頻度
概要
値の頻度フィルターは、属性値がデータセット全体で出現する頻度に基づいてケースを選択します。このケースレベルのフィルターは、指定した属性の値ごとにケースをグループ化し、それぞれの値が何回現れるかをカウントし、頻度が指定した閾値を満たすかどうかに基づいてケースを含めるか除外します。閾値は絶対数(例:「少なくとも5回出現」)またはパーセンテージ(例:「少なくとも20%のケースで出現」)のいずれかで設定できます。
このフィルターは、一般的なパターンの特定、稀な外れ値の検出、高頻度カテゴリーへの注目、分析結果に影響を与える稀なエッジケースの除外に特に役立ちます。
一般的な使用例
- 主要カテゴリに注目:属性値が統計的に有意な頻度で現れるケースのみを保持し、稀な外れ値を排除する。
- 異常値検出:データセット内で稀にしか現れない属性値を持つ異常または稀なケースを識別する。
- データ品質分析:一度だけ現れる値を特定し、データ入力ミスや重複レコードの可能性を見つける。
- 高頻度分析:よく現れる地域、製品、顧客セグメントに分析を集中させる。
- ノイズ除去:複雑さを加えるだけで有益な洞察をもたらさないエッジケースや低頻度のバリエーションを除去する。
- パターン認識:特定の頻度(例:ちょうど2回)で現れる値を識別して系統的な問題を発見する。
設定
列名:頻度を解析する属性を選択します。整数およびテキスト属性をサポートします。非表示列やケースID列は選択できません。
比較方法:頻度と閾値の比較方法を選択します:
- 等しい:値が指定した回数とちょうど同じ頻度で現れるケースを保持
- より大きい:値が閾値より多く出現するケースを保持
- 以上:値が閾値以上に出現するケースを保持
- より小さい:値が閾値より少ない頻度で現れるケースを保持
- 以下:値が閾値以下の頻度で現れるケースを保持
- 等しくない:値が指定した頻度と正確に等しくないケースを保持
閾値タイプ:閾値が示す内容を指定します:
- カウント:出現件数の絶対値
- パーセント:総ケース数に対する割合(0.0~1.0の小数)
比較閾値:数値の閾値を入力します。カウントモードでは出現回数、パーセントモードでは小数値(例:40%なら0.4)を入力します。
例
例1: 主要地域に注目
シナリオ:プロセスデータは15の地域のケースを含みますが、分析対象は全ケースの10%以上を占める主要地域だけに絞りたい。
設定:
- 列名: Region
- 比較方法: 以上
- 閾値タイプ: パーセント
- 比較閾値: 0.1
結果:データセットの10%以上のケースで現れる地域のケースのみが保持されます。例えば1,000ケースある場合は、100ケース以上の地域が含まれ、小さい地域は除外されます。
洞察:小規模な地域のノイズを排除し、主要地域に絞ってパターンや傾向の識別が容易になります。
例2: ユニークケースの特定
シナリオ:一意の属性値を持つケースをデータ品質問題や特別な処理が必要なケースとして特定したい。値がデータセット内でちょうど1回現れるケースを探す。
設定:
- 列名: Customer ID
- 比較方法: 等しい
- 閾値タイプ: カウント
- 比較閾値: 1.0
結果:Customer IDがデータセット全体でちょうど1回だけ現れるケースのみを返します。
洞察:これらのユニーク顧客は以下の可能性があります:
- 一度だけ利用した顧客
- 名前の誤入力などのデータ入力ミス
- 削除すべきテストケース
- 特別対応が必要なVIP顧客
例3: 高頻度製品の抽出
シナリオ:少なくとも50ケースで現れるベストセラー製品のみを分析し、成功パターンを理解したい。
設定:
- 列名: Product Name
- 比較方法: 以上
- 閾値タイプ: カウント
- 比較閾値: 50.0
結果:50回以上注文された製品のケースのみを保持します。
洞察:高頻度製品に注目することで、成功した製品処理のパターンや共通のボトルネック、最適化の機会を特定できます。
例4: 稀なプロセスバリアントの除外
シナリオ:プロセスマップが多くの稀なバリアントで複雑化している。開始アクティビティが全ケースの5%未満で現れるものを除外したい。
設定:
- 列名: calcStartActivity
- 比較方法: より小さい
- 閾値タイプ: パーセント
- 比較閾値: 0.05
結果:開始アクティビティが5%未満のケースのみを保持し、稀なバリアントを効果的に選択します。
洞察:例外、エラー、非標準ワークフローを示唆する異常なプロセス開始点を特定するのに役立ちます。
例5: 重複検出の除外
シナリオ:属性値がちょうど2回現れるケースを探し、体系的な重複の可能性を特定したい。
設定:
- 列名: Order Number
- 比較方法: 等しい
- 閾値タイプ: カウント
- 比較閾値: 2.0
結果:Order Numberが正確に2回現れるケースのみを返します。
洞察:これらは以下の可能性がある:
- 重複注文作成を引き起こすシステムエラー
- 同一注文の分割配送
- 注文の修正や改訂
- 複数システムからのデータ統合問題
例6: 低頻度の外れ値除外
シナリオ:全ケースの2%未満のカテゴリケースを除外し、エッジケースを取り除いてデータセットをクリーンにしたい。
設定:
- 列名: Department
- 比較方法: 以上
- 閾値タイプ: パーセント
- 比較閾値: 0.02
結果:全ケースの2%以上を占める部門のケースのみを保持します。
洞察:小規模な部門やテスト部門を除外し、通常のプロセス動作に焦点を当てたクリアなデータセットを作成します。
出力
フィルターは、選択した属性の指定頻度条件を満たすケースのみを含む新しいデータセットを返します。同じ属性値を持つすべてのケースはグループとして扱われ、その値を共有するケースが閾値を満たせばグループ全体が含まれます。
例えば、「Region A」が100ケースあり閾値を満たせば、「Region A」の100ケースすべてが含まれます。フィルターは含まれたケースのすべてのイベントと属性を保持します。
技術的注意事項
- フィルター種別:ケースレベルのフィルター(属性値の頻度に基づいてケース全体を除外)
- グルーピングロジック:指定属性の値ごとにケースをグループ化し、各グループの頻度を閾値と比較
- Null値取り扱い:Null値も他の値と同様に独立したグループとしてカウント
- 対応データ型:整数(Int32、Int64)およびテキスト(String)属性
- 閾値変換:パーセントモードでは、全ケース数に掛けて自動的に絶対数に変換
- 入力検証:属性名を誤入力した場合、類似の列名が提案される
このドキュメントはmindzieStudioプロセスマイニングプラットフォームの一部です。