値の頻度

概要

値の頻度フィルターは、属性値がデータセット全体で出現する頻度に基づいてケースを選択します。このケースレベルのフィルターは、指定した属性の値ごとにケースをグループ化し、それぞれの値が何回現れるかをカウントし、頻度が指定した閾値を満たすかどうかに基づいてケースを含めるか除外します。閾値は絶対数(例:「少なくとも5回出現」)またはパーセンテージ(例:「少なくとも20%のケースで出現」)のいずれかで設定できます。

このフィルターは、一般的なパターンの特定、稀な外れ値の検出、高頻度カテゴリーへの注目、分析結果に影響を与える稀なエッジケースの除外に特に役立ちます。

一般的な使用例

  • 主要カテゴリに注目:属性値が統計的に有意な頻度で現れるケースのみを保持し、稀な外れ値を排除する。
  • 異常値検出:データセット内で稀にしか現れない属性値を持つ異常または稀なケースを識別する。
  • データ品質分析:一度だけ現れる値を特定し、データ入力ミスや重複レコードの可能性を見つける。
  • 高頻度分析:よく現れる地域、製品、顧客セグメントに分析を集中させる。
  • ノイズ除去:複雑さを加えるだけで有益な洞察をもたらさないエッジケースや低頻度のバリエーションを除去する。
  • パターン認識:特定の頻度(例:ちょうど2回)で現れる値を識別して系統的な問題を発見する。

設定

列名:頻度を解析する属性を選択します。整数およびテキスト属性をサポートします。非表示列やケースID列は選択できません。

比較方法:頻度と閾値の比較方法を選択します:

  • 等しい:値が指定した回数とちょうど同じ頻度で現れるケースを保持
  • より大きい:値が閾値より多く出現するケースを保持
  • 以上:値が閾値以上に出現するケースを保持
  • より小さい:値が閾値より少ない頻度で現れるケースを保持
  • 以下:値が閾値以下の頻度で現れるケースを保持
  • 等しくない:値が指定した頻度と正確に等しくないケースを保持

閾値タイプ:閾値が示す内容を指定します:

  • カウント:出現件数の絶対値
  • パーセント:総ケース数に対する割合(0.0~1.0の小数)

比較閾値:数値の閾値を入力します。カウントモードでは出現回数、パーセントモードでは小数値(例:40%なら0.4)を入力します。

例1: 主要地域に注目

シナリオ:プロセスデータは15の地域のケースを含みますが、分析対象は全ケースの10%以上を占める主要地域だけに絞りたい。

設定

  • 列名: Region
  • 比較方法: 以上
  • 閾値タイプ: パーセント
  • 比較閾値: 0.1

結果:データセットの10%以上のケースで現れる地域のケースのみが保持されます。例えば1,000ケースある場合は、100ケース以上の地域が含まれ、小さい地域は除外されます。

洞察:小規模な地域のノイズを排除し、主要地域に絞ってパターンや傾向の識別が容易になります。

例2: ユニークケースの特定

シナリオ:一意の属性値を持つケースをデータ品質問題や特別な処理が必要なケースとして特定したい。値がデータセット内でちょうど1回現れるケースを探す。

設定

  • 列名: Customer ID
  • 比較方法: 等しい
  • 閾値タイプ: カウント
  • 比較閾値: 1.0

結果:Customer IDがデータセット全体でちょうど1回だけ現れるケースのみを返します。

洞察:これらのユニーク顧客は以下の可能性があります:

  • 一度だけ利用した顧客
  • 名前の誤入力などのデータ入力ミス
  • 削除すべきテストケース
  • 特別対応が必要なVIP顧客

例3: 高頻度製品の抽出

シナリオ:少なくとも50ケースで現れるベストセラー製品のみを分析し、成功パターンを理解したい。

設定

  • 列名: Product Name
  • 比較方法: 以上
  • 閾値タイプ: カウント
  • 比較閾値: 50.0

結果:50回以上注文された製品のケースのみを保持します。

洞察:高頻度製品に注目することで、成功した製品処理のパターンや共通のボトルネック、最適化の機会を特定できます。

例4: 稀なプロセスバリアントの除外

シナリオ:プロセスマップが多くの稀なバリアントで複雑化している。開始アクティビティが全ケースの5%未満で現れるものを除外したい。

設定

  • 列名: calcStartActivity
  • 比較方法: より小さい
  • 閾値タイプ: パーセント
  • 比較閾値: 0.05

結果:開始アクティビティが5%未満のケースのみを保持し、稀なバリアントを効果的に選択します。

洞察:例外、エラー、非標準ワークフローを示唆する異常なプロセス開始点を特定するのに役立ちます。

例5: 重複検出の除外

シナリオ:属性値がちょうど2回現れるケースを探し、体系的な重複の可能性を特定したい。

設定

  • 列名: Order Number
  • 比較方法: 等しい
  • 閾値タイプ: カウント
  • 比較閾値: 2.0

結果:Order Numberが正確に2回現れるケースのみを返します。

洞察:これらは以下の可能性がある:

  • 重複注文作成を引き起こすシステムエラー
  • 同一注文の分割配送
  • 注文の修正や改訂
  • 複数システムからのデータ統合問題

例6: 低頻度の外れ値除外

シナリオ:全ケースの2%未満のカテゴリケースを除外し、エッジケースを取り除いてデータセットをクリーンにしたい。

設定

  • 列名: Department
  • 比較方法: 以上
  • 閾値タイプ: パーセント
  • 比較閾値: 0.02

結果:全ケースの2%以上を占める部門のケースのみを保持します。

洞察:小規模な部門やテスト部門を除外し、通常のプロセス動作に焦点を当てたクリアなデータセットを作成します。

出力

フィルターは、選択した属性の指定頻度条件を満たすケースのみを含む新しいデータセットを返します。同じ属性値を持つすべてのケースはグループとして扱われ、その値を共有するケースが閾値を満たせばグループ全体が含まれます。

例えば、「Region A」が100ケースあり閾値を満たせば、「Region A」の100ケースすべてが含まれます。フィルターは含まれたケースのすべてのイベントと属性を保持します。

技術的注意事項

  • フィルター種別:ケースレベルのフィルター(属性値の頻度に基づいてケース全体を除外)
  • グルーピングロジック:指定属性の値ごとにケースをグループ化し、各グループの頻度を閾値と比較
  • Null値取り扱い:Null値も他の値と同様に独立したグループとしてカウント
  • 対応データ型:整数(Int32、Int64)およびテキスト(String)属性
  • 閾値変換:パーセントモードでは、全ケース数に掛けて自動的に絶対数に変換
  • 入力検証:属性名を誤入力した場合、類似の列名が提案される

このドキュメントはmindzieStudioプロセスマイニングプラットフォームの一部です。