重複ケースフィルター
概要
重複ケースフィルターは、複数の指定された列で同一の値を共有するケースを識別し選択します。この高度なケースレベルのフィルターは、潜在的な重複トランザクション、繰り返しの提出、または同じビジネスエンティティが複数回プロセスデータに現れるデータ品質の問題を検出するのに役立ちます。
よくある使用例
- 買掛金での重複請求書の提出を特定する
- 同一内容の繰り返し顧客注文を見つける
- 重複トランザクションパターンによる潜在的な不正を検出する
- 複製されたレコードによるデータ移行の問題を発見する
- 統合されるべきケースを特定する
- 繰り返しの提出や要求のパターンを分析する
設定
Column Names: 重複検出に使用する2~5列を選択します。選択したすべての列で同一の値を持つケースは重複とみなされます。比較可能なデータ型の列のみ選択可能です(String、Integer、DateTimeなど)。
動作方法:
- 選択されたすべての列の値でケースをグループ化
- 2件以上のケースを含むグループを特定
- 重複グループに属するすべてのケースを返す
- 結果はグループサイズ順(最大の重複グループを先頭)で並べ替え
サポートされている列の種類: String、Int32、Int64、Double、Single、DateTime、TimeSpan
例
例1: 重複請求書検出
シナリオ: 買掛金プロセスで、ベンダー、金額、請求日が一致する潜在的な重複請求書を見つけたい。
設定:
- Column Names: ["Vendor", "Invoice Amount", "Invoice Date"]
結果:
3つすべての値が一致するケースがグループ化されます。グループ1:2024-01-15付けで「Acme Corp」からの$10,000の請求書5件。グループ2:2024-02-01付けで「Beta LLC」からの$5,500の請求書3件。ユニークな組み合わせの単一請求書は除外されます。
洞察: ベンダー、金額、日付が同一の複数の請求書は、重複提出による重複支払いの可能性を示し、調査および防止が必要です。
例2: 顧客注文の重複
シナリオ: 顧客が複数回提出してしまうことがあるため、顧客、製品、数量が一致する注文を見つけたい。
設定:
- Column Names: ["Customer ID", "Product Code", "Order Quantity"]
結果:
顧客、製品、数量が一致する注文が検出されます。これは短期間に同じ注文を複数回誤って提出したケースを捉えます。
洞察: 重複注文は履行コストを増加させ、在庫問題を生み出し、不要な重複商品により顧客不満を引き起こします。
例3: トランザクションパターン分析
シナリオ: 金額、送金元アカウント、トランザクション時間が一致する取引を調べて潜在的な不正を調査中。
設定:
- Column Names: ["Source Account", "Amount", "Transaction Hour"]
結果:
同一アカウント、同一金額、同一時間帯のトランザクションがグループ化されます。このパターンは自動的不正やシステムエラーによる重複トランザクションの可能性を示します。
洞察: 正当な取引で複数フィールドが同一のケースはまれであり、高い重複率は特定アカウントや時間帯の調査を要します。
例4: データ移行検証
シナリオ: レガシーシステムからのデータ移行後、移行過程でレコードが重複していないか確認したい。
設定:
- Column Names: ["Legacy ID", "Creation Date"]
結果:
同じレガシーIDと作成日を持つレコードが潜在的な移行重複として検出されます。移行が問題なければ結果は空となるはずです。
洞察: 移行重複は報告の誤差、コンプライアンス問題、業務混乱を引き起こします。これらを特定することで下流の問題発生前にデータをクリーンアップ可能です。
例5: 複数列マッチング
シナリオ: ベンダー、金額、部署、依頼日で包括的にマッチングして重複購入注文を見つけたい。
設定:
- Column Names: ["Vendor Name", "PO Amount", "Department", "Requested Date"]
結果:
4つのすべての条件が一致する購入注文が特定されます。この厳密なマッチングにより誤検知を減らしつつ、調達管理をすり抜けた真の重複を捕捉します。
洞察: より多くの列を使えばマッチングは厳密かつ精密になります。探索段階では少ない列から始め、誤検知を減らすために徐々に増やすことを推奨します。
出力
このフィルターは複数列のグルーピングを用いたケースレベルで動作します:
- 指定されたすべての列の値でケースをグループ化
- 2件以上のグループに現れるケースのみ返す
- 結果は重複グループサイズ順(最大から)で並べ替え
- 重複検出には2~5列が必要
- 列のデータ型は比較可能でなければならない
- 非表示列およびケースID列は除外
- 一致したケースのすべてのケースおよびイベント属性を保持
重複ケースフィルターを使用して、潜在的なデータ品質問題を特定し、重複提出を検出、または同一のビジネストランザクションが複数回入力されたケースを発見してください。
このドキュメントはmindzie Studioプロセスマイニングプラットフォームの一部です。