フィルタ処理ログ

概要

フィルタ処理ログのエンリッチメントは、指定されたフィルタ条件に基づいてプロセスデータセットから不要なケースやイベントを永久的に削除する強力なデータクリーンアップオペレーターです。分析中にデータを一時的に非表示にする一時的なフィルタリングとは異なり、このエンリッチメントはフィルタリングされたデータをログから物理的に削除し、より小さく焦点を絞ったデータセットを作成します。この永久的なフィルタリングは、プロセスマイニングプロジェクトにおけるデータ品質管理、プライバシーコンプライアンス、パフォーマンス最適化に不可欠です。

このエンリッチメントは、実際のイベントログ構造を変更することにより、プロセスマイニングの最も基本的なレベルで機能します。このエンリッチメントを適用すると、定義された基準に対して各ケースを評価し、要件を満たさないすべてのケース(およびそれに関連するイベント)を削除します。結果として、関連するプロセスインスタンスのみを含む効率化されたデータセットが生成され、その後のすべての分析がより迅速かつ正確になります。これは、大規模データセットで不要なデータが重要なパターンを覆い隠す場合や、異なるステークホルダーグループ向けにプロセスの専門的なビューを作成する必要がある場合に特に有用です。

フィルタ処理ログのエンリッチメントは、その永久的な性質で独自です - 一度実行すると、フィルタリングされたデータは作業データセットから削除されます。これにより、本番環境用のデータセットの作成、テストデータの除去、外れ値の排除、特定の期間や事業セグメントに焦点を当てる際に理想的なツールとなります。このエンリッチメントは、mindzieStudio全体で使用されている強力なフィルタリングエンジンを活用しており、複雑な論理を伴う複数のフィルタ条件を組み合わせて保持するデータを正確に定義できます。

よくある用途

  • 本番分析前にテストケースやダミーデータを削除する
  • 期間比較のために特定の期間のデータを抽出する
  • プロセス指標を歪める不完全なケースを排除する
  • 企業全体のログから部門別や地域別のデータセットを作成する
  • 標準的なプロセスパターンを歪める外れ値や異常値を除去する
  • 機微なケースカテゴリをフィルタリングしてデータプライバシーを確保する
  • 複雑な分析におけるパフォーマンス向上のためにデータセットサイズを削減する

設定

フィルタリスト: プロセスログから保持または削除するケースを定義する中核設定コンポーネントです。三点リーダーメニューからフィルタ設定にアクセスでき、複数のフィルタ条件を追加できます。各フィルタはケース属性、イベント属性、タイムスタンプ、アクティビティ名など、データの異なる側面を対象にできます。AND/OR論理でフィルタを組み合わせ、複雑な選択基準を作成可能です。フィルタインターフェースはコードなしで複雑なフィルタ論理を構築できるビジュアルビルダーを提供します。主なフィルタタイプは以下の通りです:

  • 属性フィルタ:ケースやイベントの属性値に基づく
  • 時間フィルタ:特定の日付範囲や期間を選択
  • アクティビティフィルタ:特定のアクティビティを含むまたは除外するケース
  • パフォーマンスフィルタ:期間、スループットなどの指標に基づく
  • コンプライアンスフィルタ:プロセスルールに適合または違反するケース

フィルタリストは設定の保存と読み込みをサポートし、異なるデータセットやプロジェクトで共通のフィルタパターンを再利用できます。

例 1: 本番データセットからテストデータを除去する

シナリオ: SAP導入において、システム検証中に作成された特定の接頭辞でマークされたテスト取引を、本当のビジネスプロセス分析前に削除する必要があります。テストデータを含めると指標が歪みます。

設定:

  • フィルタリスト設定:
    • フィルタ 1: Order_Number が "TEST" で始まらない
    • フィルタ 2: Customer_Name が "Dummy Customer" と等しくない
    • フィルタ 3: Created_Date が "2024-01-01" より後
    • 論理: フィルタ 1 AND フィルタ 2 AND フィルタ 3

出力: 以下に該当するすべてのケースを削除:

  • "TEST" で始まる注文番号(例:"TEST_001", "TEST_PO_2024")
  • 顧客名が正確に "Dummy Customer"
  • 2024年1月1日より前に作成されたケース

元のデータセット:150,000ケース、230万イベント フィルタ後データセット:142,000ケース、218万イベント 削除:8,000のテストケースとそれに関連する120,000のイベント

洞察: クリーンなデータセットは実際のビジネス運用を正確に表現し、プロセスメトリクスやコンプライアンス分析の信頼性が向上します。パフォーマンス計算、サイクルタイム、ボトルネック分析は人工的なテストシナリオではなく実運用の課題を反映します。

例 2: 高額購買注文を抽出する

シナリオ: 複数カテゴリにわたる調達プロセスで、管理側は承認ワークフローを最適化しコスト削減機会を特定するため、5万ドル以上の高額購買注文にのみ焦点を当てたい。

設定:

  • フィルタリスト設定:
    • フィルタ 1: Total_Order_Value が 50000 より大きい
    • フィルタ 2: Order_Status が "Cancelled" ではない
    • フィルタ 3: Order_Type が ["Standard PO", "Contract PO", "Planned PO"] に含まれる
    • 論理: フィルタ 1 AND フィルタ 2 AND フィルタ 3

出力: 以下のケースのみを含む焦点化データセット:

  • 5万ドルを超える購買注文
  • 取消されていないアクティブな注文
  • 標準的なビジネス注文タイプ(緊急やスポット購入を除く)

フィルタ前:45,000件の購買注文 フィルタ後:3,200件の高額注文(全支出の72%) イベント数:890,000から95,000に減少

洞察: フィルタ後のデータセットでは、高額注文が異なる承認パターンを持ち、より長いサイクルタイムと多くの関係者を含むことが明らかになります。この視点で、財務的影響が最も大きい注文に対する的確なプロセス最適化が可能となります。

例 3: 地域別データセットを作成する

シナリオ: 多国籍企業がGDPRコンプライアンス要件や地域特有のプロセス差異のために、欧州地域のプロセス分析を別個に作成する必要がある。

設定:

  • フィルタリスト設定:
    • フィルタ 1: Region が "Europe"
    • フィルタ 2: Country が ["Germany", "France", "Italy", "Spain", "Netherlands", "Belgium"] のいずれか
    • フィルタ 3: Process_Start_Date が "2024-01-01" から "2024-12-31" の間
    • 論理: (フィルタ 1 OR フィルタ 2) AND フィルタ 3

出力: 2024年カレンダー年の欧州全ケースを抽出:

  • 元の世界的データセット:500,000ケース、35か国
  • フィルタ後欧州データセット:185,000ケース、6か国
  • イベント数:850万から310万に減少
  • 非欧州データは作業データセットから完全に除去

洞察: 地域限定データセットは地域のデータ規制に準拠し、欧州固有のプロセスパターンを明らかにし、詳細な地域分析や最適化のために管理可能なデータサイズを提供します。

例 4: 完了済みの医療エピソードに注目する

シナリオ: 病院が治療効果や資源利用を正確に評価するために、進行中の治療や管理訪問を除き、完全に完了した患者治療エピソードのみを分析したい。

設定:

  • フィルタリスト設定:
    • フィルタ 1: Episode_Status が "Completed"
    • フィルタ 2: Treatment_Type が "Administrative" ではない
    • フィルタ 3: Has_Clinical_Outcome が "Yes"
    • フィルタ 4: Duration_Days が 1 から 365 の間
    • 論理: フィルタ 1 AND フィルタ 2 AND フィルタ 3 AND フィルタ 4

出力: 以下のみを含むフィルタ後データセット:

  • 結果が記録された完了済み治療エピソード
  • 管理訪問を除外した臨床治療
  • 現実的な期間範囲(1日〜365日)

元のデータセット:120,000患者エピソード フィルタ後データセット:78,000完了した臨床エピソード 除去:42,000不完全、管理または外れ値ケース

洞察: クリーンなデータセットは治療期間、資源使用、臨床経路の正確な指標を提供し、不完全データのノイズなしに信頼できる品質指標やプロセス改善を可能にします。

例 5: 標準プロセス解析のために外れ値を除去する

シナリオ: 製造会社が設備故障や特異事象を表す極端な外れ値を除去し、典型的な95%のケースに焦点を当てて標準生産プロセスを分析したい。

設定:

  • フィルタリスト設定:
    • フィルタ 1: Cycle_Time_Hours が 2 から 48 の間
    • フィルタ 2: Number_of_Rework_Loops が 3 未満
    • フィルタ 3: Production_Status が ["Emergency", "Experimental", "Failed"] に含まれない
    • フィルタ 4: Defect_Rate が 0.05 未満
    • 論理: フィルタ 1 AND フィルタ 2 AND フィルタ 3 AND フィルタ 4

出力: 以下の外れ値ケースを削除:

  • 極端なサイクルタイム(2時間未満または48時間超)
  • 過剰な手戻り(3回以上)
  • 標準的でない生産実行
  • 高い欠陥率(5%超)

前:25,000生産実行、高いばらつき 後:23,750標準生産実行 削除:1,250外れ値ケース(全体の5%)

洞察: フィルタ後のデータセットは通常の運用状況を表し、正確な基準メトリクス、現実的な改善目標、標準プロセス変動と例外イベントの識別を可能にします。

出力

フィルタ処理ログのエンリッチメントは、以下の特徴を持つ永久的に修正されたデータセットを生成します:

修正されたプロセスログ: フィルタ条件を満たすケースのみを含む新しい SuperLog オブジェクトを返します。フィルタされたケースおよび関連イベントは作業データセットから完全に削除されます。この操作は現在の分析セッション内で不可逆です。

ケース数の減少: データセット内のケース数はフィルタ条件に基づいて減少します。データセット統計でこの減少をモニタリングし、フィルタリングが期待通りに機能していることを確認できます。

イベント数の影響: ケースが削除されると、そのケースに属するすべてのイベントも削除されます。多くのイベントを含むケースでは、イベント数の大幅な削減が見られます。

保持されるデータ構造: ケースおよびイベントレベルのすべての既存属性は保持されます。エンリッチメントはケース全体のみを削除し、残存ケースの構造や内容は変更しません。

パフォーマンスの利点: 減少したデータセットサイズにより、その後のすべてのエンリッチメント、フィルタ、計算の実行が高速化されます。これは特に複雑なプロセスマイニング操作で顕著です。

下流への影響: すべての分析、視覚化、エクスポートはフィルタ後のデータセットを反映します。元の完全なデータを参照する必要がある場合は必ずコピーを保存してください。

注意事項

永久操作: 一時的にデータを非表示にする可視化フィルタと異なり、このエンリッチメントは作業データセットからデータを永久的に削除します。適用前に元のデータのバックアップを必ず保持してください。

処理の順序: 無関係なデータが分かっている場合は、分析ワークフローの早期にこのエンリッチメントを適用してください。これにより、後続すべての処理のパフォーマンスが向上します。

フィルタ検証: エンリッチメント実行前にプレビュー機能でフィルタをテストし、保持したいデータのみが残ることを確認してください。

連鎖効果: ケース削除はパーセンタイル計算や相対パフォーマンス指標など、完全なデータセットを前提とした計算に影響を与える可能性があります。


このドキュメントはmindzie Studioプロセスマイニングプラットフォームの一部です。