Small Ends フィルター

概要

Small Ends フィルターは、イベントログの開始および終了部分の低活動期間を自動的にトリミングします。このインテリジェントなケースレベルのフィルターは、平均を大きく下回るイベント量の「ウォームアップ」および「クールダウン」期間を検出し、それらの期間内に完全に収まるケースを除去します。これにより、データ収集のアーティファクトや季節的な低活動期ではなく、通常のビジネス活動期間に分析を集中させることができます。

主な利用例

  • プロセスが安定する前のシステム稼働開始期間のデータを除去
  • 抽出終了期間で不完全な可能性があるデータを除外
  • 活動が減少する休暇期間をフィルタリング
  • ログ境界に起因するデータ品質の問題を排除
  • 代表的なプロセス挙動が見られる期間に分析を絞る
  • イベントログをクリーンアップして正確なスループットやパフォーマンス指標を得る

設定

Start Factor: 平均日次イベント数に掛ける倍率(0.0~1.0)。ログ開始の日で、イベント数が(Start Factor × 平均イベント数)未満の日はトリムされます。値が小さいほど許容的で多くのデータを保持し、大きいほど積極的に早期データを除去します。

End Factor: 平均日次イベント数に掛ける倍率(0.0~1.0)。ログ終了の日で、イベント数が(End Factor × 平均イベント数)未満の期間がトリムされます。Start Factorと同様に機能しますが、ログの末尾に適用されます。

デフォルト値: 両方とも0.1(10%)に設定されています。これは平均日次活動の10%未満の活動の日を「小さい」と見なし、トリムすることを意味します。

例 1: 標準クリーンアップ

シナリオ: イベントログは、取引が少なかったシステム導入期間で始まり、抽出日から不完全なデータで終わっています。これらの低活動期間を自動的にトリムしたい。

設定:

  • Start Factor: 0.1
  • End Factor: 0.1

結果:

フィルターはログ全体の平均イベント数(例:500イベント/日)を計算します。50イベント未満の日を低活動日と見なします。開始の5日間がそれぞれ10、25、30、45、80イベントだった場合、4日目以降が対象となります。同様に終了部分の低活動日もトリムされます。

ポイント: 日付を手動で選ぶことなくデータ境界の問題を自動的に処理し、代表的な活動レベルのみを含む分析が可能になります。

例 2: 積極的な開始トリミング

シナリオ: プロセスデータには完全展開前の長いパイロット期間があります。初期データは積極的にトリムしつつ、ログ終端のデータは保持したい。

設定:

  • Start Factor: 0.3
  • End Factor: 0.1

結果:

開始の日で平均日次活動の30%未満はトリムされます。これによりパイロットや立ち上げ期間がより広範に除去されます。終了は標準の10%を用い、より最近のデータを保持します。

ポイント: 非対称なファクターでログの開始と終了が異なる特性を持つ場合に対応可能です。パイロット期間は通常より長い立ち上げが見られます。

例 3: 最小限のトリミング

シナリオ: できる限り多くのデータを残しつつ、ログ境界の明らかなデータ品質問題だけを除去したい。

設定:

  • Start Factor: 0.05
  • End Factor: 0.05

結果:

平均日次活動の5%未満の極端に低い活動日のみがトリムされます。これにより、大半のデータや季節的な中程度の変動は保持されます。

ポイント: 業務に自然な活動変動があり、週末や季節的な低下など正当な低活動期間を誤って除去したくない場合に低いファクターを使います。

例 4: 季節的境界の除去

シナリオ: ログは1年間をカバーしていますが、抽出タイミングの関係で開始および終了部分に12月(休暇期間)が含まれています。非休暇期間に注力したい。

設定:

  • Start Factor: 0.4
  • End Factor: 0.4

結果:

平均活動の40%未満の日が両端からトリムされます。これにより活動が大幅に低下した休暇期間を効果的に除去できます。

ポイント: 季節変動を除外したい場合にファクターを大きくすると有効ですが、正当なデータを過剰に除去しないよう注意が必要です。

例 5: 新システム導入

シナリオ: 新システムが3ヶ月前に稼働開始し、最初の1ヶ月はユーザー研修や移行で活動が非常に低かった。

設定:

  • Start Factor: 0.5
  • End Factor: 0.1

結果:

実装・研修期間で活動が50%未満の最初の部分が除去され、最近のデータは終端のトリミングを最小限に抑えて保持されます。システム安定後の期間に分析を集中できます。

ポイント: 実装期間は通常の運用を反映しないパターンを示すことが多く、除去することでプロセス指標が実運用性能を正確に反映します。

動作の仕組み

  1. 日次イベント数の集計: ログ内の各日のイベント数をカウントします
  2. 平均活動量の計算: 期間全体の平均日次イベント数を求めます
  3. 開始境界の検出: ログ開始から(Start Factor × 平均)を超える最初の日を探します
  4. 終了境界の検出: ログ終了から(End Factor × 平均)を超える最後の日を探します
  5. 期間の適用: 計算した日付境界内に含まれるケースのみをフィルタリングします

出力

このフィルターは時間的境界に基づきケースレベルで動作します:

  • 平均日次イベント数に基づいて活動の閾値を自動計算
  • ログ開始の日で「通常」活動が始まる最初の日を特定
  • ログ終了の日で「通常」活動が終わる最後の日を特定
  • 計算された通常活動期間内に含まれるケースを返します
  • 含まれるケースのすべてのケース属性とイベント属性を保持
  • ファクターは0と1の間(排他)である必要があります

Small Ends フィルターを使用してイベントログの境界を自動でクリーンにし、導入期間やデータ抽出の影響、季節的な異常ではなく通常のビジネス運用を反映した分析を実現しましょう。


このドキュメントは mindzie Studio プロセスマイニングプラットフォームの一部です。