Follows Graphs

注意: これは管理者専用の計算機であり、テストおよびデータ品質分析用に設計されています。ほとんどのユーザーは視覚的なプロセス分析のためにProcess Map計算機を使用すべきです。

概要

Follows Graphs計算機は、プロセス内のアクティビティ同士がどのように関連しているかについての詳細データを生成します。計算する関係は2種類あり、直接的に後続する関係(あるアクティビティが別のアクティビティにすぐに続く)と、最終的に後続する関係(介在アクティビティがあっても、ケース内の任意の時点で一方のアクティビティが別の前に発生する)です。

インタラクティブな可視化を提供するProcess Map計算機とは異なり、Follows Graphsは完全なグラフ計算を実行し、詳細な分析、テスト、パフォーマンスベンチマーク、データ品質検証に適した構造化されたデータテーブルを出力します。この計算機は、主に技術的分析や外部ツールへのエクスポートのために生のグラフデータへのアクセスが必要な管理者やプロセスマイニングアナリストによって使用されます。

主な用途

  • グラフ計算アルゴリズムの正確性とパフォーマンスのテストと検証
  • データセットのサイズや複雑さによる計算パフォーマンスのベンチマーク
  • イベントのタイムスタンプが同一のデータ品質問題の特定
  • R、Python、Gephiなどの外部ツールでの解析用に詳細なグラフデータをエクスポート
  • 特定のアクティビティペアの継続時間分布の詳細分析
  • 開発中および回帰テスト時のプロセスマイニングアルゴリズムの検証

設定

この計算機には設定項目はありません。実行毎に全ケースと全イベントを処理して完全なグラフデータを生成します。

例1: 同一タイムスタンプによるデータ品質問題の特定

シナリオ: イベントログのタイムスタンプの精度に問題があり、複数のアクティビティが同一タイムスタンプになっているため正しい順序を判定できません。どのアクティビティペアが影響を受けているか、またその頻度を特定したい。

設定:

設定不要。

出力:

計算機は5つのデータテーブルを生成します。テーブル2と3はタイムスタンプが同一で判定不可能なペアを示します:

DirectlyFollows-Indeterminateテーブル:

  • Create Invoice と Send Invoice:127件
  • Receive Payment と Record Payment:89件
  • Approve Request と Notify Approver:45件

EventuallyFollows-Indeterminateテーブルは上記同ペアに加え、ゼロ継続時間の追加の最終後続関係も示します。

Statsテーブルは以下を示します:

  • 計算時間:2,347 ミリ秒
  • テーブルへの変換時間:156 ミリ秒
  • 総計算数:1,247,893

洞察: 判定不可能なペアの多さはイベントログのタイムスタンプ精度に重大な問題があることを示しています。最も一般的なのはCreate InvoiceとSend Invoiceが127件で全く同時刻に発生しています。これはこれらのイベントが日付のみの精度で記録されているか、ソースシステムが同一タイムスタンプを付与している可能性が高いです。これらのアクティビティが本当に同時か、データ抽出処理で時刻情報が失われていないか調査してください。このデータ品質問題はプロセス分析の正確性に影響を与えるため、ソースデータのタイムスタンプ精度向上による解決が必要です。

例2: データセット規模別パフォーマンスベンチマーク

シナリオ: プロセスマイニング基盤の最適化を進めており、データセットサイズに応じたグラフ計算のパフォーマンス変化を把握し、リソース配分計画に役立てたい。

設定:

設定不要。

出力:

段階的に大きなデータセットで計算し、Statsテーブルを確認:

10,000ケース:

  • 計算時間:847 ミリ秒
  • 総計算法数:186,234

50,000ケース:

  • 計算時間:4,521 ミリ秒
  • 総計算法数:931,170

100,000ケース:

  • 計算時間:9,234 ミリ秒
  • 総計算法数:1,862,340

DirectlyFollowsテーブルは156のユニークアクティビティペア、EventuallyFollowsテーブルは2,847ペアを持ち、最終的に後続する関係の網羅性を示します。

洞察: ケース数に対して計算時間はほぼ線形に伸びていますが、総計算法数からわかるように、多くのイベントを持つケースではEventuallyFollowsの計算がDirectlyFollowsよりはるかにコストがかかる(アルゴリズムの二次的計算量のため)ことがわかります。10万ケースを超える場合は計算前に対象ケースを絞るか追加リソースの確保を推奨します。テーブル変換の時間はデータセットサイズにかかわらず低く一定しているためボトルネックではありません。

例3: 外部研究分析用のプロセスデータエクスポート

シナリオ: 大学の研究チームと協力してプロセス最適化アルゴリズムを研究しており、新しい分析手法の検証のために標準形式の生プロセスグラフデータが必要です。完全な継続時間統計を含むプロセス関係をエクスポートしたい。

設定:

設定不要。

出力:

計算機は243のユニークアクティビティペアを含むDirectlyFollowsテーブルを生成:

DirectlyFollowsテーブルの一部例:

  • Submit Claim -> Validate Documents: カウント=1,847、平均=2.3日、中央値=1.8日、標準偏差=3.2日
  • Validate Documents -> Approve Claim: カウント=1,245、平均=4.7日、中央値=3.1日、標準偏差=6.8日
  • Validate Documents -> Request Additional Info: カウント=602、平均=1.2日、中央値=0.9日、標準偏差=2.1日

EventuallyFollowsテーブルは4,892ペアを含み、非連続を含めた全てのアクティビティ関係を網羅します。

洞察: DirectlyFollowsテーブルをCSVでエクスポートし研究チームに提供可能です。テーブルはアクティビティ名、関係頻度、平均、中央値、標準偏差、最小・最大値を含む継続時間統計を完全に含み、プロセスマイニング研究に必要な情報が揃っています。EventuallyFollowsテーブルは長距離依存関係を研究する研究者にさらに有用な資料となります。構造化された出力形式はRやPythonなどの解析ツールへの取り込みを容易にします。

例4: プロセスマイニングアルゴリズム変更の検証

シナリオ: 開発チームが性能向上のためグラフ計算アルゴリズムを変更しました。出力結果が以前と完全に一致し、回帰(既存機能の破壊)がないことを確認したい。

設定:

設定不要。

出力:

既知のテストデータセット(5ケース、11イベント)にて旧版と新版を実行比較:

DirectlyFollowsテーブル(両版):

  • ユニークアクティビティペア数:8
  • 各ペアのカウントが完全一致
  • 継続時間統計も一切の差異なし

EventuallyFollowsテーブル(両版):

  • ユニークアクティビティペア数:28
  • 全カウントが正確に一致
  • 全継続時間統計も浮動小数点精度内で一致

Statsテーブル比較:

  • 旧アルゴリズム:89ミリ秒
  • 新アルゴリズム:42ミリ秒
  • 両者計算数:138

洞察: 検証により、最適化により計算時間が53%短縮された一方で出力内容は全く変わっていないことが確認されました。全アクティビティペア、カウント、継続時間統計が完全一致し回帰ゼロを証明しています。計算数が同じであることも両アルゴリズムが同一イベントペアを処理している証左です。性能改善時にはこのような検証を必ず行い、正確性を確保してください。これで安心して最適化済みアルゴリズムを本番展開できます。

例5: 特定アクティビティペアの継続時間変動の分析

シナリオ: 運用チームから書類検証と承認アクティビティ間の処理時間が不安定だと報告されました。この特定のアクティビティペアの詳細な継続時間統計を得て、ばらつきの把握と複数の異なるパターンが存在するか判別したい。

設定:

設定不要。

出力:

DirectlyFollowsテーブルの「Validate Documents -> Approve」ペアを見ると:

Activity1: Validate Documents
Activity2: Approve
件数: 3,247回
平均継続時間: 5.8日
中央値継続時間: 2.3日
標準偏差: 12.4日
最小継続時間: 0.2日
最大継続時間: 87.3日

平均と中央値の大きなギャップは右裾に偏った分布を示し、一部の著しい外れ値を示唆します。高い標準偏差はかなりの変動があることを意味します。

洞察: 中央値の2.3日に対し平均が5.8日と大きく乖離していることから、大半のケースは比較的速やかに処理されているものの、一部のケースはかなり長引き平均値を押し上げています。最大87.3日の極端な外れ値は詳細調査が必要です。最小0.2日は一部が高速処理されていることを示します。このばらつきから、ケースを複数グループに分類して高速・通常・遅延処理の違いを特定すべきです。生のイベントペアデータを掘り下げ異常な継続時間ケースの特性把握も有効です。

出力

Follows Graphs計算機は包括的なプロセスグラフ情報を含む5つの構造化されたデータテーブルを生成します:

テーブル0: DirectlyFollows

介在する他のアクティビティがなく、一方のアクティビティが直後に後続する全ペアを示します。

カラム: Key(アクティビティペア識別子)、Activity1(第1アクティビティ)、Activity2(第2アクティビティ)、Count(発生頻度)、MeanDuration、MedianDuration、StdevDuration、MinDuration、MaxDuration

通常はEventuallyFollowsテーブルよりも関係数が少なく、連続ペアのみを含みます。

テーブル1: EventuallyFollows

介在するアクティビティの有無にかかわらず、一方のアクティビティがケース内の任意の時点で前に発生する全ペアを示します。

カラム: DirectlyFollowsと同構成

介在アクティビティを含むため非常に大きなテーブルとなり、例えば10イベントのケースで45ペアが含まれます(DirectlyFollowsは9ペアのみ)。

テーブル2: DirectlyFollows-Indeterminate

イベントのタイムスタンプが同一で順序付けが不定な直接的後続ペアを特定します。

カラム: Key(無向ペア識別子)、Activity1、Activity2、Count

精度の高いログではゼロかごくわずかのペアのみのはずです。多い場合はデータ品質に問題があります。

テーブル3: EventuallyFollows-Indeterminate

同一タイムスタンプによる最終的後続ペアを特定します。

カラム: DirectlyFollows-Indeterminateと同構成

通常はDirectlyFollows-Indeterminateと同様のペアを含みます。

テーブル4: Stats

計算全体のパフォーマンス指標を含みます。

カラム: CalculationTime(グラフ計算時間:ミリ秒)、FillTablesTime(テーブル変換時間:ミリ秒)、Calculations(比較したイベントペア数の合計)

データセット容量の増大による計算負荷を把握し、効率的な処理の目安に活用してください。

データエクスポートオプション:

全テーブルはCSVまたはExcel形式でエクスポート可能で、外部ツールでの追加分析に利用できます。構造化形式のため統計ソフトやグラフ可視化ツール、カスタム分析スクリプトへのインポートが容易です。


本ドキュメントはmindzieStudioプロセスマイニングプラットフォームの一部です。