データセット情報

概要

データセット情報計算機は、プロセス全体のデータセットに関する包括的な統計的概要を提供します。時間範囲、ケース数およびイベント数、アクティビティ統計、データ構造情報などの主要指標をひと目で把握できる形式で表示します。

この計算機は設定不要で、プロセスデータの範囲と特性をすばやく理解するのに最適です。

主な用途

  • 分析開始前に新しいデータセットの範囲を理解する
  • 抽出したデータが期待したボリュームと時間範囲を含んでいるか検証する
  • 統計的プロファイルを比較してデータセットを比較する
  • ケース数およびイベント数の推移を追跡し、プロセスボリュームの傾向を監視する
  • ケースの期間範囲やイベントの分布を確認してデータ品質を検証する
  • レポートやプレゼンテーション用にデータセットのメタデータを生成する

設定

この計算機は、標準のタイトルおよび説明フィールド以外に特別な設定はありません。計算機はデータセット全体を自動的に分析し、利用可能なすべての指標を表示します。

例1: 初期のプロセス発見

シナリオ: 新しい購買から支払いまでのデータセットをインポートしたばかりで、分析を開始する前にその特性を理解したい。

設定:

  • タイトル: 「購入から支払いまでのデータセット概要」
  • 説明: 「2024年第4四半期の調達データ」

出力:

計算機は以下の指標を含む包括的な表を表示します。

  • データセット開始時間: 2024-10-01 00:00:00
  • データセット終了時間: 2024-12-31 23:59:59
  • データセット期間: 92日
  • 最小ケース時間: 2時間
  • 最大ケース時間: 45日
  • 平均ケース時間: 8.5日
  • 中央ケース時間: 6.2日
  • 総ケース数: 1,847
  • 総アクティビティ数: 14,776
  • 1ケースあたり平均アクティビティ数: 8.0
  • アクティビティ数: 23種類のユニークなアクティビティ
  • ケース列数: 15属性
  • アクティビティ列数: 12属性

洞察: このデータセットは約1,900件の購買注文を含む1四半期全体をカバーしています。平均ケース期間の8.5日という値は調達プロセスとして妥当ですが、一部のケースで最大45日かかっており、調査すべき遅延の可能性を示唆しています。23種類の異なるアクティビティがあり、1ケースあたり平均8つのアクティビティがあるため、プロセスは中程度の複雑さを示し、実行パスに多少のばらつきがあります。

例2: フィルター適用データと未適用データの比較

シナリオ: 時間フィルターを適用した場合にデータセットの特性がどう変化するかを理解したい。

設定:

  • 2つのデータセット情報計算機を作成:
    • 「全データセット概要」(フィルターなし)
    • 「過去30日概要」(期間フィルター付き)

出力:

全データセット:

  • 総ケース数: 1,847
  • データセット期間: 92日
  • 平均ケース時間: 8.5日

過去30日:

  • 総ケース数: 623
  • データセット期間: 30日
  • 平均ケース時間: 9.2日

洞察: フィルター適用後のビューは、全体の約3分の1のケースが最新の1か月に該当していることを示しています。興味深いのは、平均ケース期間が8.5日から9.2日に増加しており、プロセスのパフォーマンスが低下している可能性があるため、更なる調査が必要です。

例3: データ品質検証

シナリオ: データ抽出完了後に、すべての期待されるデータが正しく取得されているかを検証したい。

設定:

  • タイトル: 「データ品質チェック」
  • 説明: 「2025年1月抽出の検証」

出力:

  • データセット開始時間: 2025-01-01 00:00:00
  • データセット終了時間: 2025-01-31 23:59:59
  • 総ケース数: 412
  • 総アクティビティ数: 3,296
  • アクティビティ数: 18種類のユニークなアクティビティ

洞察: このデータセットは期待通り、2025年1月の全期間を正しくカバーしています。ケース数は412で、予想される月間ボリュームと一致しています。標準的な18種のアクティビティがすべて含まれており、抽出がすべてのアクティビティタイプを捕捉できていることを確認できました。ケースあたり平均8アクティビティは過去のパターンと一致しています。

例4: パフォーマンスベースラインの記録

シナリオ: 改善イニシアティブを実施する前のプロセスの基準値を記録しておきたい。

設定:

  • タイトル: 「改善前ベースライン指標」
  • 説明: 「請求処理ベースライン - 2025年1月」

出力:

  • 総ケース数: 2,156
  • 平均ケース時間: 12.3日
  • 中央ケース時間: 9.5日
  • 最小ケース時間: 4時間
  • 最大ケース時間: 67日
  • 1ケースあたり平均アクティビティ数: 11.2

洞察: 現在の請求処理は平均12.3日で、非常に幅広いばらつきがあります(4時間から67日)。平均値(12.3日)と中央値(9.5日)の差が大きいことから、一部の非常に長い処理時間の請求書が平均を引き上げていることがわかります。これらの指標は、プロセス変更後の改善を測定するための明確な基準を設定します。

出力

データセット情報計算機は、2列からなる単一の表を表示します。

Name: 各指標の名称

Value: その指標に対応する値

含まれる指標

時間指標:

  • データセット開始時間: データセット内で最も早いイベントのタイムスタンプ
  • データセット終了時間: データセット内で最も遅いイベントのタイムスタンプ
  • データセット期間: データセットがカバーする総期間

ケース期間指標:

  • 最小ケース時間: データセット内の最も短いケース期間
  • 最大ケース時間: データセット内の最も長いケース期間
  • 平均ケース時間: 全ケースの平均期間
  • 中央ケース時間: ケース期間の中央値(中央値)

ボリューム指標:

  • 総ケース数: データセット内のユニークケース数
  • 総アクティビティ数: すべてのケースを通じたイベント総数
  • 1ケースあたり平均アクティビティ数: ケースあたりのイベント数の平均

構造指標:

  • アクティビティ数: プロセス内のユニークなアクティビティタイプ数
  • ケース列数: ケースレベルの属性数
  • アクティビティ列数: イベントレベルの属性数

すべての時間値は分かりやすい形式(例:「8.5日」や「2時間30分」)で表示されます。出力はダッシュボードに追加して継続的な監視に使用したり、ドキュメント化のためにエクスポートできます。


本ドキュメントはmindzie Studioプロセスマイニングプラットフォームの一部です。