mindzieのデュアルデータセットアーキテクチャの理解

概要

mindzie Studioにデータをアップロードすると、プラットフォームは自動的に2つの異なるデータセットを作成し、これらが連携してプロセスマイニング分析を支えます。これらのデータセットの違いと、どのタイミングでどちらを使うべきかを理解することは、mindzie Studioを効果的に使いこなすための基本です。

このガイドでは、デュアルデータセットアーキテクチャ、mindzieのデータパイプラインがどのようにデータを変換するか、および初回データインポート時に自動的に何が起こるかを解説します。

2つのデータセット

Original Dataset

Original Datasetは、mindzie Studioに最初にアップロードする生のイベントログです。このデータセットはCSVファイルでアップロードされた場合も、mindzie Data Designerを通じてソースシステムから取り込まれた場合も、提供されたままのプロセスデータを含みます。

特徴:

生データを元の形で保持
インポートしたカラムや属性のみを含む（Case ID、Activity、Timestamp、Resource、および追加属性）
分析中は変更されない
すべての後続のデータ処理の基盤となる

Original Datasetの使用シーン:

ソースデータの検証を行うとき
データ品質チェック・検証のため
変換が行われる前の元のデータ内容を理解したいとき

Enriched Dataset

Enriched Datasetは、mindzie Studioのデータパイプライン実行後に自動的に作成されるデータセットです。計算されたすべての属性、パフォーマンス指標、適合性フラグ、ログエンリッチメントエンジンによって付加されたその他の強化情報を含む拡張版データです。

特徴:

データインポート時に自動的に作成される
元の属性に加えて新たに計算された属性をすべて含む
エンリッチメント計算を実行するたびに更新される
すべての分析、調査、ダッシュボードの基盤となる

Enriched Datasetの使用シーン:

すべての分析と調査作業で使用（分析の主要データセット）
ダッシュボードやKPIの作成時
パフォーマンス指標、適合ルール、カスタムエンリッチメントの活用時
日々のプロセスマイニング業務で

データセットビュー Original DatasetとEnriched Datasetの両方を表示したDatasetsビュー

データパイプラインの仕組み

mindzie Studioにデータをアップロードすると、自動で以下のことが行われます：

ステップ1：データのインポートと検証

CSVファイルやmindzie Data Designerからのデータがmindzie Studioに読み込まれます。システムは：

データフォーマットと構造の検証
主要カラム（Case ID、Activity、Timestamp、Resource）のマッピング
カラムタイプとデータタイプの割り当て
Original Datasetの作成

ステップ2：自動パイプライン実行

データアップロード後に「保存」をクリックすると、mindzie Studioは自動的に：

データパイプラインを実行
Enriched Datasetを作成
分析能力を強化する基礎属性を追加

ステップ3：デフォルト分析の生成

すぐに分析を開始できるよう、mindzie Studioは以下の役立つデフォルト分析を自動生成します：

プロセス概要
長時間を要したケース
主要プロセスステップ間の期間
その他の重要なインサイト

これらの事前構築済み分析により、一から作成しなくてもすぐにプロセス探索を始められます。

デフォルト分析 データインポート時に自動作成されるデフォルト調査

デフォルトダッシュボード 10,000件のケースと121,000件のイベントを示すデフォルト分析、主要なプロセスインサイト付き

データセットのサイズ理解：例

デモでは、バンキングのオンボーディングデータセットに：

10,000件のケース - 各ケースは1つの顧客オンボーディングの旅を示す
121,000件のイベント - すべてのケースに渡るプロセスステップの合計数

つまり平均すると、1件の顧客オンボーディングケースあたり約12のアクティビティ（プロセスステップ）が含まれていることになります。データをmindzie Studioにロードすると、この種の情報がすぐに見えるようになります。

ログエンリッチメントの役割

デュアルデータセットアーキテクチャの真価は、ログエンリッチメントエンジンの使用時に明確になります。Enriched DatasetがOriginal Datasetと明確に差別化されるのはここです。

ログエンリッチメントが行うこと

ログエンリッチメントにより、データを以下のように強化できます：

パフォーマンス指標:

アクティビティペア間の期間計算
ケースの開始から終了までの総期間
パフォーマンスの階層（速い、通常、遅い）
カスタムSLAコンプライアンス追跡

適合ルール:

望ましくないアクティビティのフラグ設定
必須ステップの欠落検知
誤ったアクティビティ順序
繰り返しアクティビティや再作業ループ

カスタム属性:

アクティビティベースのコスト計算
AI予測
カスタムカテゴリ分類
数学的変換
時間ベースの計算

エンリッチメントによるデータセットの更新方法

新しいエンリッチメントを作成して計算するたびに：

データパイプラインが実行され
新しい属性がEnriched Datasetに追加され
これらの新属性はフィルターや計算機で利用可能になり
各エンリッチメントで分析がより強力に

エンリッチド属性 元の属性とシステム生成の強化属性（アイコン付き）を示すデータ概要

mindzieによって自動追加される属性

手動のエンリッチメントがなくても、mindzie StudioはEnriched Datasetに以下のような有用な属性を自動追加します：

時間帯 - アクティビティが発生した時間帯
ケース開始 - 各ケースの開始時刻
ケース終了 - 各ケースの終了時刻
ケース期間 - 開始から終了までの総期間
最初のリソース - ケースを開始した担当者
アクティビティ頻度 - アクティビティの出現頻度
その他多数

これらの自動エンリッチメントにより、設定不要で即座に分析能力が得られます。

分析に適したデータセットの選択

mindzie Studioで調査や分析ノートブックを作成するとき、どのデータセットを分析するか選択する必要があります。

推奨： 調査および分析作業には常にEnriched Datasetを選択してください。このデータセットには、分析を強力かつ洞察に富んだものにする拡張属性と計算済み指標がすべて含まれています。

Original Datasetは主に以下の用途で使用してください：

参照および検証
データ品質監査
ソースデータ構造の理解

継続的な強化サイクル

デュアルデータセットアーキテクチャは、反復的なワークフローをサポートします：

アップロード - データをインポートしOriginal Datasetを作成
エンリッチ - パフォーマンス指標、適合ルール、カスタム属性を追加
計算 - パイプラインを実行しEnriched Datasetを更新
分析 - 拡張属性を使い調査と分析を作成
繰り返し - より深い洞察のためにエンリッチメントを追加

サイクルを繰り返すことでEnriched Datasetの価値が高まり、分析がより高度になります。

まとめ

2つのデータセットが作成される ：Original（生データ）とEnriched（拡張データ）
自動作成 ：データアップロード時にEnriched Datasetが自動作成される
Enriched Datasetを使う ：すべての分析や調査の主要データセットとして利用
パイプライン実行 ：OriginalをEnrichedに変換
継続的な強化 ：エンリッチメント計算ごとに新属性がEnriched Datasetに追加
デフォルト分析 ：mindzie Studioが便利なスターター分析を自動提供
反復プロセス ：分析を強化するためにエンリッチメントを継続的に追加可能

次のステップ

デュアルデータセットアーキテクチャを理解した今、次のことに取り組みましょう：

ログエンリッチメントエンジンを使ってパフォーマンス指標を追加する
適合ルールを作成しプロセス遵守の問題を特定する
特定のビジネスニーズに合わせたカスタムエンリッチメントを構築する
拡張属性を使って調査や分析を作成する
エンドユーザー向けにダッシュボードへインサイトを公開する

デュアルデータセットアーキテクチャは、mindzie Studioの強力な分析機能の基盤です。原データと拡張データを分離することでデータの整合性を保ちつつ、無限の柔軟性でプロセスを変換・分析できます。