ファイル形式
対応データ形式
プロセスマイニングデータセットの対応ファイル形式、データ構造、およびカラムマッピング要件について学びましょう。
CSV(カンマ区切り値)
プロセスマイニングデータで最も一般的に使用される形式で、柔軟な解析オプションがあります。
形式仕様
| オプション | 説明 | デフォルト | 例 |
|---|---|---|---|
delimiter |
フィールド区切り文字 | カンマ (,) | セミコロン (;)、タブ (\t) |
encoding |
文字エンコーディング | UTF-8 | ISO-8859-1、Windows-1252 |
hasHeader |
最初の行がカラム名を含むか | true | true、false |
quoteChar |
テキスト修飾文字 | ダブルクオート (") | シングルクオート (') |
CSV構造サンプル
CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50
カラムマッピング設定
{
"mapping": [
{
"sourceColumn": "CaseID",
"targetColumn": "CaseID",
"dataType": "string",
"role": "case_id"
},
{
"sourceColumn": "Activity",
"targetColumn": "Activity",
"dataType": "string",
"role": "activity"
},
{
"sourceColumn": "Timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime",
"role": "timestamp",
"format": "ISO8601"
}
],
"options": {
"hasHeader": true,
"delimiter": ",",
"encoding": "UTF-8"
}
}
Excelファイル(.xlsx、.xls)
複数のワークシートと高度な書式設定をサポートするMicrosoft Excelブック。
対応機能
ファイルタイプ
- .xlsx(Excel 2007以降)
- .xls(Excel 97-2003)
- .xlsm(マクロ有効)
ワークシート処理
- 複数ワークシート対応
- 特定シートの選択
- 範囲指定によるインポート
データ認識
- 日付/時刻の自動検出
- 数値形式の保持
- テキスト書式のクリーンアップ
Excelインポート設定
{
"worksheetName": "ProcessEvents",
"range": "A1:E1000",
"hasHeader": true,
"startRow": 1,
"mapping": [
{
"sourceColumn": "Order ID",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"sourceColumn": "Event Date",
"targetColumn": "Timestamp",
"dataType": "datetime",
"format": "MM/dd/yyyy HH:mm:ss"
}
]
}
XES(拡張可能イベントストリーム)
イベント属性と拡張に完全対応したプロセスマイニング用のIEEE標準形式。
XES仕様対応
| 要素 | 対応レベル | 説明 |
|---|---|---|
| Log | 完全対応 | ログレベルの属性およびメタデータ |
| Trace | 完全対応 | ケースレベルの属性とイベント |
| Event | 完全対応 | アクティビティレベルのデータと属性 |
| Extensions | 部分対応 | 標準拡張(コンセプト、時間、ライフサイクル) |
XES構造サンプル
<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
<extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
<extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>
<trace>
<string key="concept:name" value="PO-001"/>
<event>
<string key="concept:name" value="Create Order"/>
<date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
<string key="org:resource" value="buyer.smith"/>
</event>
<event>
<string key="concept:name" value="Approve Order"/>
<date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
<string key="org:resource" value="manager.jones"/>
</event>
</trace>
</log>
JSON(JavaScriptオブジェクト表記)
複雑なイベントデータ向けの構造化されたJSON形式で、入れ子属性と柔軟なスキーマ対応。
JSONスキーマオプション
イベント配列
シンプルなフラット構造のイベントオブジェクト。
[
{
"caseId": "PO-001",
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z",
"resource": "buyer.smith"
}
]
ネスト構造
ケースとイベントが入れ子になった階層構造。
{
"cases": [
{
"caseId": "PO-001",
"events": [
{
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z"
}
]
}
]
}
JSONマッピング設定
{
"schema": "flat",
"mapping": [
{
"jsonPath": "$.caseId",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"jsonPath": "$.activity",
"targetColumn": "Activity",
"dataType": "string"
},
{
"jsonPath": "$.timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime"
}
]
}
データ型要件
適切なデータセット構造のためのデータ型と検証ルールの理解:
文字列フィールド
テキストデータで、長さと文字の検証を行います。
- UTF-8エンコーディング必須
- 最大長: 1000文字
- 特殊文字の取り扱い
- Null値対応
日時フィールド
タイムゾーン対応のタイムスタンプデータ。
- ISO 8601形式推奨
- カスタム形式対応
- タイムゾーン変換
- ミリ秒単位の精度
数値フィールド
整数および小数点の数値対応。
- 64ビット整数対応
- 倍精度小数対応
- 指数表記対応
- 通貨形式対応
ブールフィールド
真偽値の解釈。
- true/false(大文字小文字区別なし)
- 1/0数値対応
- yes/noテキスト対応
- Null値処理オプション
形式検証とエラー
ファイル形式別の一般的な検証ルールとエラー処理:
必須カラム
全てのプロセスマイニングデータセットには以下の必須カラムが含まれている必要があります:
- Case ID: 各プロセスインスタンスの一意識別子
- Activity: プロセスステップの名前または説明
- Timestamp: アクティビティ発生時刻(タイムゾーン付き)
一般的な検証エラー
| エラータイプ | 説明 | 対処方法 |
|---|---|---|
| 必須カラム欠如 | CaseID、Activity、またはTimestampが見つからない | 欠落カラムを追加するかマッピングを更新する |
| 不正な日付形式 | Timestampが認識されない形式 | カスタム日付形式パターンを指定する |
| 空のCase ID | Case IDカラムのNullまたは空値 | データをクリーンアップするか行のフィルタリングを適用する |
| ヘッダー重複 | 同じ名前のカラムが複数存在する | カラム名を変更するかカラム索引を使用する |
ベストプラクティス
- データ品質: インポート前に組み込みの検証オプションでデータを検証すること
- パフォーマンス: 100MBを超えるファイルはストリーミングアップロードを使用すること
- エンコーディング: 国際文字対応のため常にUTF-8エンコーディングを指定すること
- タイムスタンプ: すべてのタイムスタンプデータにタイムゾーン情報を含めること
- テスト: 本格インポート前に小さなサンプルファイルでカラムマッピングを確認すること
- ドキュメント: カスタム形式やマッピング設定を将来の参照のために文書化すること