Dateiformate
Unterstützte Datenformate
Erfahren Sie mehr über unterstützte Dateiformate, Datenstrukturen und Anforderungen an die Spaltenzuordnung für Process-Mining-Datensätze.
CSV (Comma-Separated Values)
Das am häufigsten verwendete Format für Process-Mining-Daten mit flexiblen Parsing-Optionen.
Format-Spezifikationen
| Option | Beschreibung | Standard | Beispiel |
|---|---|---|---|
delimiter |
Feld-Trennzeichen | Komma (,) | Semikolon (;), Tab (\t) |
encoding |
Zeichenkodierung | UTF-8 | ISO-8859-1, Windows-1252 |
hasHeader |
Erste Zeile enthält Spaltennamen | true | true, false |
quoteChar |
Textqualifizierer | Doppelte Anführungszeichen (") | Einfache Anführungszeichen (') |
Beispielhafte CSV-Struktur
CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50
Spaltenzuordnungskonfiguration
{
"mapping": [
{
"sourceColumn": "CaseID",
"targetColumn": "CaseID",
"dataType": "string",
"role": "case_id"
},
{
"sourceColumn": "Activity",
"targetColumn": "Activity",
"dataType": "string",
"role": "activity"
},
{
"sourceColumn": "Timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime",
"role": "timestamp",
"format": "ISO8601"
}
],
"options": {
"hasHeader": true,
"delimiter": ",",
"encoding": "UTF-8"
}
}
Excel-Dateien (.xlsx, .xls)
Microsoft Excel-Arbeitsmappen mit Unterstützung für mehrere Arbeitsblätter und erweiterte Formatierung.
Unterstützte Funktionen
Dateitypen
- .xlsx (Excel 2007+)
- .xls (Excel 97-2003)
- .xlsm (mit Makros)
Arbeitsblatt-Verwaltung
- Unterstützung mehrerer Arbeitsblätter
- Auswahl spezifischer Blätter
- Import auf Basis von Zellbereichen
Datenerkennung
- Automatische Erkennung von Datum/Uhrzeit
- Erhaltung des Zahlenformats
- Bereinigung von Textformatierungen
Excel-Import-Konfiguration
{
"worksheetName": "ProcessEvents",
"range": "A1:E1000",
"hasHeader": true,
"startRow": 1,
"mapping": [
{
"sourceColumn": "Order ID",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"sourceColumn": "Event Date",
"targetColumn": "Timestamp",
"dataType": "datetime",
"format": "MM/dd/yyyy HH:mm:ss"
}
]
}
XES (eXtensible Event Stream)
IEEE-Standardformat für Process Mining mit voller Unterstützung für Ereignisattributen und Erweiterungen.
Unterstützung der XES-Spezifikation
| Element | Unterstützungsgrad | Beschreibung |
|---|---|---|
| Log | Vollständig | Log-Level Attribute und Metadaten |
| Trace | Vollständig | Fall-Level Attribute und Ereignisse |
| Event | Vollständig | Aktivitätsbezogene Daten und Attribute |
| Extensions | Teilweise | Standard-Erweiterungen (Konzept, Zeit, Lebenszyklus) |
Beispielhafte XES-Struktur
<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
<extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
<extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>
<trace>
<string key="concept:name" value="PO-001"/>
<event>
<string key="concept:name" value="Create Order"/>
<date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
<string key="org:resource" value="buyer.smith"/>
</event>
<event>
<string key="concept:name" value="Approve Order"/>
<date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
<string key="org:resource" value="manager.jones"/>
</event>
</trace>
</log>
JSON (JavaScript Object Notation)
Strukturiertes JSON-Format für komplexe Ereignisdaten mit verschachtelten Attributen und flexiblem Schema.
JSON-Schema-Optionen
Array von Ereignissen
Einfache flache Struktur mit Ereignisobjekten.
[
{
"caseId": "PO-001",
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z",
"resource": "buyer.smith"
}
]
Verschachtelte Struktur
Hierarchische Daten mit Fall- und Ereignisverschachtelung.
{
"cases": [
{
"caseId": "PO-001",
"events": [
{
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z"
}
]
}
]
}
JSON-Zuordnungskonfiguration
{
"schema": "flat",
"mapping": [
{
"jsonPath": "$.caseId",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"jsonPath": "$.activity",
"targetColumn": "Activity",
"dataType": "string"
},
{
"jsonPath": "$.timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime"
}
]
}
Anforderungen an Datentypen
Verständnis von Datentypen und Validierungsregeln für eine korrekte Dataset-Struktur:
String-Felder
Textdaten mit Längen- und Zeichenvalidierung.
- UTF-8-Kodierung erforderlich
- Maximale Länge: 1000 Zeichen
- Behandlung von Sonderzeichen
- Unterstützung von Nullwerten
DateTime-Felder
Zeitstempeldaten mit Zeitzonenunterstützung.
- Bevorzugtes Format: ISO 8601
- Unterstützung benutzerdefinierter Formate
- Zeitzonenumrechnung
- Genauigkeit bis auf Millisekunden
Numerische Felder
Behandlung von Ganz- und Dezimalzahlen.
- Unterstützung für 64-Bit-Ganzzahlen
- Dezimalzahlen mit doppelter Genauigkeit
- Wissenschaftliche Notation
- Währungsformatierung
Boolean-Felder
Interpretation von Wahrheitswerten.
- true/false (Groß-/Kleinschreibung ignoriert)
- 1/0 als numerische Werte
- yes/no als Textwerte
- Optionen zur Behandlung von Nullwerten
Formatvalidierung und Fehler
Gängige Validierungsregeln und Fehlerbehandlung für unterschiedliche Dateiformate:
Erforderliche Spalten
Jeder Process-Mining-Datensatz muss diese essentiellen Spalten enthalten:
- Case ID: Eindeutiger Identifikator für jede Prozessinstanz
- Activity: Name oder Beschreibung des Prozessschrittes
- Timestamp: Zeitpunkt, zu dem die Aktivität stattfand (mit Zeitzone)
Häufige Validierungsfehler
| Fehlertyp | Beschreibung | Lösung |
|---|---|---|
| Fehlende erforderliche Spalte | CaseID, Activity oder Timestamp nicht gefunden | Fehlende Spalte ergänzen oder Zuordnung anpassen |
| Ungültiges Datumsformat | Timestamp nicht im erkannten Format | Benutzerdefiniertes Datumsformat angeben |
| Leere Case ID | Null- oder Leerwerte in CaseID-Spalte | Daten bereinigen oder Zeilenfilter verwenden |
| Doppelte Überschriften | Mehrere Spalten mit gleichem Namen | Spalten umbenennen oder Spaltenindex verwenden |
Beste Praktiken
- Datenqualität: Daten vor dem Import mit integrierten Validierungsoptionen prüfen
- Performance: Für Dateien größer als 100 MB Streaming-Uploads verwenden
- Kodierung: Immer UTF-8-Kodierung für internationale Zeichen angeben
- Zeitstempel: Zeitzoneninformationen in allen Zeitstempeldaten inkludieren
- Tests: Kleine Beispieldateien verwenden, um Spaltenzuordnungen vor dem vollständigen Import zu testen
- Dokumentation: Eigene Formate und Zuordnungen für spätere Referenzen dokumentieren