Dateiformate

Unterstützte Datenformate

Erfahren Sie mehr über unterstützte Dateiformate, Datenstrukturen und Anforderungen an die Spaltenzuordnung für Process-Mining-Datensätze.

CSV (Comma-Separated Values)

Das am häufigsten verwendete Format für Process-Mining-Daten mit flexiblen Parsing-Optionen.

Format-Spezifikationen

Option	Beschreibung	Standard	Beispiel
`delimiter`	Feld-Trennzeichen	Komma (,)	Semikolon (;), Tab (\t)
`encoding`	Zeichenkodierung	UTF-8	ISO-8859-1, Windows-1252
`hasHeader`	Erste Zeile enthält Spaltennamen	true	true, false
`quoteChar`	Textqualifizierer	Doppelte Anführungszeichen (")	Einfache Anführungszeichen (')

Beispielhafte CSV-Struktur

CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50

Spaltenzuordnungskonfiguration

{
  "mapping": [
    {
      "sourceColumn": "CaseID",
      "targetColumn": "CaseID",
      "dataType": "string",
      "role": "case_id"
    },
    {
      "sourceColumn": "Activity",
      "targetColumn": "Activity",
      "dataType": "string",
      "role": "activity"
    },
    {
      "sourceColumn": "Timestamp",
      "targetColumn": "Timestamp",
      "dataType": "datetime",
      "role": "timestamp",
      "format": "ISO8601"
    }
  ],
  "options": {
    "hasHeader": true,
    "delimiter": ",",
    "encoding": "UTF-8"
  }
}

Excel-Dateien (.xlsx, .xls)

Microsoft Excel-Arbeitsmappen mit Unterstützung für mehrere Arbeitsblätter und erweiterte Formatierung.

Unterstützte Funktionen

Dateitypen

.xlsx (Excel 2007+)
.xls (Excel 97-2003)
.xlsm (mit Makros)

Arbeitsblatt-Verwaltung

Unterstützung mehrerer Arbeitsblätter
Auswahl spezifischer Blätter
Import auf Basis von Zellbereichen

Datenerkennung

Automatische Erkennung von Datum/Uhrzeit
Erhaltung des Zahlenformats
Bereinigung von Textformatierungen

Excel-Import-Konfiguration

{
  "worksheetName": "ProcessEvents",
  "range": "A1:E1000",
  "hasHeader": true,
  "startRow": 1,
  "mapping": [
    {
      "sourceColumn": "Order ID",
      "targetColumn": "CaseID",
      "dataType": "string"
    },
    {
      "sourceColumn": "Event Date",
      "targetColumn": "Timestamp",
      "dataType": "datetime",
      "format": "MM/dd/yyyy HH:mm:ss"
    }
  ]
}

XES (eXtensible Event Stream)

IEEE-Standardformat für Process Mining mit voller Unterstützung für Ereignisattributen und Erweiterungen.

Unterstützung der XES-Spezifikation

Element	Unterstützungsgrad	Beschreibung
Log	Vollständig	Log-Level Attribute und Metadaten
Trace	Vollständig	Fall-Level Attribute und Ereignisse
Event	Vollständig	Aktivitätsbezogene Daten und Attribute
Extensions	Teilweise	Standard-Erweiterungen (Konzept, Zeit, Lebenszyklus)

Beispielhafte XES-Struktur

<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
  <extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
  <extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>

  <trace>
    <string key="concept:name" value="PO-001"/>

    <event>
      <string key="concept:name" value="Create Order"/>
      <date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
      <string key="org:resource" value="buyer.smith"/>
    </event>

    <event>
      <string key="concept:name" value="Approve Order"/>
      <date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
      <string key="org:resource" value="manager.jones"/>
    </event>
  </trace>
</log>

JSON (JavaScript Object Notation)

Strukturiertes JSON-Format für komplexe Ereignisdaten mit verschachtelten Attributen und flexiblem Schema.

JSON-Schema-Optionen

Array von Ereignissen

Einfache flache Struktur mit Ereignisobjekten.

[
  {
    "caseId": "PO-001",
    "activity": "Create Order",
    "timestamp": "2024-01-15T09:00:00Z",
    "resource": "buyer.smith"
  }
]

Verschachtelte Struktur

Hierarchische Daten mit Fall- und Ereignisverschachtelung.

{
  "cases": [
    {
      "caseId": "PO-001",
      "events": [
        {
          "activity": "Create Order",
          "timestamp": "2024-01-15T09:00:00Z"
        }
      ]
    }
  ]
}

JSON-Zuordnungskonfiguration

{
  "schema": "flat",
  "mapping": [
    {
      "jsonPath": "$.caseId",
      "targetColumn": "CaseID",
      "dataType": "string"
    },
    {
      "jsonPath": "$.activity",
      "targetColumn": "Activity",
      "dataType": "string"
    },
    {
      "jsonPath": "$.timestamp",
      "targetColumn": "Timestamp",
      "dataType": "datetime"
    }
  ]
}

Anforderungen an Datentypen

Verständnis von Datentypen und Validierungsregeln für eine korrekte Dataset-Struktur:

String-Felder

Textdaten mit Längen- und Zeichenvalidierung.

UTF-8-Kodierung erforderlich
Maximale Länge: 1000 Zeichen
Behandlung von Sonderzeichen
Unterstützung von Nullwerten

DateTime-Felder

Zeitstempeldaten mit Zeitzonenunterstützung.

Bevorzugtes Format: ISO 8601
Unterstützung benutzerdefinierter Formate
Zeitzonenumrechnung
Genauigkeit bis auf Millisekunden

Numerische Felder

Behandlung von Ganz- und Dezimalzahlen.

Unterstützung für 64-Bit-Ganzzahlen
Dezimalzahlen mit doppelter Genauigkeit
Wissenschaftliche Notation
Währungsformatierung

Boolean-Felder

Interpretation von Wahrheitswerten.

true/false (Groß-/Kleinschreibung ignoriert)
1/0 als numerische Werte
yes/no als Textwerte
Optionen zur Behandlung von Nullwerten

Formatvalidierung und Fehler

Gängige Validierungsregeln und Fehlerbehandlung für unterschiedliche Dateiformate:

Erforderliche Spalten

Jeder Process-Mining-Datensatz muss diese essentiellen Spalten enthalten:

Case ID: Eindeutiger Identifikator für jede Prozessinstanz
Activity: Name oder Beschreibung des Prozessschrittes
Timestamp: Zeitpunkt, zu dem die Aktivität stattfand (mit Zeitzone)

Häufige Validierungsfehler

Fehlertyp	Beschreibung	Lösung
Fehlende erforderliche Spalte	CaseID, Activity oder Timestamp nicht gefunden	Fehlende Spalte ergänzen oder Zuordnung anpassen
Ungültiges Datumsformat	Timestamp nicht im erkannten Format	Benutzerdefiniertes Datumsformat angeben
Leere Case ID	Null- oder Leerwerte in CaseID-Spalte	Daten bereinigen oder Zeilenfilter verwenden
Doppelte Überschriften	Mehrere Spalten mit gleichem Namen	Spalten umbenennen oder Spaltenindex verwenden

Beste Praktiken

Datenqualität: Daten vor dem Import mit integrierten Validierungsoptionen prüfen
Performance: Für Dateien größer als 100 MB Streaming-Uploads verwenden
Kodierung: Immer UTF-8-Kodierung für internationale Zeichen angeben
Zeitstempel: Zeitzoneninformationen in allen Zeitstempeldaten inkludieren
Tests: Kleine Beispieldateien verwenden, um Spaltenzuordnungen vor dem vollständigen Import zu testen
Dokumentation: Eigene Formate und Zuordnungen für spätere Referenzen dokumentieren