Dateiformate

Unterstützte Datenformate

Erfahren Sie mehr über unterstützte Dateiformate, Datenstrukturen und Anforderungen an die Spaltenzuordnung für Process-Mining-Datensätze.

CSV (Comma-Separated Values)

Das am häufigsten verwendete Format für Process-Mining-Daten mit flexiblen Parsing-Optionen.

Format-Spezifikationen

Option Beschreibung Standard Beispiel
delimiter Feld-Trennzeichen Komma (,) Semikolon (;), Tab (\t)
encoding Zeichenkodierung UTF-8 ISO-8859-1, Windows-1252
hasHeader Erste Zeile enthält Spaltennamen true true, false
quoteChar Textqualifizierer Doppelte Anführungszeichen (") Einfache Anführungszeichen (')

Beispielhafte CSV-Struktur

CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50

Spaltenzuordnungskonfiguration

{
  "mapping": [
    {
      "sourceColumn": "CaseID",
      "targetColumn": "CaseID",
      "dataType": "string",
      "role": "case_id"
    },
    {
      "sourceColumn": "Activity",
      "targetColumn": "Activity",
      "dataType": "string",
      "role": "activity"
    },
    {
      "sourceColumn": "Timestamp",
      "targetColumn": "Timestamp",
      "dataType": "datetime",
      "role": "timestamp",
      "format": "ISO8601"
    }
  ],
  "options": {
    "hasHeader": true,
    "delimiter": ",",
    "encoding": "UTF-8"
  }
}

Excel-Dateien (.xlsx, .xls)

Microsoft Excel-Arbeitsmappen mit Unterstützung für mehrere Arbeitsblätter und erweiterte Formatierung.

Unterstützte Funktionen

Dateitypen

  • .xlsx (Excel 2007+)
  • .xls (Excel 97-2003)
  • .xlsm (mit Makros)

Arbeitsblatt-Verwaltung

  • Unterstützung mehrerer Arbeitsblätter
  • Auswahl spezifischer Blätter
  • Import auf Basis von Zellbereichen

Datenerkennung

  • Automatische Erkennung von Datum/Uhrzeit
  • Erhaltung des Zahlenformats
  • Bereinigung von Textformatierungen

Excel-Import-Konfiguration

{
  "worksheetName": "ProcessEvents",
  "range": "A1:E1000",
  "hasHeader": true,
  "startRow": 1,
  "mapping": [
    {
      "sourceColumn": "Order ID",
      "targetColumn": "CaseID",
      "dataType": "string"
    },
    {
      "sourceColumn": "Event Date",
      "targetColumn": "Timestamp",
      "dataType": "datetime",
      "format": "MM/dd/yyyy HH:mm:ss"
    }
  ]
}

XES (eXtensible Event Stream)

IEEE-Standardformat für Process Mining mit voller Unterstützung für Ereignisattributen und Erweiterungen.

Unterstützung der XES-Spezifikation

Element Unterstützungsgrad Beschreibung
Log Vollständig Log-Level Attribute und Metadaten
Trace Vollständig Fall-Level Attribute und Ereignisse
Event Vollständig Aktivitätsbezogene Daten und Attribute
Extensions Teilweise Standard-Erweiterungen (Konzept, Zeit, Lebenszyklus)

Beispielhafte XES-Struktur

<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
  <extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
  <extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>

  <trace>
    <string key="concept:name" value="PO-001"/>

    <event>
      <string key="concept:name" value="Create Order"/>
      <date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
      <string key="org:resource" value="buyer.smith"/>
    </event>

    <event>
      <string key="concept:name" value="Approve Order"/>
      <date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
      <string key="org:resource" value="manager.jones"/>
    </event>
  </trace>
</log>

JSON (JavaScript Object Notation)

Strukturiertes JSON-Format für komplexe Ereignisdaten mit verschachtelten Attributen und flexiblem Schema.

JSON-Schema-Optionen

Array von Ereignissen

Einfache flache Struktur mit Ereignisobjekten.

[
  {
    "caseId": "PO-001",
    "activity": "Create Order",
    "timestamp": "2024-01-15T09:00:00Z",
    "resource": "buyer.smith"
  }
]

Verschachtelte Struktur

Hierarchische Daten mit Fall- und Ereignisverschachtelung.

{
  "cases": [
    {
      "caseId": "PO-001",
      "events": [
        {
          "activity": "Create Order",
          "timestamp": "2024-01-15T09:00:00Z"
        }
      ]
    }
  ]
}

JSON-Zuordnungskonfiguration

{
  "schema": "flat",
  "mapping": [
    {
      "jsonPath": "$.caseId",
      "targetColumn": "CaseID",
      "dataType": "string"
    },
    {
      "jsonPath": "$.activity",
      "targetColumn": "Activity",
      "dataType": "string"
    },
    {
      "jsonPath": "$.timestamp",
      "targetColumn": "Timestamp",
      "dataType": "datetime"
    }
  ]
}

Anforderungen an Datentypen

Verständnis von Datentypen und Validierungsregeln für eine korrekte Dataset-Struktur:

String-Felder

Textdaten mit Längen- und Zeichenvalidierung.

  • UTF-8-Kodierung erforderlich
  • Maximale Länge: 1000 Zeichen
  • Behandlung von Sonderzeichen
  • Unterstützung von Nullwerten

DateTime-Felder

Zeitstempeldaten mit Zeitzonenunterstützung.

  • Bevorzugtes Format: ISO 8601
  • Unterstützung benutzerdefinierter Formate
  • Zeitzonenumrechnung
  • Genauigkeit bis auf Millisekunden

Numerische Felder

Behandlung von Ganz- und Dezimalzahlen.

  • Unterstützung für 64-Bit-Ganzzahlen
  • Dezimalzahlen mit doppelter Genauigkeit
  • Wissenschaftliche Notation
  • Währungsformatierung

Boolean-Felder

Interpretation von Wahrheitswerten.

  • true/false (Groß-/Kleinschreibung ignoriert)
  • 1/0 als numerische Werte
  • yes/no als Textwerte
  • Optionen zur Behandlung von Nullwerten

Formatvalidierung und Fehler

Gängige Validierungsregeln und Fehlerbehandlung für unterschiedliche Dateiformate:

Erforderliche Spalten

Jeder Process-Mining-Datensatz muss diese essentiellen Spalten enthalten:

  • Case ID: Eindeutiger Identifikator für jede Prozessinstanz
  • Activity: Name oder Beschreibung des Prozessschrittes
  • Timestamp: Zeitpunkt, zu dem die Aktivität stattfand (mit Zeitzone)

Häufige Validierungsfehler

Fehlertyp Beschreibung Lösung
Fehlende erforderliche Spalte CaseID, Activity oder Timestamp nicht gefunden Fehlende Spalte ergänzen oder Zuordnung anpassen
Ungültiges Datumsformat Timestamp nicht im erkannten Format Benutzerdefiniertes Datumsformat angeben
Leere Case ID Null- oder Leerwerte in CaseID-Spalte Daten bereinigen oder Zeilenfilter verwenden
Doppelte Überschriften Mehrere Spalten mit gleichem Namen Spalten umbenennen oder Spaltenindex verwenden

Beste Praktiken

  • Datenqualität: Daten vor dem Import mit integrierten Validierungsoptionen prüfen
  • Performance: Für Dateien größer als 100 MB Streaming-Uploads verwenden
  • Kodierung: Immer UTF-8-Kodierung für internationale Zeichen angeben
  • Zeitstempel: Zeitzoneninformationen in allen Zeitstempeldaten inkludieren
  • Tests: Kleine Beispieldateien verwenden, um Spaltenzuordnungen vor dem vollständigen Import zu testen
  • Dokumentation: Eigene Formate und Zuordnungen für spätere Referenzen dokumentieren