Bestandsformaten

Ondersteunde Gegevensformaten

Leer over ondersteunde bestandsformaten, datastructuren en kolommappingvereisten voor process mining datasets.

CSV (Comma-Separated Values)

Het meest gebruikte formaat voor process mining data met flexibele parseeropties.

Formaatspecificaties

Optie Beschrijving Standaard Voorbeeld
delimiter Scheidingsteken voor velden komma (,) puntkomma (;), tab (\t)
encoding Tekstcodering UTF-8 ISO-8859-1, Windows-1252
hasHeader Eerste rij bevat kolomnamen true true, false
quoteChar Tekstkwalificatie teken dubbele aanhaling (") enkele aanhaling (')

Voorbeeld CSV-structuur

CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50

Kolommappingconfiguratie

{
  "mapping": [
    {
      "sourceColumn": "CaseID",
      "targetColumn": "CaseID",
      "dataType": "string",
      "role": "case_id"
    },
    {
      "sourceColumn": "Activity",
      "targetColumn": "Activity",
      "dataType": "string",
      "role": "activity"
    },
    {
      "sourceColumn": "Timestamp",
      "targetColumn": "Timestamp",
      "dataType": "datetime",
      "role": "timestamp",
      "format": "ISO8601"
    }
  ],
  "options": {
    "hasHeader": true,
    "delimiter": ",",
    "encoding": "UTF-8"
  }
}

Excel-bestanden (.xlsx, .xls)

Microsoft Excel-werkbladen met ondersteuning voor meerdere werkbladen en geavanceerde opmaak.

Ondersteunde functionaliteiten

Bestandstypen

  • .xlsx (Excel 2007+)
  • .xls (Excel 97-2003)
  • .xlsm (Macro-enabled)

Werkbladverwerking

  • Ondersteuning voor meerdere werkbladen
  • Selectie van specifiek blad
  • Import op basis van bereik

Gegevensherkenning

  • Automatische detectie van datum/tijd
  • Behoud van numeriek formaat
  • Opruiming van tekstopmaak

Excel importconfiguratie

{
  "worksheetName": "ProcessEvents",
  "range": "A1:E1000",
  "hasHeader": true,
  "startRow": 1,
  "mapping": [
    {
      "sourceColumn": "Order ID",
      "targetColumn": "CaseID",
      "dataType": "string"
    },
    {
      "sourceColumn": "Event Date",
      "targetColumn": "Timestamp",
      "dataType": "datetime",
      "format": "MM/dd/yyyy HH:mm:ss"
    }
  ]
}

XES (eXtensible Event Stream)

IEEE-standaardformaat voor process mining met volledige ondersteuning voor gebeurtenisattributen en extensies.

XES specificatie-ondersteuning

Element Ondersteuningsniveau Beschrijving
Log Volledig Attributen en metadata op logniveau
Trace Volledig Attributen en events per case
Event Volledig Activiteitenniveau data en attributen
Extensions Gedeeltelijk Standaard extensies (concept, tijd, lifecycle)

Voorbeeld XES-structuur

<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
  <extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
  <extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>

  <trace>
    <string key="concept:name" value="PO-001"/>

    <event>
      <string key="concept:name" value="Create Order"/>
      <date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
      <string key="org:resource" value="buyer.smith"/>
    </event>

    <event>
      <string key="concept:name" value="Approve Order"/>
      <date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
      <string key="org:resource" value="manager.jones"/>
    </event>
  </trace>
</log>

JSON (JavaScript Object Notation)

Gestructureerd JSON-formaat voor complexe eventdata met geneste attributen en flexibele schema's.

JSON Schema-opties

Array van events

Eenvoudige vlakke structuur met event-objecten.

[
  {
    "caseId": "PO-001",
    "activity": "Create Order",
    "timestamp": "2024-01-15T09:00:00Z",
    "resource": "buyer.smith"
  }
]

Geneste structuur

Hiƫrarchische data met case- en eventnesting.

{
  "cases": [
    {
      "caseId": "PO-001",
      "events": [
        {
          "activity": "Create Order",
          "timestamp": "2024-01-15T09:00:00Z"
        }
      ]
    }
  ]
}

JSON mappingconfiguratie

{
  "schema": "flat",
  "mapping": [
    {
      "jsonPath": "$.caseId",
      "targetColumn": "CaseID",
      "dataType": "string"
    },
    {
      "jsonPath": "$.activity",
      "targetColumn": "Activity",
      "dataType": "string"
    },
    {
      "jsonPath": "$.timestamp",
      "targetColumn": "Timestamp",
      "dataType": "datetime"
    }
  ]
}

Vereisten voor gegevenstypen

Inzicht in gegevenstypen en validatieregels voor correcte datasetstructuur:

Tekstvelden

Tekstgegevens met lengte- en tekenvalidatie.

  • UTF-8 codering vereist
  • Maximale lengte: 1000 tekens
  • Afhandeling van speciale tekens
  • Ondersteuning van null-waarden

Datum/tijd-velden

Tijdstempelgegevens met tijdzone-ondersteuning.

  • Voorkeur voor ISO 8601 formaat
  • Ondersteuning voor aangepaste formaten
  • Tijdzoneconversie
  • Precisie tot milliseconden

Numerieke velden

Afhandeling van gehele en decimale getallen.

  • Ondersteuning voor 64-bits gehele getallen
  • Dubbele precisie decimalen
  • Wetenschappelijke notatie
  • Valutavormgeving

Booleaanse velden

Interpretatie van true/false waarden.

  • true/false (niet-hoofdlettergevoelig)
  • Numerieke waarden 1/0
  • Tekstwaarden ja/nee
  • Opties voor null-afhandeling

Formaatvalidatie en fouten

Veelvoorkomende validatieregels en foutafhandeling voor verschillende bestandsformaten:

Vereiste kolommen

Elke process mining dataset moet deze essentiƫle kolommen bevatten:

  • Case ID: Unieke identifier voor elke process instance
  • Activity: Naam of omschrijving van de processtap
  • Timestamp: Wanneer de activiteit plaatsvond (inclusief tijdzone)

Veelvoorkomende validatiefouten

Fouttype Beschrijving Oplossing
Ontbrekende vereiste kolom CaseID, Activity of Timestamp niet gevonden Voeg ontbrekende kolom toe of update mapping
Ongeldig datumformaat Timestamp niet in herkend formaat Specificeer aangepast datumformaat
Lege Case ID Null of lege waarden in Case ID kolom Reinig data of gebruik rijaudit/filter
Dubbele headers Meerdere kolommen met dezelfde naam Hernoem kolommen of gebruik kolomindices

Best Practices

  • Data kwaliteit: Valideer data voor importeren via ingebouwde validatie-opties
  • Prestatie: Gebruik streaming uploads voor bestanden groter dan 100 MB
  • Codering: Geef altijd UTF-8 codering op voor internationale tekenondersteuning
  • Tijdstempels: Neem tijdzone-informatie op in alle tijdstempelgegevens
  • Testen: Gebruik kleine voorbeeldbestanden om kolommappings te testen voor volledige import
  • Documentatie: Documenteer aangepaste formaten en mappings voor toekomstig gebruik