Bestandsformaten
Ondersteunde Gegevensformaten
Leer over ondersteunde bestandsformaten, datastructuren en kolommappingvereisten voor process mining datasets.
CSV (Comma-Separated Values)
Het meest gebruikte formaat voor process mining data met flexibele parseeropties.
Formaatspecificaties
| Optie | Beschrijving | Standaard | Voorbeeld |
|---|---|---|---|
delimiter |
Scheidingsteken voor velden | komma (,) | puntkomma (;), tab (\t) |
encoding |
Tekstcodering | UTF-8 | ISO-8859-1, Windows-1252 |
hasHeader |
Eerste rij bevat kolomnamen | true | true, false |
quoteChar |
Tekstkwalificatie teken | dubbele aanhaling (") | enkele aanhaling (') |
Voorbeeld CSV-structuur
CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50
Kolommappingconfiguratie
{
"mapping": [
{
"sourceColumn": "CaseID",
"targetColumn": "CaseID",
"dataType": "string",
"role": "case_id"
},
{
"sourceColumn": "Activity",
"targetColumn": "Activity",
"dataType": "string",
"role": "activity"
},
{
"sourceColumn": "Timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime",
"role": "timestamp",
"format": "ISO8601"
}
],
"options": {
"hasHeader": true,
"delimiter": ",",
"encoding": "UTF-8"
}
}
Excel-bestanden (.xlsx, .xls)
Microsoft Excel-werkbladen met ondersteuning voor meerdere werkbladen en geavanceerde opmaak.
Ondersteunde functionaliteiten
Bestandstypen
- .xlsx (Excel 2007+)
- .xls (Excel 97-2003)
- .xlsm (Macro-enabled)
Werkbladverwerking
- Ondersteuning voor meerdere werkbladen
- Selectie van specifiek blad
- Import op basis van bereik
Gegevensherkenning
- Automatische detectie van datum/tijd
- Behoud van numeriek formaat
- Opruiming van tekstopmaak
Excel importconfiguratie
{
"worksheetName": "ProcessEvents",
"range": "A1:E1000",
"hasHeader": true,
"startRow": 1,
"mapping": [
{
"sourceColumn": "Order ID",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"sourceColumn": "Event Date",
"targetColumn": "Timestamp",
"dataType": "datetime",
"format": "MM/dd/yyyy HH:mm:ss"
}
]
}
XES (eXtensible Event Stream)
IEEE-standaardformaat voor process mining met volledige ondersteuning voor gebeurtenisattributen en extensies.
XES specificatie-ondersteuning
| Element | Ondersteuningsniveau | Beschrijving |
|---|---|---|
| Log | Volledig | Attributen en metadata op logniveau |
| Trace | Volledig | Attributen en events per case |
| Event | Volledig | Activiteitenniveau data en attributen |
| Extensions | Gedeeltelijk | Standaard extensies (concept, tijd, lifecycle) |
Voorbeeld XES-structuur
<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
<extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
<extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>
<trace>
<string key="concept:name" value="PO-001"/>
<event>
<string key="concept:name" value="Create Order"/>
<date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
<string key="org:resource" value="buyer.smith"/>
</event>
<event>
<string key="concept:name" value="Approve Order"/>
<date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
<string key="org:resource" value="manager.jones"/>
</event>
</trace>
</log>
JSON (JavaScript Object Notation)
Gestructureerd JSON-formaat voor complexe eventdata met geneste attributen en flexibele schema's.
JSON Schema-opties
Array van events
Eenvoudige vlakke structuur met event-objecten.
[
{
"caseId": "PO-001",
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z",
"resource": "buyer.smith"
}
]
Geneste structuur
Hiƫrarchische data met case- en eventnesting.
{
"cases": [
{
"caseId": "PO-001",
"events": [
{
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z"
}
]
}
]
}
JSON mappingconfiguratie
{
"schema": "flat",
"mapping": [
{
"jsonPath": "$.caseId",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"jsonPath": "$.activity",
"targetColumn": "Activity",
"dataType": "string"
},
{
"jsonPath": "$.timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime"
}
]
}
Vereisten voor gegevenstypen
Inzicht in gegevenstypen en validatieregels voor correcte datasetstructuur:
Tekstvelden
Tekstgegevens met lengte- en tekenvalidatie.
- UTF-8 codering vereist
- Maximale lengte: 1000 tekens
- Afhandeling van speciale tekens
- Ondersteuning van null-waarden
Datum/tijd-velden
Tijdstempelgegevens met tijdzone-ondersteuning.
- Voorkeur voor ISO 8601 formaat
- Ondersteuning voor aangepaste formaten
- Tijdzoneconversie
- Precisie tot milliseconden
Numerieke velden
Afhandeling van gehele en decimale getallen.
- Ondersteuning voor 64-bits gehele getallen
- Dubbele precisie decimalen
- Wetenschappelijke notatie
- Valutavormgeving
Booleaanse velden
Interpretatie van true/false waarden.
- true/false (niet-hoofdlettergevoelig)
- Numerieke waarden 1/0
- Tekstwaarden ja/nee
- Opties voor null-afhandeling
Formaatvalidatie en fouten
Veelvoorkomende validatieregels en foutafhandeling voor verschillende bestandsformaten:
Vereiste kolommen
Elke process mining dataset moet deze essentiƫle kolommen bevatten:
- Case ID: Unieke identifier voor elke process instance
- Activity: Naam of omschrijving van de processtap
- Timestamp: Wanneer de activiteit plaatsvond (inclusief tijdzone)
Veelvoorkomende validatiefouten
| Fouttype | Beschrijving | Oplossing |
|---|---|---|
| Ontbrekende vereiste kolom | CaseID, Activity of Timestamp niet gevonden | Voeg ontbrekende kolom toe of update mapping |
| Ongeldig datumformaat | Timestamp niet in herkend formaat | Specificeer aangepast datumformaat |
| Lege Case ID | Null of lege waarden in Case ID kolom | Reinig data of gebruik rijaudit/filter |
| Dubbele headers | Meerdere kolommen met dezelfde naam | Hernoem kolommen of gebruik kolomindices |
Best Practices
- Data kwaliteit: Valideer data voor importeren via ingebouwde validatie-opties
- Prestatie: Gebruik streaming uploads voor bestanden groter dan 100 MB
- Codering: Geef altijd UTF-8 codering op voor internationale tekenondersteuning
- Tijdstempels: Neem tijdzone-informatie op in alle tijdstempelgegevens
- Testen: Gebruik kleine voorbeeldbestanden om kolommappings te testen voor volledige import
- Documentatie: Documenteer aangepaste formaten en mappings voor toekomstig gebruik