Genereer Synthetische Data

De Genereer Synthetische Data functie creëert volledig nieuwe, gefabriceerde datasets die de statistische eigenschappen van je originele data behouden zonder dat er daadwerkelijke waarden uit je bron aanwezig zijn. Dit is nuttig voor:

  • Demo's - Maak realistisch ogende data om je process mining mogelijkheden te demonstreren
  • Testen - Genereer testdatasets met bekende eigenschappen
  • Delen - Deel datapatronen extern zonder gevoelige informatie prijs te geven
  • Training - Maak trainingsdatasets voor machine learning modellen

Belangrijk: Dit is GEEN anonimisatie. Synthetische data is volledig gefabriceerd - er bestaan geen originele datawaarden in de output. De synthetische dataset is veilig om extern te delen.

Hoe Toegang te Krijgen

  1. Navigeer naar de Datasets pagina
  2. Klik op het menu met drie puntjes bij een dataset
  3. Selecteer Genereer Synthetische Data

Configuratieopties

Genereer Synthetische Data Dialoog

Dataset Naam

De naam voor je synthetische dataset. Standaard is dit je bron dataset naam met " - Synthetic" erachter geplakt.

Aantal Cases

Geef op hoeveel cases je wilt genereren in de synthetische dataset:

  • Minimum: 100 cases
  • Maximum: 100.000 cases
  • Aanbevolen: 1.000 - 10.000 cases voor demo doeleinden

Grotere datasets kosten meer tijd om te genereren en resulteren in grotere downloads.

Activiteitenamen Behouden

Wanneer ingeschakeld (aanbevolen), behoudt de synthetische dataset je originele activiteitenamen zoals "Order Indienen", "Aanvraag Beoordelen", etc. Dit levert nuttige proceskaarten op die je daadwerkelijke processtroom weerspiegelen.

Wanneer uitgeschakeld, worden activiteitenamen vervangen door algemene labels zoals "Activity_1", "Activity_2", etc. Gebruik deze optie als zelfs je activiteitenamen gevoelige informatie bevatten.

Wat Wordt Gegeneerd

De synthetische datagenerator analyseert je brondataset en creëert nieuwe data met:

Element Hoe Het Wordt Gegeneerd
Case IDs Nieuwe sequentiële IDs: Case_1, Case_2, etc.
Activiteitenamen Behouden uit de bron (of geanonimiseerd als optie uitstaat)
Tijdstempels Realistische datums met vergelijkbare duurpatronen tussen activiteiten
Tekst Attributen Vervangen door generieke waarden zoals Customer_1, Region_2, etc. met behoud van de verdeling (als 60% van de cases "Hoog Prioriteit" waren, zal ongeveer 60% van de synthetische cases Priority_1 hebben)
Numerieke Attributen Gegeneerd met vergelijkbare statistische eigenschappen (gemiddelde, spreiding, min/max bereik)
Processtroom Activiteitsvolgordes bemonsterd uit je daadwerkelijke procesvarianten

Wat NIET Wordt Opgenomen

Berekende kolommen worden uitgesloten uit de synthetische output omdat deze opnieuw berekend worden bij het importeren in mindzieStudio.

Output

Wanneer je op Genereer klikt, zal mindzieStudio:

  1. Je brondata analyseren om statistische patronen te extraheren
  2. Het opgegeven aantal synthetische cases genereren
  3. Automatisch het resultaat downloaden als CSV-bestand

De bestandsnaam van de download is gelijk aan je Dataset Naam met de extensie .csv.

Voorbeeld

Brondata:

CaseId,Activity,Timestamp,Customer,Amount
C001,Submit,2024-01-01 09:00,Acme Corp,1500.00
C001,Review,2024-01-01 11:00,Acme Corp,1500.00
C002,Submit,2024-01-02 10:00,Beta Inc,2300.00

Synthetische output (met Activiteitenamen Behouden ingeschakeld):

CaseId,Activity,Timestamp,Customer,Amount
Case_1,Submit,2020-03-15 14:23,Customer_1,1842.37
Case_1,Review,2020-03-15 16:45,Customer_1,1842.37
Case_2,Submit,2020-07-22 09:12,Customer_2,1523.89

Let op:

  • Activiteitenamen zijn behouden
  • Klantnamen zijn vervangen door generieke Customer_1, Customer_2
  • Bedragen zijn vergelijkbaar in bereik maar gefabriceerd
  • Tijdstempels zijn realistisch maar volledig nieuw

Toepassingsgevallen

Demo Datasets Maken

Genereer synthetische data uit je productieproces om veilige demo datasets te creëren die echte procespatronen tonen zonder bedrijfsgevoelige data te onthullen.

Delen met Externe Consultants

Wanneer je samenwerkt met externe process mining consultants of leveranciers, deel synthetische datasets die je proceskenmerken behouden zonder gevoelige informatie prijs te geven.

Prestatie Testen

Genereer grote synthetische datasets (50.000+ cases) om te testen hoe je notebooks en dashboards presteren met grotere hoeveelheden data.

Training en Educatie

Maak synthetische datasets om nieuwe teamleden te trainen in process mining concepten met realistische maar veilige data.