Generierung synthetischer Daten

Die Funktion Generate Synthetic Data erstellt vollständig neue, erfundene Datensätze, die die statistischen Eigenschaften Ihrer Originaldaten bewahren, jedoch keine tatsächlichen Werte aus Ihrer Quelle enthalten. Dies ist nützlich für:

  • Demos – Erstellen Sie realistisch aussehende Daten, um Ihre Process-Mining-Fähigkeiten zu präsentieren
  • Tests – Generieren Sie Testdatensätze mit bekannten Eigenschaften
  • Freigabe – Teilen Sie Datenmuster extern, ohne sensible Informationen preiszugeben
  • Training – Erstellen Sie Trainingsdatensätze für Machine-Learning-Modelle

Wichtig: Dies ist KEINE Anonymisierung. Synthetische Daten sind vollständig erfunden – keine Originaldatenwerte existieren in der Ausgabe. Der synthetische Datensatz kann bedenkenlos extern geteilt werden.

Zugriff

  1. Navigieren Sie zur Datasets-Seite
  2. Klicken Sie auf das Drei-Punkte-Menü bei einem beliebigen Datensatz
  3. Wählen Sie Generate Synthetic Data

Konfigurationsoptionen

Generate Synthetic Data Dialog

Dataset-Name

Der Name Ihres synthetischen Datensatzes. Standardmäßig wird der Name Ihres Quelldatensatzes übernommen und mit „ - Synthetic“ ergänzt.

Anzahl der Fälle

Geben Sie an, wie viele Fälle im synthetischen Datensatz generiert werden sollen:

  • Minimum: 100 Fälle
  • Maximum: 100.000 Fälle
  • Empfohlen: 1.000 – 10.000 Fälle für Demo-Zwecke

Größere Datensätze benötigen länger zur Generierung und führen zu größeren Download-Dateien.

Activity-Namen beibehalten

Wenn aktiviert (empfohlen), behält der synthetische Datensatz Ihre ursprünglichen Aktivitätsnamen wie „Submit Order“, „Review Application“ usw. bei. Dies erzeugt hilfreiche Prozesskarten, die Ihren tatsächlichen Prozessfluss widerspiegeln.

Wenn deaktiviert, werden Aktivitätsnamen durch generische Bezeichnungen wie „Activity_1“, „Activity_2“ usw. ersetzt. Verwenden Sie diese Option, wenn selbst Ihre Activity-Namen sensible Informationen enthalten.

Was generiert wird

Der synthetische Datengenerator analysiert Ihren Quelldatensatz und erstellt neue Daten mit:

Element Wie es generiert wird
Case-IDs Neue sequentielle IDs: Case_1, Case_2 usw.
Activity-Namen Aus der Quelle übernommen (oder anonymisiert, wenn Option deaktiviert)
Zeitstempel Realistische Daten mit ähnlichen Dauer-Mustern zwischen Aktivitäten
Textattribute Ersetzt durch generische Werte wie Customer_1, Region_2 usw. unter Erhaltung der Verteilung (wenn 60 % der Fälle „High Priority“ waren, haben ca. 60 % der synthetischen Fälle Priority_1)
Numerische Attribute Generiert mit ähnlichen statistischen Eigenschaften (Mittelwert, Streuung, min/max Bereich)
Prozessfluss Aktivitätssequenzen basierend auf Ihren tatsächlichen Prozessvarianten

Was NICHT enthalten ist

Berechnete Spalten sind im synthetischen Output ausgeschlossen, da sie beim Import in mindzieStudio neu berechnet würden.

Ausgabe

Wenn Sie auf Generate klicken, führt mindzieStudio folgende Schritte aus:

  1. Analysiert Ihre Quelldaten, um statistische Muster zu extrahieren
  2. Generiert die angegebene Anzahl synthetischer Fälle
  3. Lädt das Ergebnis automatisch als CSV-Datei herunter

Der Download-Dateiname entspricht Ihrem Dataset-Namen mit der Endung .csv.

Beispiel

Quelldaten:

CaseId,Activity,Timestamp,Customer,Amount
C001,Submit,2024-01-01 09:00,Acme Corp,1500.00
C001,Review,2024-01-01 11:00,Acme Corp,1500.00
C002,Submit,2024-01-02 10:00,Beta Inc,2300.00

Synthetische Ausgabe (bei aktiviertem Activity-Namen beibehalten):

CaseId,Activity,Timestamp,Customer,Amount
Case_1,Submit,2020-03-15 14:23,Customer_1,1842.37
Case_1,Review,2020-03-15 16:45,Customer_1,1842.37
Case_2,Submit,2020-07-22 09:12,Customer_2,1523.89

Beachten Sie:

  • Aktivitätsnamen werden beibehalten
  • Kundennamen werden durch generische Customer_1, Customer_2 ersetzt
  • Beträge sind ähnlich im Bereich, aber erfunden
  • Zeitstempel sind realistisch, aber komplett neu

Anwendungsfälle

Erstellung von Demo-Datensätzen

Generieren Sie synthetische Daten aus Ihrem Produktionsprozess, um sichere Demo-Datensätze zu erstellen, die reale Prozessmuster zeigen, ohne echte Geschäftsdaten preiszugeben.

Teilen mit externen Beratern

Bei Zusammenarbeit mit externen Process-Mining-Beratern oder Anbietern teilen Sie synthetische Datensätze, die Ihre Prozessmerkmale bewahren, ohne sensible Informationen zu offenbaren.

Leistungstests

Generieren Sie große synthetische Datensätze (50.000+ Fälle), um zu testen, wie Ihre Notebooks und Dashboards mit größeren Datenmengen umgehen.

Schulung und Ausbildung

Erstellen Sie synthetische Datensätze, um neue Teammitglieder im Process Mining mit realistischen, aber sicheren Daten zu trainieren.