Follows Graphs

Hinweis: Dies ist ein nur für Administratoren zugänglicher Rechner, der für Tests und Datenqualitätsanalysen konzipiert ist. Die meisten Benutzer sollten den Process Map-Rechner für die visuelle Prozessanalyse verwenden.

Überblick

Der Follows Graphs-Rechner erzeugt detaillierte Daten darüber, wie Aktivitäten in Ihrem Prozess miteinander in Beziehung stehen. Er berechnet zwei Arten von Beziehungen: Direkt folgt-Beziehungen, bei denen eine Aktivität unmittelbar einer anderen folgt, und Schließlich folgt-Beziehungen, bei denen eine Aktivität vor einer anderen zu irgendeinem Zeitpunkt im Fall auftritt, unabhängig von dazwischenliegenden Aktivitäten.

Im Gegensatz zum Process Map-Rechner, der interaktive Visualisierungen bietet, führt Follows Graphs vollständige Graphberechnungen durch und gibt strukturierte Datentabellen aus, die sich für detaillierte Analysen, Tests, Leistungsbenchmarks und Datenqualitätsprüfungen eignen. Dieser Rechner wird hauptsächlich von Administratoren und Process Mining-Analysten verwendet, die Zugriff auf rohe Graphdaten für technische Analysen oder den Export in externe Werkzeuge benötigen.

Häufige Anwendungsfälle

  • Testen und Validieren von Graphberechnungsalgorithmen auf Korrektheit und Leistung
  • Benchmarking der Berechnungsleistung bei unterschiedlichen Datensatzgrößen und -komplexitäten
  • Identifikation von Datenqualitätsproblemen bei Ereignissen mit identischen Zeitstempeln
  • Export detaillierter Graphdaten zur externen Analyse in Werkzeugen wie R, Python oder Gephi
  • Analyse von Dauervariationen für spezifische Aktivitätspaare im Detail
  • Validierung von Process Mining-Algorithmen während der Entwicklung und Regressionstests

Einstellungen

Dieser Rechner verfügt über keine konfigurierbaren Einstellungen. Er verarbeitet bei jedem Lauf alle Fälle und Ereignisse, um vollständige Graphdaten zu generieren.

Beispiele

Beispiel 1: Identifikation von Datenqualitätsproblemen mit identischen Zeitstempeln

Szenario: Sie vermuten, dass Ihr Ereignisprotokoll Probleme mit der Zeitstempelpräzision aufweist, bei denen mehrere Aktivitäten identische Zeitstempel haben, sodass ihre korrekte Reihenfolge nicht bestimmt werden kann. Sie möchten herausfinden, welche Aktivitätspaare betroffen sind und wie häufig dies vorkommt.

Einstellungen:

Keine Einstellungen erforderlich.

Ausgabe:

Der Rechner erzeugt fünf Datentabellen. Die Tabellen 2 und 3 zeigen unbestimmbare Paare mit identischen Zeitstempeln:

DirectlyFollows-Indeterminate Tabelle:

  • Create Invoice und Send Invoice: 127 Vorkommen
  • Receive Payment und Record Payment: 89 Vorkommen
  • Approve Request und Notify Approver: 45 Vorkommen

Die EventuallyFollows-Indeterminate Tabelle zeigt dieselben Paare plus zusätzliche eventually-follows-Beziehungen mit null Dauer.

Die Statistik-Tabelle zeigt:

  • Berechnungszeit: 2.347 Millisekunden
  • Zeit zum Füllen der Tabellen: 156 Millisekunden
  • Gesamtberechnungen: 1.247.893

Erkenntnisse: Die hohe Anzahl unbestimmbarer Paare weist auf erhebliche Probleme mit der Zeitstempelpräzision in Ihrem Ereignisprotokoll hin. Das häufigste Problem tritt bei Create Invoice und Send Invoice auf, die in 127 Fällen exakt gleichzeitig stattfinden. Dies deutet darauf hin, dass diese Ereignisse entweder nur mit Datumsgenauigkeit erfasst werden oder vom Quellsystem zeitgleich gestempelt werden. Sie sollten untersuchen, ob diese Aktivitäten wirklich simultan auftreten oder ob bei der Datenextraktion Zeitinformationen verloren gehen. Dieses Datenqualitätsproblem kann die Prozessanalyse beeinträchtigen und sollte durch Verbesserung der Zeitstempelpräzision in den Quelldaten behoben werden.

Beispiel 2: Leistungsbenchmarking bei unterschiedlichen Datensatzgrößen

Szenario: Sie optimieren Ihre Process Mining-Infrastruktur und möchten verstehen, wie die Graphberechnungsleistung mit der Datensatzgröße skaliert. Sie wollen die Berechnungszeit für verschiedene Datenvolumen messen, um Ressourcenplanung zu ermöglichen.

Einstellungen:

Keine Einstellungen erforderlich.

Ausgabe:

Ausführung des Rechners auf zunehmend größeren Datensätzen und Betrachtung der Statistik-Tabelle:

Datensatz mit 10.000 Fällen:

  • Berechnungszeit: 847 Millisekunden
  • Gesamtberechnungen: 186.234

Datensatz mit 50.000 Fällen:

  • Berechnungszeit: 4.521 Millisekunden
  • Gesamtberechnungen: 931.170

Datensatz mit 100.000 Fällen:

  • Berechnungszeit: 9.234 Millisekunden
  • Gesamtberechnungen: 1.862.340

Die DirectlyFollows-Tabelle enthält 156 eindeutige Aktivitätspaare, während die EventuallyFollows-Tabelle 2.847 Paare aufweist, was die umfassende Natur von eventually-follows-Beziehungen zeigt.

Erkenntnisse: Die Berechnungszeit skaliert ungefähr linear mit der Anzahl der Fälle, wenn Fälle eine konstante durchschnittliche Ereignisanzahl aufweisen. Die Gesamtanzahl der Berechnungen zeigt jedoch, dass die eventually-follows-Graph-Berechnung deutlich ressourcenintensiver ist als die direkt folgt-Berechnung, was der quadratischen Komplexität des Algorithmus bei Fällen mit vielen Ereignissen entspricht. Für Datensätze mit mehr als 100.000 Fällen sollten Sie eine Filterung auf die relevantesten Fälle vor der Ausführung dieses Rechners in Betracht ziehen oder zusätzliche Rechenressourcen bereitstellen. Die Zeit zum Füllen der Tabellen bleibt bei allen Datensatzgrößen konstant niedrig, was zeigt, dass die Tabellenumwandlung kein Engpass ist.

Beispiel 3: Export von Prozessdaten für externe Forschungsanalysen

Szenario: Sie arbeiten mit einem universitären Forschungsteam zusammen, das Prozessoptimierungsalgorithmen untersucht. Dieses benötigt rohe Prozessgraphdaten in einem standardisierten Format, um ihre neue Analyse zu testen. Sie wollen die Prozessbeziehungen mit vollständigen Dauerstatistiken exportieren.

Einstellungen:

Keine Einstellungen erforderlich.

Ausgabe:

Der Rechner erzeugt die DirectlyFollows-Tabelle mit 243 eindeutigen Aktivitätspaaren:

Beispielzeilen aus der DirectlyFollows-Tabelle:

  • Submit Claim -> Validate Documents: Count=1.847, Mittelwert=2,3 Tage, Median=1,8 Tage, StDev=3,2 Tage
  • Validate Documents -> Approve Claim: Count=1.245, Mittelwert=4,7 Tage, Median=3,1 Tage, StDev=6,8 Tage
  • Validate Documents -> Request Additional Info: Count=602, Mittelwert=1,2 Tage, Median=0,9 Tage, StDev=2,1 Tage

Die EventuallyFollows-Tabelle enthält 4.892 Paare und zeigt alle möglichen Aktivitätsbeziehungen, einschließlich nicht aufeinanderfolgender Paare.

Erkenntnisse: Sie können die DirectlyFollows-Tabelle im CSV-Format exportieren und dem Forschungsteam bereitstellen. Die Tabelle enthält alle wichtigen Informationen für Process Mining-Forschung: Aktivitätsnamen, Beziehungsfrequenzen und umfassende Dauerstatistiken einschließlich Mittelwert, Median, Standardabweichung, Minimum und Maximum. Die EventuallyFollows-Tabelle liefert Forschern, die Langstreckenabhängigkeiten in Prozessen untersuchen, ein noch vollständigeres Bild der Aktivitätsbeziehungen. Das strukturierte Ausgabeformat erleichtert den Import in Analysewerkzeuge wie R oder Python für statistische Modellierung.

Beispiel 4: Validierung von Änderungen am Process Mining-Algorithmus

Szenario: Ihr Entwicklungsteam hat den Graphberechnungsalgorithmus zur Leistungsverbesserung modifiziert. Sie müssen überprüfen, ob die Änderungen identische Ergebnisse zur vorherigen Version liefern, um sicherzustellen, dass keine Regression vorliegt.

Einstellungen:

Keine Einstellungen erforderlich.

Ausgabe:

Ausführung beider Algorithmusversionen auf einem bekannten Testdatensatz mit 5 Fällen und 11 Ereignissen:

DirectlyFollows-Tabelle (beide Versionen):

  • 8 eindeutige Aktivitätspaare
  • Identische Häufigkeiten für jedes Paar
  • Identische Dauerstatistiken

EventuallyFollows-Tabelle (beide Versionen):

  • 28 eindeutige Aktivitätspaare
  • Alle Häufigkeiten stimmen exakt überein
  • Alle Dauerstatistiken stimmen innerhalb der Gleitkommapräzision überein

Vergleich der Statistik-Tabelle:

  • Alter Algorithmus: 89 Millisekunden
  • Neuer Algorithmus: 42 Millisekunden
  • Beide: 138 Gesamtberechnungen

Erkenntnisse: Die Validierung bestätigt, dass die Algorithmusoptimierung die Berechnungszeit erfolgreich um 53 Prozent reduziert hat, ohne Ausgabewerte zu verändern. Alle Aktivitätspaare, Häufigkeiten und Dauerstatistiken stimmen exakt zwischen den Versionen überein, was beweist, dass keine Regression auftrat. Die konstante Anzahl an Berechnungen bestätigt, dass beide Algorithmen dieselben Ereignispaarvergleiche durchführen. Diese Art der Validierung ist essenziell, wenn Leistungsverbesserungen vorgenommen werden, um Genauigkeit zu garantieren. Sie können den optimierten Algorithmus nun mit gutem Gewissen produktiv einsetzen.

Beispiel 5: Analyse der Dauerabweichungen für spezifische Aktivitätspaare

Szenario: Ihr Betriebsteam berichtet von inkonsistenten Bearbeitungszeiten zwischen Dokumentenvalidierung und Freigabeaktivitäten. Sie möchten detaillierte Dauerstatistiken für dieses spezifische Aktivitätspaar, um die Variabilität zu verstehen und zu prüfen, ob mehrere unterschiedliche Muster vorliegen.

Einstellungen:

Keine Einstellungen erforderlich.

Ausgabe:

Analyse der DirectlyFollows-Tabelle für das Paar „Validate Documents -> Approve“:

Aktivität1: Validate Documents
Aktivität2: Approve
Anzahl: 3.247 Vorkommen
Mittlere Dauer: 5,8 Tage
Median-Dauer: 2,3 Tage
Standardabweichung: 12,4 Tage
Minimale Dauer: 0,2 Tage
Maximale Dauer: 87,3 Tage

Der große Unterschied zwischen Mittelwert und Median deutet auf eine rechtsschiefe Verteilung mit einigen extremen Ausreißern hin. Die hohe Standardabweichung weist auf eine bedeutende Variabilität hin.

Erkenntnisse: Der dramatische Unterschied zwischen Median-Dauer (2,3 Tage) und Mittelwert-Dauer (5,8 Tage) zeigt, dass zwar die meisten Fälle relativ schnell bearbeitet werden, eine Untergruppe jedoch deutlich länger braucht und den Durchschnitt nach oben zieht. Die maximale Dauer von 87,3 Tagen zeigt extreme Ausreißer, die untersucht werden sollten. Das Minimum von 0,2 Tagen weist auf einige beschleunigte Fälle hin. Dieses Variabilitätsmuster legt nahe, die Fälle zu segmentieren, um zu identifizieren, was schnelle, normale und langsame Bearbeitung unterscheidet. Sie können in die Rohdaten der Ereignispaar-Beziehungen eintauchen, um spezifische Fälle mit extremen Dauern zu identifizieren und deren Merkmale zu analysieren.

Ausgabe

Der Follows Graphs-Rechner erzeugt fünf strukturierte Datentabellen, die umfassende Informationen über den Prozessgraphen enthalten:

Tabelle 0: DirectlyFollows

Zeigt alle direkt folgt-Beziehungen, bei denen eine Aktivität unmittelbar ohne dazwischenliegende Aktivitäten auf eine andere folgt.

Spalten: Key (Aktivitätspaar-Identifier), Activity1 (erste Aktivität), Activity2 (zweite Aktivität), Count (Häufigkeit), MeanDuration, MedianDuration, StdevDuration, MinDuration, MaxDuration

Diese Tabelle enthält typischerweise weniger Beziehungen als EventuallyFollows, da nur aufeinanderfolgende Aktivitätspaare enthalten sind.

Tabelle 1: EventuallyFollows

Zeigt alle schließlich folgt-Beziehungen, bei denen eine Aktivität vor einer anderen zu irgendeinem Zeitpunkt im Fall auftritt.

Spalten: gleiche Struktur wie DirectlyFollows-Tabelle

Diese Tabelle ist deutlich größer, da alle möglichen Aktivitätspaare unabhängig von dazwischenliegenden Aktivitäten enthalten sind. Für einen Fall mit 10 Ereignissen erfasst sie 45 mögliche Paare im Vergleich zu nur 9 direkt folgt-Paaren.

Tabelle 2: DirectlyFollows-Indeterminate

Identifiziert direkt folgt-Paare, bei denen Ereignisse identische Zeitstempel haben und die Reihenfolge somit unbestimmbar ist.

Spalten: Key (nicht richtungsgebundener Paar-Identifier), Activity1, Activity2, Count

Ein gut strukturiertes Ereignisprotokoll mit präzisen Zeitstempeln sollte keine oder nur sehr wenige unbestimmbare Paare enthalten. Hohe Zahlen deuten auf Datenqualitätsprobleme hin.

Tabelle 3: EventuallyFollows-Indeterminate

Identifiziert schließlich folgt-Paare mit identischen Zeitstempeln.

Spalten: gleiche Struktur wie Tabelle DirectlyFollows-Indeterminate

Enthält typischerweise dieselben Paare wie DirectlyFollows-Indeterminate, da Zeitstempelprobleme beide Beziehungstypen betreffen.

Tabelle 4: Stats

Enthält Leistungsmetriken der Berechnung.

Spalten: CalculationTime (Millisekunden zur Berechnung der Graphen), FillTablesTime (Millisekunden zur Umwandlung in Tabellen), Calculations (Gesamtzahl der Ereignispaarvergleiche)

Nutzen Sie diese Tabelle zur Leistungsüberwachung und um zu erkennen, wann Datensätze für effiziente Verarbeitung zu groß werden.

Datenexportoptionen:

Alle Tabellen können im CSV- oder Excel-Format exportiert werden, um sie in externen Tools weiter zu analysieren. Das strukturierte Format erleichtert den Import in Statistiksoftware, Graphvisualisierungstools oder eigene Analyse-Skripte.


Diese Dokumentation ist Teil der mindzieStudio Process Mining Plattform.