Duplikate Ereignisse entfernen
Übersicht
Die Anreicherung „Duplikate Ereignisse entfernen“ ist ein leistungsfähiges Werkzeug zur Datenqualität, das automatisch doppelte Ereignisse aus Ihren Prozessfällen identifiziert und entfernt. Wenn dasselbe Ereignis in einem Fall mehrfach mit identischen Attributwerten (Aktivitätsname, Zeitstempel und alle anderen Ereignisattributen) vorkommt, beseitigt diese Anreicherung redundant vorhandene Kopien und behält nur das erste Vorkommen.
Diese Anreicherung ist besonders wertvoll, wenn mit Daten aus mehreren Quellsystemen, Datenintegrationsprozessen oder Altsystemen gearbeitet wird, in denen Duplikate versehentlich entstehen können. Durch das Entfernen dieser Duplikate wird sichergestellt, dass Ihre Prozessanalyse die tatsächliche Prozessausführung widerspiegelt und nicht durch Datenqualitätsprobleme verfälscht wird, was zu präzisen Zykluszeiten, Aktivitätsfrequenzen und Prozessfluss-Visualisierungen führt.
Im Gegensatz zu anderen aktivitätsbezogenen Anreicherungen, die Ereignisse modifizieren oder kategorisieren, entfernt diese Anreicherung physisch doppelte Ereignisse aus Ihrem Ereignislog und bereinigt Ihren Datensatz dauerhaft. Die Anreicherung vergleicht alle Ereignisattributwerte aus der Originaldatenquelle (nicht berechnete oder abgeleitete Attribute), um zu bestimmen, ob zwei Ereignisse wirklich identisch sind.
Häufige Anwendungsfälle
- Bereinigung von Datensätzen, die aus mehreren Quellsystemen importiert wurden und doppelte Ereignisdatensätze enthalten können
- Entfernen redundanter Ereignisse, die durch Datenintegrationsprozesse oder ETL-Pipelines erzeugt wurden
- Beseitigung von doppelten Aktivitätsaufzeichnungen aufgrund von Systemfehlern oder Daten-Synchronisierungsproblemen
- Verbesserung der Datenqualität vor der Durchführung von Process Mining-Analysen, um genaue Kennzahlen zu gewährleisten
- Vorbereitung von Datensätzen für die Konformitätsprüfung durch Entfernung von Rauschen durch doppelte Ereignisse
- Bereinigung historischer Daten, die im Laufe der Zeit aufgrund von Problemen mit Altsystemen Duplikate angesammelt haben
- Sicherstellung genauer Aktivitätsfrequenzzählungen und Zykluszeitmessungen durch Eliminierung von Duplikat-Rauschen
Einstellungen
Diese Anreicherung erfordert keine Konfiguration. Es handelt sich um eine Ein-Klick-Operation, die alle Ereignisse innerhalb jedes Falls automatisch durchsucht und gefundene Duplikate entfernt.
Die Anreicherung verwendet einen intelligenten Vergleichsalgorithmus, der:
- Alle Original-Quellattributwerte für jedes Ereignis vergleicht (Aktivitätsname, Zeitstempel, Case-ID und alle weiteren Ereignis-Attribute)
- Berechnete oder abgeleitete Attribute, die durch vorherige Anreicherungen hinzugefügt wurden, ignoriert
- Das erste Vorkommen jedes eindeutigen Ereignisses beibehält
- Anschließende doppelte Ereignisse entfernt, die mit allen Attributwerten übereinstimmen
Verwendung der Anreicherung:
- Navigieren Sie in einer Analyse zum Bereich 'Log Enrichment' durch Klick auf 'Log Enrichment' oben rechts
- Klicken Sie auf 'Add New', um eine neue Anreicherung zu erstellen
- Wählen Sie im Bereich Aktivitäten 'Remove Duplicate Events' aus
- Klicken Sie auf 'Create' – keine weitere Konfiguration erforderlich
- Klicken Sie auf 'Calculate Enrichment', um Ihren Datensatz zu verarbeiten
Beispiele
Beispiel 1: Multi-System-Bestellabwicklung
Szenario: Ein E-Commerce-Unternehmen importiert Bestelldaten aus drei unterschiedlichen Systemen: dem Web-Shop, dem Lagerverwaltungssystem und dem Buchhaltungssystem. Durch Datenintegrationsprobleme erscheinen einige Bestelle Ereignisse mehrfach, wenn dieselbe Bestellung von mehreren Systemen mit identischen Zeitstempeln und Werten erfasst wurde.
Einstellungen:
- Keine Konfiguration erforderlich – die Anreicherung erkennt und entfernt automatisch alle doppelten Ereignisse
Ausgabe: Vor der Anreicherung könnte ein Beispielfall folgende Ereignisse enthalten:
- 2024-03-15 09:00:00 - Order Received - Order#12345 - Customer: ABC Corp - Amount: $1,500
- 2024-03-15 09:00:00 - Order Received - Order#12345 - Customer: ABC Corp - Amount: $1,500 (Duplikat)
- 2024-03-15 10:30:00 - Payment Processed - Order#12345 - Amount: $1,500
- 2024-03-15 10:30:00 - Payment Processed - Order#12345 - Amount: $1,500 (Duplikat)
- 2024-03-15 14:00:00 - Order Shipped - Order#12345
Nach der Anreicherung werden die doppelten Ereignisse entfernt:
- 2024-03-15 09:00:00 - Order Received - Order#12345 - Customer: ABC Corp - Amount: $1,500
- 2024-03-15 10:30:00 - Payment Processed - Order#12345 - Amount: $1,500
- 2024-03-15 14:00:00 - Order Shipped - Order#12345
Erkenntnisse: Das Unternehmen kann nun die Prozessleistung präzise messen. Die Zykluszeit von Bestellung bis Versand beträgt korrekt 5 Stunden und wird nicht durch doppelte Ereignisdatensätze verzerrt. Die Aktivitätsfrequenzzählungen spiegeln jetzt die tatsächliche Prozessausführung wider.
Beispiel 2: Patientenreise im Gesundheitswesen
Szenario: Ein Krankenhaus konsolidiert Patientendaten aus dem EHR-System, dem Radiologiesystem und dem Apothekensystem. Während der Migration von einem Altsystem wurden einige Patienteneignisse dupliziert, sodass Patiententimelines dieselben Prozeduren mehrfach zeigten und Aktivitätszählungen aufgebläht wurden.
Einstellungen:
- Keine Konfiguration erforderlich
Ausgabe: Ein Patientenfall vor der Anreicherung:
- 2024-06-20 08:00:00 - Patient Admission - Patient ID: P9876 - Ward: Cardiology
- 2024-06-20 09:15:00 - Blood Test Ordered - Test Type: CBC
- 2024-06-20 09:15:00 - Blood Test Ordered - Test Type: CBC (Duplikat aus Laborsystem)
- 2024-06-20 11:30:00 - ECG Performed - Result: Normal
- 2024-06-20 11:30:00 - ECG Performed - Result: Normal (Duplikat aus Radiologiesystem)
- 2024-06-20 15:00:00 - Medication Prescribed - Drug: Aspirin
- 2024-06-20 15:00:00 - Medication Prescribed - Drug: Aspirin (Duplikat aus Apothekensystem)
- 2024-06-21 10:00:00 - Patient Discharge
Nach der Anreicherung werden Duplikate entfernt:
- 2024-06-20 08:00:00 - Patient Admission - Patient ID: P9876 - Ward: Cardiology
- 2024-06-20 09:15:00 - Blood Test Ordered - Test Type: CBC
- 2024-06-20 11:30:00 - ECG Performed - Result: Normal
- 2024-06-20 15:00:00 - Medication Prescribed - Drug: Aspirin
- 2024-06-21 10:00:00 - Patient Discharge
Erkenntnisse: Das Krankenhaus kann nun Patientenzugänge korrekt nachverfolgen und echte Wartezeiten zwischen Prozeduren berechnen. Ressourcenkennzahlen spiegeln tatsächliche Aktivitätsvolumen wider, ohne durch doppelte Datensätze verfälscht zu sein.
Beispiel 3: Produktionslinie in der Fertigung
Szenario: Ein Fertigungsbetrieb nutzt SCADA-Systeme, die aufgrund von Netzwerk-Synchronisationsproblemen gelegentlich denselben Maschinenbetrieb doppelt protokollieren. Diese Duplikate verzerren Produktionsanalysen und lassen Vorgänge länger erscheinen als sie tatsächlich dauern.
Einstellungen:
- Keine Konfiguration erforderlich
Ausgabe: Produktionsfall vor der Anreicherung:
- 2024-05-10 06:00:00 - Material Loaded - Batch: B1234 - Machine: Press-01
- 2024-05-10 06:05:00 - Press Operation Start - Batch: B1234
- 2024-05-10 06:05:00 - Press Operation Start - Batch: B1234 (Netzwerk-Duplikat)
- 2024-05-10 06:45:00 - Press Operation Complete - Batch: B1234
- 2024-05-10 06:45:00 - Press Operation Complete - Batch: B1234 (Netzwerk-Duplikat)
- 2024-05-10 07:00:00 - Quality Inspection - Result: Pass
- 2024-05-10 07:15:00 - Material Unloaded - Batch: B1234
Nach der Anreicherung:
- 2024-05-10 06:00:00 - Material Loaded - Batch: B1234 - Machine: Press-01
- 2024-05-10 06:05:00 - Press Operation Start - Batch: B1234
- 2024-05-10 06:45:00 - Press Operation Complete - Batch: B1234
- 2024-05-10 07:00:00 - Quality Inspection - Result: Pass
- 2024-05-10 07:15:00 - Material Unloaded - Batch: B1234
Erkenntnisse: Die Zykluszeit-Berechnung ist nun präzise. Die Fabrik kann die Maschinen-Auslastung zuverlässig messen und echte Engpässe identifizieren, ohne durch doppelte Ereignisdatensätze beeinflusst zu werden.
Beispiel 4: Verarbeitung von Finanztransaktionen
Szenario: Das Transaktionsverarbeitungssystem einer Bank erstellt gelegentlich doppelte Log-Einträge, wenn Transaktionen sowohl über das Echtzeitsystem als auch über das Batch-Reconciliationsystem verarbeitet werden. Diese Duplikate müssen vor der Analyse von Transaktionsmustern und Compliance entfernt werden.
Einstellungen:
- Keine Konfiguration erforderlich
Ausgabe: Transaktionsfall vor der Anreicherung:
- 2024-07-15 14:30:00 - Transaction Initiated - Amount: $5,000 - Account: 12345
- 2024-07-15 14:30:05 - Fraud Check Performed - Risk Score: Low
- 2024-07-15 14:30:05 - Fraud Check Performed - Risk Score: Low (Duplikat aus Reconciliation)
- 2024-07-15 14:30:10 - Authorization Approved - Auth Code: A789
- 2024-07-15 14:30:10 - Authorization Approved - Auth Code: A789 (Duplikat aus Reconciliation)
- 2024-07-15 14:30:15 - Transaction Completed - Status: Success
Nach der Anreicherung:
- 2024-07-15 14:30:00 - Transaction Initiated - Amount: $5,000 - Account: 12345
- 2024-07-15 14:30:05 - Fraud Check Performed - Risk Score: Low
- 2024-07-15 14:30:10 - Authorization Approved - Auth Code: A789
- 2024-07-15 14:30:15 - Transaction Completed - Status: Success
Erkenntnisse: Die Bank kann nun Transaktionsbearbeitungszeiten genau messen und echte Verzögerungen in ihrem System identifizieren. Compliance-Berichte zeigen tatsächliche Aktivitätszahlen anstatt aufgeblähter Werte durch Duplikate.
Beispiel 5: IT-Service-Management
Szenario: Ein IT-Servicedesk importiert Ticketdaten aus mehreren Überwachungssystemen. Wenn Incidents zwischen Systemen eskaliert werden, erscheinen Statusänderungsereignisse manchmal mehrfach, was die Incidence-Resolution-Zeiten länger erscheinen lässt als sie tatsächlich sind.
Einstellungen:
- Keine Konfiguration erforderlich
Ausgabe: Incident-Fall vor der Anreicherung:
- 2024-08-22 10:00:00 - Incident Created - Ticket: INC0012345 - Priority: High
- 2024-08-22 10:15:00 - Assigned to L1 Support - Agent: John Smith
- 2024-08-22 10:30:00 - Escalated to L2 - Reason: Complex Issue
- 2024-08-22 10:30:00 - Escalated to L2 - Reason: Complex Issue (Duplikat aus Eskalationssystem)
- 2024-08-22 11:45:00 - Issue Resolved - Resolution: Network Config Fix
- 2024-08-22 11:45:00 - Issue Resolved - Resolution: Network Config Fix (Duplikat aus Eskalationssystem)
- 2024-08-22 12:00:00 - Incident Closed - Satisfaction: 5/5
Nach der Anreicherung:
- 2024-08-22 10:00:00 - Incident Created - Ticket: INC0012345 - Priority: High
- 2024-08-22 10:15:00 - Assigned to L1 Support - Agent: John Smith
- 2024-08-22 10:30:00 - Escalated to L2 - Reason: Complex Issue
- 2024-08-22 11:45:00 - Issue Resolved - Resolution: Network Config Fix
- 2024-08-22 12:00:00 - Incident Closed - Satisfaction: 5/5
Erkenntnisse: Die IT-Abteilung kann nun die mittlere Lösungszeit (MTTR) genau messen und echte Leistungsengpässe im Incident-Management-Prozess identifizieren, ohne dass doppelte Ereignisse die Zeitlinien-Analyse verfälschen.
Ausgabe
Die Anreicherung „Duplikate Ereignisse entfernen“ verändert Ihr Ereignislog, indem doppelte Ereignisdatensätze physisch entfernt werden. Im Gegensatz zu Anreicherungen, die neue Attribute hinzufügen, reduziert diese Anreicherung die Gesamtzahl der Ereignisse.
Was entfernt wird:
- Jedes Ereignis, das mit allen Original-Quellattributen (Aktivitätsname, Zeitstempel, Case-ID und alle weiteren Ereignisattributen) mit einem vorherigen Ereignis im selben Fall identisch ist
- Es werden nur Duplikat-vorkommen entfernt; das erste individuelle Vorkommen jedes Ereignisses bleibt erhalten
Was erhalten bleibt:
- Das erste Vorkommen jedes eindeutigen Ereignisses
- Ereignisse, die sich in irgend einem Attributwert unterscheiden (auch wenn Zeitstempel oder Aktivitätsnamen gleich sind)
- Alle berechneten Attribute und Ergebnisse vorheriger Anreicherungen
Auswirkungen auf Ihren Datensatz:
- Ereigniszählung: Die Gesamtzahl der Ereignisse in Ihrem Log reduziert sich entsprechend der gefundenen Duplikate
- Fallanzahl: Die Anzahl der Fälle bleibt unverändert
- Aktivitätsstatistiken: Aktivitätsfrequenzzählungen werden genauer und spiegeln die tatsächliche Prozessausführung wider
- Zykluszeiten: Berechnungen der Dauer zwischen Aktivitäten werden präziser, da doppelte Ereignisse keine Null-Dauer-Intervalle mehr verursachen
- Prozessfluss: Prozessabbildungen und Variantenanalyse zeigen sauberere und genauere Prozessflüsse
Wichtige Hinweise:
- Diese Anreicherung entfernt Duplikate dauerhaft aus Ihrem Arbeitsdatensatz. Falls Sie die Originaldaten mit Duplikaten behalten möchten, erstellen Sie vor der Anwendung eine Sicherung oder nutzen Sie einen Datensatz-Snapshot.
- Die Anreicherung vergleicht ausschließlich Original-Quellspalten, keine berechneten oder abgeleiteten Attribute früherer Anreicherungen.
- Ereignisse gelten nur dann als Duplikate, wenn ALLE Originalattribute exakt übereinstimmen.
- Die Verarbeitung erfolgt chronologisch, wobei stets das erste Vorkommen behalten wird.
Verwendung der bereinigten Daten: Nach der Durchführung können Sie:
- Prozessentdeckungen ohne Rauschen durch doppelte Ereignisse durchführen
- Zuverlässige Leistungskennzahlen und KPIs berechnen
- Konformitätsprüfungen mit bereinigten Daten vornehmen
- Präzise Prozessvisualisierungen und Dashboards erstellen
- Weitere Anreicherungen anwenden mit dem sicheren Wissen um saubere Basisdaten
Siehe auch
Verwandte Datenqualitäts-Anreicherungen:
- Remove Repeated Activities – Entfernt aufeinanderfolgende Vorkommnisse derselben Aktivität (anders als diese Anreicherung, die exakte Duplikate von Ereignissen entfernt)
- Sort Log on Start Time – Stellt sicher, dass Ereignisse in korrekter chronologischer Reihenfolge vor der Analyse sortiert sind
- Hide Attribute – Entfernt unnötige Attribute aus Ihrer Analyseansicht
- Filter Process Log – Entfernt spezifische Fälle oder Ereignisse basierend auf Kriterien
- Anonymize – Entfernt oder verschleiert sensible Informationen in Ereignis-Attributen
Für weitere Informationen zu Best Practices der Datenqualität:
- Data Quality Best Practices – Richtlinien zur Vorbereitung sauberer Prozessdaten
- Log Enrichment Overview – Überblick über den Anreicherungsworkflow in mindzieStudio
Diese Dokumentation ist Teil der mindzie Studio Process Mining Plattform.