Find Date Outliers
Übersicht
Der Find Date Outliers-Rechner identifiziert Datums- und Zeitstempelwerte in Ihrem Ereignisprotokoll, die außerhalb der normal zu erwartenden Bereiche liegen, und hilft Ihnen so, Datenqualitätsprobleme zu erkennen, bevor diese Ihre Prozessanalyse beeinträchtigen. Dieser spezialisierte Datenqualitätsrechner durchsucht automatisch alle Datums- und Zeitstempelfelder in Ihrem gesamten Ereignisprotokoll, um Werte zu finden, die eindeutig ungültig sind, wie z. B. Daten in der fernen Vergangenheit, weit in der Zukunft oder Nullwerte.
Im Gegensatz zur manuellen Dateninspektion prüft dieser Rechner systematisch jedes Datumsfeld in Ihren Prozessdaten, um potenzielle Probleme hervorzuheben, die Ihre Process-Mining-Analyse verzerren könnten, beispielsweise falsche Aktivitätszeitstempel, fehlerhafte Datenimporte oder Standardplatzhalterwerte, die nie aktualisiert wurden.
Häufige Anwendungsfälle
- Validierung der Datenqualität nach dem Import von Ereignisprotokollen aus Altsystemen oder neuen Datenquellen
- Erkennung von Platzhalterdaten oder Standardwerten, die auf unvollständige Dateneingaben hinweisen
- Identifikation von Systemuhrenfehlern oder Problemen bei der Zeitzonenkonvertierung, die unmögliche Zeitstempel erzeugen
- Auffinden von Testdaten, die versehentlich in Produktionsereignisprotokolle gelangt sind
- Überprüfung, ob Zeitstempeldaten innerhalb der erwarteten Geschäftszeiten liegen
- Schnelle Bewertung der Gesamtqualität von Datumsfeldern über alle Attribute vor der detaillierten Analyse
Einstellungen
Dieser Rechner benötigt keine Konfigurationseinstellungen. Er untersucht automatisch alle Datums- und Zeitstempelattribute in Ihrem Ereignisprotokoll und identifiziert Ausreißer basierend auf vordefinierten Regeln dafür, was als unrealistische oder problematische Daten gilt.
Standardfelder:
- Title: Optionaler benutzerdefinierter Titel für die Ausgabe des Rechners
- Description: Optionale Beschreibung zu Dokumentationszwecken
Erkennungsregeln:
Der Rechner identifiziert Datumsausreißer, indem er prüft auf:
- Daten vor 1990: Werte vor dem 1. Januar 1990 werden als wahrscheinlich Datenfehler oder Platzhalter markiert
- Daten nach 2040: Werte nach dem 1. Januar 2040 gelten als unrealistisch für aktuelle Geschäftsprozesse
- Null- oder fehlende Daten: Fehlende, Null- oder Zeitstempelwerte mit dem Wert Null, die auf unvollständige Daten hindeuten
- Ungültige Datumsformate: Fehlerhaft formatierte Datumswerte, die nicht korrekt geparst werden können
Beispiele
Beispiel 1: Validierung der Migration eines Altsystems
Szenario: Ihre Organisation hat kürzlich Rechnungsverarbeitungsdaten aus einem 20 Jahre alten Altsystem ERP in eine moderne Plattform migriert. Vor der Durchführung einer Process-Mining-Analyse möchten Sie sicherstellen, dass alle Datumsfelder korrekt konvertiert wurden und keine Platzhalter- oder Standarddaten im Datensatz verbleiben.
Einstellungen:
- Title: "Invoice Data Migration Validation"
- Description: "Check for date conversion issues from legacy system"
Ausgabe:
Der Rechner erzeugt eine Tabelle, die problematische Datumswerte nach Attribut gruppiert zeigt. Jede Zeile repräsentiert ein spezifisches Attribut, in dem Ausreißer gefunden wurden:
| Attributname | Anzahl Ausreißer | Beispiel-Ausreißerwert | Problemtyp |
|---|---|---|---|
| Invoice_Date | 847 | 1900-01-01 | Vor 1990 |
| Payment_Due_Date | 847 | 1900-01-01 | Vor 1990 |
| Last_Modified_Date | 23 | 2099-12-31 | Nach 2040 |
| Approval_Timestamp | 156 | NULL | Null/Zero |
Erkenntnisse:
Die Ausgabe zeigt deutliche Datenqualitätsprobleme aus der Migration. Die 847 Rechnungen mit dem Datum 1. Januar 1900 sind eindeutig Platzhalterwerte aus dem Altsystem, die nicht korrekt konvertiert wurden – dieses Datum wurde in älteren Systemen häufig als Standard-"Leerwert" verwendet. Die 23 Datensätze mit dem Datum 2099 im Feld Last_Modified_Date deuten auf Testdatensätze hin, die versehentlich in die Produktion gelangt sind. Die 156 null-Werte im Approval_Timestamp zeigen unvollständige Datensätze, denen wichtige Prozesszeitinformationen fehlen.
Bevor Sie eine Prozessanalyse durchführen, sollten Sie:
- Mit dem Datenteam zusammenarbeiten, um die 847 Datensätze mit Platzhalterdaten zu korrigieren oder zu entfernen
- Die 23 Testdatensätze mit Datum 2099 herausfiltern
- Untersuchen, warum 156 Rechnungen keine Freigabezeitstempel besitzen
Diese Validierung bewahrte Sie davor, falsche Schlussfolgerungen über Rechnungsverarbeitungszeiten und Freigabemuster basierend auf beschädigten Datumsdaten zu ziehen.
Beispiel 2: Erkennung von Systemuhrenproblemen
Szenario: Nutzer haben berichtet, dass einige Zeitstempel in Ihrem Bestellabwicklungsprozess "keinen Sinn ergeben", da Aktivitäten scheinbar in der falschen Reihenfolge stattfinden. Sie vermuten Probleme mit der Synchronisation der Serveruhr oder Fehler bei der Zeitzonenkonvertierung, die die Ereigniszeitstempel beeinflussen.
Einstellungen:
- Title: "Order Fulfillment Timestamp Validation"
- Description: "Identify clock synchronization or timezone issues"
Ausgabe:
Der Rechner zeigt Ausreißer in den Aktivitätszeitstempelfeldern:
| Attributname | Anzahl Ausreißer | Beispiel-Ausreißerwert | Problemtyp |
|---|---|---|---|
| Activity_Timestamp | 1.247 | 2043-08-15 14:23:00 | Nach 2040 |
| Event_Start_Time | 1.247 | 2043-08-15 14:23:00 | Nach 2040 |
Erkenntnisse:
Die 1.247 Ereignisse haben alle Zeitstempel im August 2043 – genau 20 Jahre in der Zukunft. Dies ist ein klassisches Zeichen für einen Systemuhrenfehler auf einem Ihrer Applikationsserver oder einen Fehler bei der Zeitzonenkonvertierung, der Jahrzehnte anstatt Stunden hinzuaddierte. Die Tatsache, dass sowohl Activity_Timestamp als auch Event_Start_Time identische Ausreißeranzahlen und Werte zeigen, bestätigt, dass es sich um dieselben Ereignisse handelt, die in mehreren Feldern erfasst wurden.
Die Untersuchung ergab, dass die Uhr auf einem Server des Lagerverwaltungssystems nach einem Wartungsfenster falsch eingestellt wurde und alle Ereignisse, die in einem 6-Stunden-Zeitraum über diesen Server verarbeitet wurden, Zeitstempel 20 Jahre in der Zukunft erhielten. Diese 1.247 Ereignisse repräsentieren kritische Auftragsbearbeitungsschritte (Kommissionierung, Verpackung, Versand), die korrigiert werden müssen, um eine korrekte Prozessflussanalyse zu ermöglichen.
Ohne diesen Rechner hätten diese Zeitstempelfehler in Ihren Prozessabläufen Aktivitäten komplett in falscher Reihenfolge angezeigt, was eine genaue Analyse der Bestellbearbeitungsleistung für den betroffenen Zeitraum unmöglich gemacht hätte.
Beispiel 3: Datenqualitätsprüfung vor der Analyse
Szenario: Sie stehen kurz davor, eine umfassende Process-Mining-Analyse Ihres Purchase-to-Pay-Prozesses über drei Jahre durchzuführen. Als bewährte Vorgehensweise führen Sie zuerst den Find Date Outliers-Rechner aus, um sicherzustellen, dass Ihr Datensatz sauber ist, bevor Sie Zeit in detaillierte Analysen investieren.
Einstellungen:
- Title: "Purchase-to-Pay Data Quality Scan"
- Description: "Pre-analysis validation check"
Ausgabe:
Der Rechner gibt eine Tabelle zurück, die zeigt, dass alle Attribute gültige Datumsbereiche ohne Ausreißer aufweisen.
Ergebnis: Keine Ausreißer in irgendwelchen Datumsattributen gefunden.
Erkenntnisse:
Dies ist das bestmögliche Ergebnis – eine saubere Bestätigung für Ihre Datumsdaten. Der Rechner hat alle Zeitstempel- und Datumsfelder in Ihrem gesamten dreijährigen Purchase-to-Pay-Ereignisprotokoll untersucht und keine Werte vor 1990, nach 2040 oder Null/Zero-Werte gefunden. Dies gibt Ihnen die Zuversicht, mit der Process-Mining-Analyse fortzufahren, wissend, dass:
- Alle Zeitstempel genau widerspiegeln, wann Aktivitäten stattgefunden haben
- Keine Platzhalterdaten Ihre zeitbasierten Kennzahlen verzerren
- Keine Testdaten versehentlich Ihre Produktionsdaten kontaminiert haben
- Die Systemuhren während der gesamten Datenerfassung ordnungsgemäß synchronisiert waren
Sie können jetzt der zeitlichen Reihenfolge von Aktivitäten in Prozessdarstellungen, der Genauigkeit von Dauerberechnungen und der Verlässlichkeit zeitbasierter Erkenntnisse vertrauen. Diese vorgelagerte Validierung spart unzählige Stunden bei der Fehlersuche bei verwirrenden Ergebnissen, die durch fehlerhafte Datumsdaten verursacht worden wären.
Beispiel 4: Erkennung unvollständiger Dateneingaben
Szenario: Ihr Kundenservice-Ticketsystem ermöglicht es Supportmitarbeitern, bestimmte Daten manuell einzugeben, und Sie vermuten, dass viele Tickets unvollständige oder fehlende Zeitstempelinformationen haben, die Ihre Analyse der Bearbeitungszeiten beeinflussen könnten.
Einstellungen:
- Title: "Support Ticket Date Completeness Check"
- Description: "Identify tickets with missing date information"
Ausgabe:
| Attributname | Anzahl Ausreißer | Beispiel-Ausreißerwert | Problemtyp |
|---|---|---|---|
| First_Response_Date | 3.456 | NULL | Null/Zero |
| Resolution_Date | 892 | NULL | Null/Zero |
| Escalation_Date | 12.034 | NULL | Null/Zero |
| Follow_Up_Date | 8.721 | 1970-01-01 | Vor 1990 |
Erkenntnisse:
Die Analyse zeigt deutliche Datenlücken bei der Eingabe. Die hohe Anzahl der Nullwerte weist darauf hin, dass die Agenten kritische Daten nicht konsequent erfassen:
- 3.456 Tickets ohne First_Response_Date: Diese Fälle können in der SLA-Analyse der Antwortzeiten nicht berücksichtigt werden
- 892 Tickets ohne Resolution_Date: Für diese Fälle ist die Berechnung der Lösungszeit unmöglich
- 12.034 Tickets ohne Escalation_Date: Dies ist tatsächlich akzeptabel – die meisten Tickets sollten nicht eskaliert werden, daher ist Null hier erwartet
- 8.721 Tickets mit dem Datum 1970-01-01 als Follow_Up_Date: Dieses Unix-Epochen-Datum (1. Januar 1970) ist ein klassischer Standardwert und zeigt an, dass das Feld nie richtig gesetzt wurde
Das besorgniserregendste Problem sind die 3.456 Tickets ohne First_Response_Date, was 15 % Ihres Ticketvolumens entspricht und Ihre Fähigkeit beeinträchtigt, die Kundenservice-Reaktionszeit zu messen. Sie sollten:
- Ihr Ticketsystem so aktualisieren, dass First_Response_Date ein Pflichtfeld wird
- Agents schulen, wie wichtig vollständige Dateneingaben sind
- Wo möglich, eine automatische Zeitstempel-Erfassung statt manueller Eingabe in Betracht ziehen
- Die 892 ungelösten Tickets von der Analyse abgeschlossener Fälle ausschließen
Diese Validierung half Ihnen zu verstehen, dass Ihre Kennzahlen zur Fallbearbeitungszeit unterschätzt wurden, da Tickets mit fehlenden Daten ausgeschlossen wurden, was der Geschäftsleitung ein zu optimistisches Bild der Support-Leistung vermittelte.
Ausgabe
Der Rechner erzeugt eine Datentabelle, die alle Datums- und Zeitstempelattribute mit Ausreißerwerten auflistet. Die Tabelle hilft Ihnen, Datenqualitätsprobleme schnell zu erkennen und zu priorisieren:
Attributname (Text): Der Name des Fall- oder Ereignisattributfeldes, das Datumsausreißer enthält. Dies ermöglicht die genaue Identifikation der problematischen Felder.
Anzahl Ausreißer (Zahl): Die Anzahl der Fälle oder Ereignisse mit problematischen Datumswerten in diesem Attribut. Höhere Zahlen deuten auf gravierendere Datenqualitätsprobleme hin, die dringend behoben werden sollten.
Beispiel-Ausreißerwert (DateTime): Ein Beispiel eines problematischen Datumswertes im Attribut, das Ihnen hilft, die Art des Problems zu verstehen (z. B. "1900-01-01" weist auf Platzhalterdaten hin, während "2050-01-15" auf Uhrenfehler deutet).
Problemtyp (Kategorie): Die Art des erkannten Ausreißers – „Vor 1990“, „Nach 2040“ oder „Null/Zero“ – unterstützt Sie dabei, zu verstehen, ob es sich um Platzhalterdaten, zukünftige Daten oder fehlende Werte handelt.
Interaktive Analyse:
Die Ausgabetabelle ist vollständig interaktiv – Sie können:
- Auf eine beliebige Zeile klicken, um die spezifischen Fälle mit den Ausreißerwerten detailliert zu untersuchen
- Nach Anzahl Ausreißer sortieren, um Prioritäten bei der Korrektur zu setzen
- Die Ergebnisse filtern, um sich auf bestimmte Problemtypen zu konzentrieren
- Die Ausreißerliste exportieren, um sie mit Datenqualitätsteams zu teilen
Best Practices:
- Verwenden Sie diesen Rechner als ersten Schritt in jedem neuen Process-Mining-Projekt
- Führen Sie ihn nach jedem Datenimport oder Systemmigration erneut aus
- Beheben Sie Ausreißer, bevor Sie Prozessabbildungen erstellen oder Leistungskennzahlen berechnen
- Nutzen Sie den Rechner regelmäßig bei laufenden Datenströmen, um Qualitätsverschlechterungen früh zu erkennen
Hinweis: Der Rechner untersucht nur Attribute mit Datums- oder Zeitstempel-Datentypen. Textfelder, die Daten enthalten, werden nicht analysiert. Werden keine Ausreißer gefunden, zeigt der Rechner „No date outliers detected“ an – das bedeutet, Ihre Datenqualität ist ausgezeichnet.
Diese Dokumentation ist Teil der mindzie Studio Process-Mining-Plattform.