Spalteninformationen

Übersicht

Der Column Info Rechner liefert detaillierte Metadaten und Statistiken zu allen Attributen (Spalten) in Ihrem Ereignisprotokolldatensatz. Dieses Administrationswerkzeug zeigt umfassende Informationen zu jedem Attribut, einschließlich Datentypen, Wertverteilungen, Anzahl der Nullwerte und Beispielwerte.

WICHTIG: Dies ist ein ausschließlich für Administratoren bestimmter Rechner, der für technische Analysen und Forschungszwecke konzipiert wurde. Er ist nicht für den Produktionseinsatz optimiert und kann bei großen Datensätzen erhebliche Bearbeitungszeiten benötigen. Normale Benutzer sollten den Rechner Dataset Information für allgemeine Übersichtsdaten verwenden.

Dieser Rechner wird hauptsächlich von Systemadministratoren, Datenanalysten und technischen Nutzern verwendet, die tiefgehende Einblicke in die Datenstruktur und Datenqualität für Fehlerbehebung, Datenvalidierung oder Datensatzoptimierung benötigen.

Häufige Einsatzgebiete

  • Durchführung umfassender Datenqualitätsprüfungen über alle Attribute im Ereignisprotokoll
  • Identifikation von Attributen mit hohem Anteil an Null- oder fehlenden Werten
  • Analyse der Konsistenz von Datentypen und Erkennung potenzieller Typkonvertierungsprobleme
  • Überprüfung der Attribut-Kardinalität (Anzahl eindeutiger Werte) zur Identifikation von Kandidaten für kategoriale Analysen
  • Validierung von Datenauszügen durch Untersuchung von Attributstatistiken
  • Diagnose von Performance-Problemen durch Erkennung von Attributen mit unerwarteten Wertverteilungen
  • Dokumentation des Datensatzschemas und der Eigenschaften für technische Spezifikationen

Einstellungen

Für diesen Rechner sind keine spezifischen Konfigurationseinstellungen erforderlich. Bei Ausführung werden automatisch alle Attribute im aktuellen Datensatz (sowohl auf Fall- als auch auf Ereignisebene) gescannt und umfassende Statistiken für jedes Attribut erzeugt.

Hinweis: Die Verarbeitungszeit hängt von der Datensatzgröße und der Anzahl der Attribute ab. Bei sehr großen Datensätzen kann die Ausführung mehrere Minuten dauern.

Beispiele

Beispiel 1: Datenqualitätsprüfung nach ETL

Szenario: Sie haben gerade einen ETL-Prozess abgeschlossen, um Order-to-Cash-Daten aus Ihrem ERP-System zu extrahieren. Bevor der Datensatz den Fachanwendern zur Verfügung gestellt wird, müssen Sie überprüfen, ob alle Attribute korrekt extrahiert wurden und die Datenvollständigkeit bewerten.

Einstellungen:

  • Titel: "Datenqualitätsvalidierung nach ETL"
  • Beschreibung: "O2C-Datensatz – Januar 2025 Extraktion"

Ausgabe:

Der Rechner zeigt eine umfassende Tabelle mit folgenden Informationen für jedes Attribut:

Attributname Typ Gesamtwerte Nullanzahl Null % Einzigartige Werte Beispielwerte
CaseID Case 2.456 0 0% 2.456 ORD-001, ORD-002, ORD-003
CustomerName Case 2.456 12 0,5% 847 Acme Corp, TechStart Inc, Global...
OrderAmount Case 2.456 0 0% 1.823 1250,00, 3400,50, 875,25
Region Case 2.456 156 6,4% 4 Nord, Süd, Ost, West
ActivityName Event 18.945 0 0% 15 Auftrag erstellen, Auftrag genehmigen, ...
Timestamp Event 18.945 0 0% 18.893 2025-01-15 08:23:00, 2025-01-15...
ApprovalLevel Event 18.945 8.234 43,5% 3 L1, L2, L3
Department Event 18.945 3.456 18,2% 8 Vertrieb, Finanzen, Betrieb...

Erkenntnisse: Die Prüfung offenbart mehrere Datenqualitätsprobleme. Das Attribut Region weist 6,4 % Nullwerte auf, was 156 Fälle betrifft – diese Fälle benötigen eine manuelle Überprüfung oder Datenkorrektur. Kritischer ist das Attribut ApprovalLevel mit 43,5 % Nullwerten, was darauf hindeuten kann, dass nicht alle Aktivitäten eine Genehmigung erfordern (erwartet) oder dass Genehmigungsdaten für Aktivitäten fehlen, die sie haben sollten (benötigt Untersuchung). Die geringe Anzahl an Nullwerten bei CustomerName (0,5 %) ist akzeptabel und könnte Testbestellungen darstellen. Alle kritischen Kennungen (CaseID, Timestamp) sind ohne Nullwerte, was die Datenintegrität bestätigt.

Beispiel 2: Performance-Fehleranalyse

Szenario: Nutzer berichten von langsamer Performance beim Filtern bestimmter Attribute. Sie müssen herausfinden, welche Attribute eine hohe Kardinalität (viele eindeutige Werte) aufweisen, die ineffizientes Filtern verursachen könnten.

Einstellungen:

  • Titel: "Analyse der Attribut-Kardinalität"
  • Beschreibung: "Untersuchung von Filterperformance-Problemen"

Ausgabe:

Attributname Typ Gesamtwerte Einzigartige Werte Kardinalitätsverhältnis Datentyp
CaseID Case 45.678 45.678 100 % String
TransactionID Event 367.824 367.824 100 % String
UserComments Event 367.824 89.234 24,3 % String
ProductSKU Event 367.824 12.456 3,4 % String
Status Case 45.678 8 0,02 % String
Priority Case 45.678 3 0,007 % String

Erkenntnisse: Die Analyse zeigt eine große Spannweite in der Kardinalität der Attribute. CaseID und TransactionID haben 100 % Kardinalität (jeder Wert ist einzigartig), wodurch sie ideal für die Fallidentifikation, aber schlecht für kategoriale Filter sind. UserComments weist mit 24,3 % unerwartet hohe Kardinalität auf, was darauf hindeutet, dass das Feld Freitext enthält und kein standardisierter Wert; Filterung wird hier langsam sein und könnte von einer Volltextsuche profitieren. Status (8 Werte) und Priority (3 Werte) sind hingegen gut für effizientes Filtern geeignet. Diese Analyse unterstützt bei der Optimierung von Filtern und leitet Benutzer zu leistungsstarken Attributen.

Beispiel 3: Schema-Dokumentation für Integration

Szenario: Sie müssen technisches Dokumentationsmaterial für einen Drittanbieter bereitstellen, der in Ihre Process-Mining-Umgebung integrieren wird. Er benötigt detaillierte Informationen zu verfügbaren Attributen, Datentypen und erwarteten Wertebereichen.

Einstellungen:

  • Titel: "Schema-Dokumentation Purchase-to-Pay"
  • Beschreibung: "Technische Spezifikation für API-Integration"

Ausgabe:

Attributname Attributtyp Datentyp Gesamtwerte Einzigartige Werte Nullanzahl Beispielwerte
PO_Number Case String 8.945 8.945 0 PO-2025-00001, PO-2025-00002
Vendor_ID Case String 8.945 234 0 V12345, V67890, V45678
Total_Amount Case Decimal 8.945 7.823 0 15750,50, 2340,00, 987,25
Currency Case String 8.945 3 12 USD, EUR, GBP
RequestDate Case DateTime 8.945 2.456 0 2025-01-15, 2025-01-16
Activity Event String 71.560 12 0 PO erstellen, PO genehmigen, Senden...
Resource Event String 71.560 145 234 john.smith, sarah.jones...
Cost_Center Event String 71.560 67 1.234 CC-1001, CC-2045, CC-3012

Erkenntnisse: Die Schema-Dokumentation zeigt, dass PO_Number der primäre Fallbezeichner mit garantierter Einzigartigkeit und ohne Nullwerte ist. Alle Geldbeträge werden im Feld Total_Amount (Dezimaltyp) erfasst, während die Währung separat angegeben wird. Der Prozess unterstützt drei Währungen (USD, EUR, GBP), wobei 12 Fälle fehlende Währungsdaten aufweisen, die korrigiert werden müssen. Ressourceninformationen sind für 145 einzigartige Benutzer verfügbar, weisen jedoch auf Ereignisebene 234 Nullwerte auf, was auf einige automatisierte Aktivitäten hindeutet. Das Attribut Cost_Center hat 1,7 % Nullwerte, was auf unvollständige Dateneingaben bei einigen Aktivitäten schließen lässt. Dieser umfassende Überblick ermöglicht eine präzise Integrationsplanung.

Beispiel 4: Erkennung von Datentypen-Inkonsistenzen

Szenario: Nach dem Zusammenführen von Daten aus mehreren Quellsystemen vermuten Sie Datentyp-Inkonsistenzen, die Berechnungsfehler oder unerwartetes Verhalten in Analysen verursachen könnten.

Einstellungen:

  • Titel: "Prüfung der Datentypenkonsistenz"
  • Beschreibung: "Multiquellen-Datenvalidierung"

Ausgabe:

Attributname Erkannter Typ Gesamtwerte Typkonflikte Beispiel inkonsistenter Werte
OrderDate DateTime 5.678 0 -
OrderValue Mixed 5.678 23 "1250.50", "$1,250.50", "1250,50"
QuantityOrdered Integer 5.678 8 "100", "100.0", "100 Stück"
CustomerID String 5.678 0 -
IsRush Mixed 5.678 145 "Ja", "J", "1", "true", "TRUE"

Erkenntnisse: Die Analyse enthüllt kritische Datentyp-Inkonsistenzen. Das Attribut OrderValue enthält gemischte Formate – einige Werte beinhalten Währungssymbole und unterschiedliche Dezimaltrennzeichen (Komma vs. Punkt), was vor Berechnungen eine Datenbereinigung erfordert. QuantityOrdered zeigt acht Fälle mit angehängtem Text ("100 Stück"), was Fehler bei numerischen Aggregationen verursacht. Die IsRush-Kennzeichnung verwendet fünf verschiedene Darstellungen von Booleschen Werten, die auf "true/false" oder "1/0" standardisiert werden müssen, um zuverlässige Filterungen zu ermöglichen. Diese Probleme müssen im ETL-Prozess gelöst werden, bevor die Daten zuverlässig genutzt werden können.

Beispiel 5: Identifikation von Anreicherungsmöglichkeiten

Szenario: Sie möchten Attribute mit niedriger Kardinalität identifizieren, die von einer Anreicherung mit zusätzlichen Beschreibungsinformationen profitieren würden, um Analysen benutzerfreundlicher zu machen.

Einstellungen:

  • Titel: "Analyse von Anreicherungsmöglichkeiten"
  • Beschreibung: "Identifizierung von Kandidaten für Lookup-Erweiterungen"

Ausgabe:

Attributname Typ Einzigartige Werte Null % Beispielwerte Anreicherungs-Potenzial
ProductCode Event 45 0% P001, P002, P003 HOCH – Produktnamen hinzufügen
StatusCode Case 8 0% ST-01, ST-02, ST-03 HOCH – Statusbeschreibungen hinzufügen
RegionCode Case 4 0% R1, R2, R3, R4 HOCH – Regionsnamen hinzufügen
CurrencyCode Case 3 0% USD, EUR, GBP MITTEL – Allgemein bekannt
EmployeeID Event 234 2,1 % E12345, E67890 HOCH – Mitarbeiternamen hinzufügen

Erkenntnisse: Mehrere Attribute enthalten Codes, die von einer Anreicherung profitieren würden. Mit nur 45 einzigartigen Produktcodes würde das Hinzufügen von Produktnamen die Benutzerfreundlichkeit deutlich erhöhen. Die 8 Status-Codes sollten mit verständlichen Beschreibungen ergänzt werden, damit Anwender keine Code-Tabellen konsultieren müssen. Mitarbeiter-IDs sollten mit Namen angereichert werden, wobei Datenschutzvorgaben zu beachten sind. Diese Erweiterungen verbessern das Benutzererlebnis erheblich, ohne die Datenmenge wesentlich zu erhöhen.

Beispiel 6: Überwachung von Datenvollständigkeitstrends

Szenario: Sie führen regelmäßige Datenextraktionen durch und möchten überwachen, ob sich die Datenvollständigkeit im Zeitverlauf verbessert oder verschlechtert, indem Sie aktuelle Extraktionsstatistiken mit vorherigen Vergleichswerten gegenüberstellen.

Einstellungen:

  • Titel: "Überwachung der Datenvollständigkeit – Februar 2025"
  • Beschreibung: "Vergleich mit Januar-Basiswerten"

Ausgabe:

Attributname Typ Jan Null % Feb Null % Veränderung Trend
ApproverName Event 5,2 % 3,1 % -2,1 % VERBESSERT
Department Case 8,4 % 8,9 % +0,5 % VERSCHLECHTERT
CostCenter Event 12,3 % 18,7 % +6,4 % VERSCHLECHTERT
Priority Case 1,2 % 1,1 % -0,1 % STABIL
DueDate Case 15,6 % 9,2 % -6,4 % VERBESSERT

Erkenntnisse: Der Vergleich zeigt gemischte Trends in der Datenqualität. Die Nullanteile bei ApproverName sanken von 5,2 % auf 3,1 %, was auf eine verbesserte Datenerfassung im Genehmigungsprozess hindeutet – möglicherweise durch kürzlich eingeführte obligatorische Genehmigerauswahl. Die Nullwerte bei CostCenter stiegen dagegen deutlich von 12,3 % auf 18,7 %, was auf eine Verschlechterung bei der Kostenstellenzuweisung hinweist und sofortige Maßnahmen erfordert. Die dramatische Verbesserung bei DueDate (von 15,6 % auf 9,2 %) spiegelt die erfolgreiche Umsetzung einer verpflichtenden Fälligkeitsdateneingabe wider. Diese Trends unterstützen fortlaufende Maßnahmen zur Datenqualitätsverbesserung.

Ausgabe

Der Column Info Rechner zeigt eine umfassende Tabelle mit detaillierten Statistiken zu jedem Attribut in Ihrem Ereignisprotokoll an. Die Tabelle umfasst sowohl Attribute auf Fall- als auch auf Ereignisebene mit folgenden Informationen:

Attributname: Der Name des Attributs, wie er im Datensatz erscheint.

Attributtyp: Gibt an, ob es sich um ein Fallattribut (ein Wert pro Fall) oder ein Ereignisattribut (ein Wert pro Ereignis/Aktivität) handelt.

Datentyp: Der erkannte Datentyp des Attributs (String, Integer, Decimal, DateTime, Boolean usw.).

Gesamtwerte: Die Gesamtanzahl der für dieses Attribut vorhandenen Werte (gesamt Fälle bei Fallattributen, alle Ereignisse bei Ereignisattributen).

Nullanzahl: Die Anzahl der Null- oder fehlenden Werte für dieses Attribut.

Null-Prozent: Der prozentuale Anteil der Nullwerte, berechnet als (Nullanzahl / Gesamtwerte) * 100.

Einzigartige Werte: Die Anzahl der verschiedenen, eindeutigen Werte in diesem Attribut.

Kardinalitätsverhältnis: Das Verhältnis eindeutiger Werte zu Gesamtwerten in Prozent. Hohe Kardinalität (nahe 100 %) bedeutet überwiegend einzigartige Werte; niedrige Kardinalität deutet auf viele Wiederholungen hin.

Beispielwerte: Eine repräsentative Stichprobe tatsächlicher Werte aus dem Attribut, typischerweise 3–5 unterschiedliche Werte, um Datenformat und Inhalt zu veranschaulichen.

Min-Wert: Für numerische und Datumsattribute der kleinste/früheste Wert.

Max-Wert: Für numerische und Datumsattribute der größte/späteste Wert.

Interaktive Funktionen

Sortieren und Filtern: Klicken Sie auf Spaltenüberschriften, um nach jeder Metrik zu sortieren. Nutzen Sie die Suchfunktion, um gezielt Attribute zu filtern.

Ergebnisse exportieren: Exportieren Sie die vollständige Attributanalyse nach Excel oder CSV für Dokumentation, Vergleich oder Teilen mit technischen Teams.

Detaillierte Analyse: Klicken Sie auf einen Attributnamen, um zusätzliche detaillierte Statistiken, einschließlich Wertverteilungen und umfangreicherer Beispielwerte, anzuzeigen.

Performance-Aspekte

  • Große Datensätze: Bei Datensätzen mit Millionen von Ereignissen oder hunderten Attributen kann die Analyse mehrere Minuten dauern.
  • Ressourcenverbrauch: Der Rechner führt umfassende Scans aller Attributwerte durch, was speicher- und CPU-intensiv ist.
  • Best Practices: Führen Sie den Rechner bei sehr großen Datensätzen außerhalb der Spitzenzeiten aus oder verwenden Sie Filter, um die Datensatzgröße vor der Ausführung zu reduzieren.

Administratorzugang

Dieser Rechner ist nur für Benutzer mit Administratorrolle zugänglich. Normale Benutzer, die Übersichtsinformationen zum Datensatz benötigen, sollten stattdessen den Rechner Dataset Information verwenden, der wichtige Kennzahlen ohne den Performance-Overhead einer umfassenden Spaltenanalyse bietet.


Diese Dokumentation ist Teil der mindzie Studio Process-Mining-Plattform.