Spalteninformationen
Übersicht
Der Column Info Rechner liefert detaillierte Metadaten und Statistiken zu allen Attributen (Spalten) in Ihrem Ereignisprotokolldatensatz. Dieses Administrationswerkzeug zeigt umfassende Informationen zu jedem Attribut, einschließlich Datentypen, Wertverteilungen, Anzahl der Nullwerte und Beispielwerte.
WICHTIG: Dies ist ein ausschließlich für Administratoren bestimmter Rechner, der für technische Analysen und Forschungszwecke konzipiert wurde. Er ist nicht für den Produktionseinsatz optimiert und kann bei großen Datensätzen erhebliche Bearbeitungszeiten benötigen. Normale Benutzer sollten den Rechner Dataset Information für allgemeine Übersichtsdaten verwenden.
Dieser Rechner wird hauptsächlich von Systemadministratoren, Datenanalysten und technischen Nutzern verwendet, die tiefgehende Einblicke in die Datenstruktur und Datenqualität für Fehlerbehebung, Datenvalidierung oder Datensatzoptimierung benötigen.
Häufige Einsatzgebiete
- Durchführung umfassender Datenqualitätsprüfungen über alle Attribute im Ereignisprotokoll
- Identifikation von Attributen mit hohem Anteil an Null- oder fehlenden Werten
- Analyse der Konsistenz von Datentypen und Erkennung potenzieller Typkonvertierungsprobleme
- Überprüfung der Attribut-Kardinalität (Anzahl eindeutiger Werte) zur Identifikation von Kandidaten für kategoriale Analysen
- Validierung von Datenauszügen durch Untersuchung von Attributstatistiken
- Diagnose von Performance-Problemen durch Erkennung von Attributen mit unerwarteten Wertverteilungen
- Dokumentation des Datensatzschemas und der Eigenschaften für technische Spezifikationen
Einstellungen
Für diesen Rechner sind keine spezifischen Konfigurationseinstellungen erforderlich. Bei Ausführung werden automatisch alle Attribute im aktuellen Datensatz (sowohl auf Fall- als auch auf Ereignisebene) gescannt und umfassende Statistiken für jedes Attribut erzeugt.
Hinweis: Die Verarbeitungszeit hängt von der Datensatzgröße und der Anzahl der Attribute ab. Bei sehr großen Datensätzen kann die Ausführung mehrere Minuten dauern.
Beispiele
Beispiel 1: Datenqualitätsprüfung nach ETL
Szenario: Sie haben gerade einen ETL-Prozess abgeschlossen, um Order-to-Cash-Daten aus Ihrem ERP-System zu extrahieren. Bevor der Datensatz den Fachanwendern zur Verfügung gestellt wird, müssen Sie überprüfen, ob alle Attribute korrekt extrahiert wurden und die Datenvollständigkeit bewerten.
Einstellungen:
- Titel: "Datenqualitätsvalidierung nach ETL"
- Beschreibung: "O2C-Datensatz – Januar 2025 Extraktion"
Ausgabe:
Der Rechner zeigt eine umfassende Tabelle mit folgenden Informationen für jedes Attribut:
| Attributname | Typ | Gesamtwerte | Nullanzahl | Null % | Einzigartige Werte | Beispielwerte |
|---|---|---|---|---|---|---|
| CaseID | Case | 2.456 | 0 | 0% | 2.456 | ORD-001, ORD-002, ORD-003 |
| CustomerName | Case | 2.456 | 12 | 0,5% | 847 | Acme Corp, TechStart Inc, Global... |
| OrderAmount | Case | 2.456 | 0 | 0% | 1.823 | 1250,00, 3400,50, 875,25 |
| Region | Case | 2.456 | 156 | 6,4% | 4 | Nord, Süd, Ost, West |
| ActivityName | Event | 18.945 | 0 | 0% | 15 | Auftrag erstellen, Auftrag genehmigen, ... |
| Timestamp | Event | 18.945 | 0 | 0% | 18.893 | 2025-01-15 08:23:00, 2025-01-15... |
| ApprovalLevel | Event | 18.945 | 8.234 | 43,5% | 3 | L1, L2, L3 |
| Department | Event | 18.945 | 3.456 | 18,2% | 8 | Vertrieb, Finanzen, Betrieb... |
Erkenntnisse: Die Prüfung offenbart mehrere Datenqualitätsprobleme. Das Attribut Region weist 6,4 % Nullwerte auf, was 156 Fälle betrifft – diese Fälle benötigen eine manuelle Überprüfung oder Datenkorrektur. Kritischer ist das Attribut ApprovalLevel mit 43,5 % Nullwerten, was darauf hindeuten kann, dass nicht alle Aktivitäten eine Genehmigung erfordern (erwartet) oder dass Genehmigungsdaten für Aktivitäten fehlen, die sie haben sollten (benötigt Untersuchung). Die geringe Anzahl an Nullwerten bei CustomerName (0,5 %) ist akzeptabel und könnte Testbestellungen darstellen. Alle kritischen Kennungen (CaseID, Timestamp) sind ohne Nullwerte, was die Datenintegrität bestätigt.
Beispiel 2: Performance-Fehleranalyse
Szenario: Nutzer berichten von langsamer Performance beim Filtern bestimmter Attribute. Sie müssen herausfinden, welche Attribute eine hohe Kardinalität (viele eindeutige Werte) aufweisen, die ineffizientes Filtern verursachen könnten.
Einstellungen:
- Titel: "Analyse der Attribut-Kardinalität"
- Beschreibung: "Untersuchung von Filterperformance-Problemen"
Ausgabe:
| Attributname | Typ | Gesamtwerte | Einzigartige Werte | Kardinalitätsverhältnis | Datentyp |
|---|---|---|---|---|---|
| CaseID | Case | 45.678 | 45.678 | 100 % | String |
| TransactionID | Event | 367.824 | 367.824 | 100 % | String |
| UserComments | Event | 367.824 | 89.234 | 24,3 % | String |
| ProductSKU | Event | 367.824 | 12.456 | 3,4 % | String |
| Status | Case | 45.678 | 8 | 0,02 % | String |
| Priority | Case | 45.678 | 3 | 0,007 % | String |
Erkenntnisse: Die Analyse zeigt eine große Spannweite in der Kardinalität der Attribute. CaseID und TransactionID haben 100 % Kardinalität (jeder Wert ist einzigartig), wodurch sie ideal für die Fallidentifikation, aber schlecht für kategoriale Filter sind. UserComments weist mit 24,3 % unerwartet hohe Kardinalität auf, was darauf hindeutet, dass das Feld Freitext enthält und kein standardisierter Wert; Filterung wird hier langsam sein und könnte von einer Volltextsuche profitieren. Status (8 Werte) und Priority (3 Werte) sind hingegen gut für effizientes Filtern geeignet. Diese Analyse unterstützt bei der Optimierung von Filtern und leitet Benutzer zu leistungsstarken Attributen.
Beispiel 3: Schema-Dokumentation für Integration
Szenario: Sie müssen technisches Dokumentationsmaterial für einen Drittanbieter bereitstellen, der in Ihre Process-Mining-Umgebung integrieren wird. Er benötigt detaillierte Informationen zu verfügbaren Attributen, Datentypen und erwarteten Wertebereichen.
Einstellungen:
- Titel: "Schema-Dokumentation Purchase-to-Pay"
- Beschreibung: "Technische Spezifikation für API-Integration"
Ausgabe:
| Attributname | Attributtyp | Datentyp | Gesamtwerte | Einzigartige Werte | Nullanzahl | Beispielwerte |
|---|---|---|---|---|---|---|
| PO_Number | Case | String | 8.945 | 8.945 | 0 | PO-2025-00001, PO-2025-00002 |
| Vendor_ID | Case | String | 8.945 | 234 | 0 | V12345, V67890, V45678 |
| Total_Amount | Case | Decimal | 8.945 | 7.823 | 0 | 15750,50, 2340,00, 987,25 |
| Currency | Case | String | 8.945 | 3 | 12 | USD, EUR, GBP |
| RequestDate | Case | DateTime | 8.945 | 2.456 | 0 | 2025-01-15, 2025-01-16 |
| Activity | Event | String | 71.560 | 12 | 0 | PO erstellen, PO genehmigen, Senden... |
| Resource | Event | String | 71.560 | 145 | 234 | john.smith, sarah.jones... |
| Cost_Center | Event | String | 71.560 | 67 | 1.234 | CC-1001, CC-2045, CC-3012 |
Erkenntnisse: Die Schema-Dokumentation zeigt, dass PO_Number der primäre Fallbezeichner mit garantierter Einzigartigkeit und ohne Nullwerte ist. Alle Geldbeträge werden im Feld Total_Amount (Dezimaltyp) erfasst, während die Währung separat angegeben wird. Der Prozess unterstützt drei Währungen (USD, EUR, GBP), wobei 12 Fälle fehlende Währungsdaten aufweisen, die korrigiert werden müssen. Ressourceninformationen sind für 145 einzigartige Benutzer verfügbar, weisen jedoch auf Ereignisebene 234 Nullwerte auf, was auf einige automatisierte Aktivitäten hindeutet. Das Attribut Cost_Center hat 1,7 % Nullwerte, was auf unvollständige Dateneingaben bei einigen Aktivitäten schließen lässt. Dieser umfassende Überblick ermöglicht eine präzise Integrationsplanung.
Beispiel 4: Erkennung von Datentypen-Inkonsistenzen
Szenario: Nach dem Zusammenführen von Daten aus mehreren Quellsystemen vermuten Sie Datentyp-Inkonsistenzen, die Berechnungsfehler oder unerwartetes Verhalten in Analysen verursachen könnten.
Einstellungen:
- Titel: "Prüfung der Datentypenkonsistenz"
- Beschreibung: "Multiquellen-Datenvalidierung"
Ausgabe:
| Attributname | Erkannter Typ | Gesamtwerte | Typkonflikte | Beispiel inkonsistenter Werte |
|---|---|---|---|---|
| OrderDate | DateTime | 5.678 | 0 | - |
| OrderValue | Mixed | 5.678 | 23 | "1250.50", "$1,250.50", "1250,50" |
| QuantityOrdered | Integer | 5.678 | 8 | "100", "100.0", "100 Stück" |
| CustomerID | String | 5.678 | 0 | - |
| IsRush | Mixed | 5.678 | 145 | "Ja", "J", "1", "true", "TRUE" |
Erkenntnisse: Die Analyse enthüllt kritische Datentyp-Inkonsistenzen. Das Attribut OrderValue enthält gemischte Formate – einige Werte beinhalten Währungssymbole und unterschiedliche Dezimaltrennzeichen (Komma vs. Punkt), was vor Berechnungen eine Datenbereinigung erfordert. QuantityOrdered zeigt acht Fälle mit angehängtem Text ("100 Stück"), was Fehler bei numerischen Aggregationen verursacht. Die IsRush-Kennzeichnung verwendet fünf verschiedene Darstellungen von Booleschen Werten, die auf "true/false" oder "1/0" standardisiert werden müssen, um zuverlässige Filterungen zu ermöglichen. Diese Probleme müssen im ETL-Prozess gelöst werden, bevor die Daten zuverlässig genutzt werden können.
Beispiel 5: Identifikation von Anreicherungsmöglichkeiten
Szenario: Sie möchten Attribute mit niedriger Kardinalität identifizieren, die von einer Anreicherung mit zusätzlichen Beschreibungsinformationen profitieren würden, um Analysen benutzerfreundlicher zu machen.
Einstellungen:
- Titel: "Analyse von Anreicherungsmöglichkeiten"
- Beschreibung: "Identifizierung von Kandidaten für Lookup-Erweiterungen"
Ausgabe:
| Attributname | Typ | Einzigartige Werte | Null % | Beispielwerte | Anreicherungs-Potenzial |
|---|---|---|---|---|---|
| ProductCode | Event | 45 | 0% | P001, P002, P003 | HOCH – Produktnamen hinzufügen |
| StatusCode | Case | 8 | 0% | ST-01, ST-02, ST-03 | HOCH – Statusbeschreibungen hinzufügen |
| RegionCode | Case | 4 | 0% | R1, R2, R3, R4 | HOCH – Regionsnamen hinzufügen |
| CurrencyCode | Case | 3 | 0% | USD, EUR, GBP | MITTEL – Allgemein bekannt |
| EmployeeID | Event | 234 | 2,1 % | E12345, E67890 | HOCH – Mitarbeiternamen hinzufügen |
Erkenntnisse: Mehrere Attribute enthalten Codes, die von einer Anreicherung profitieren würden. Mit nur 45 einzigartigen Produktcodes würde das Hinzufügen von Produktnamen die Benutzerfreundlichkeit deutlich erhöhen. Die 8 Status-Codes sollten mit verständlichen Beschreibungen ergänzt werden, damit Anwender keine Code-Tabellen konsultieren müssen. Mitarbeiter-IDs sollten mit Namen angereichert werden, wobei Datenschutzvorgaben zu beachten sind. Diese Erweiterungen verbessern das Benutzererlebnis erheblich, ohne die Datenmenge wesentlich zu erhöhen.
Beispiel 6: Überwachung von Datenvollständigkeitstrends
Szenario: Sie führen regelmäßige Datenextraktionen durch und möchten überwachen, ob sich die Datenvollständigkeit im Zeitverlauf verbessert oder verschlechtert, indem Sie aktuelle Extraktionsstatistiken mit vorherigen Vergleichswerten gegenüberstellen.
Einstellungen:
- Titel: "Überwachung der Datenvollständigkeit – Februar 2025"
- Beschreibung: "Vergleich mit Januar-Basiswerten"
Ausgabe:
| Attributname | Typ | Jan Null % | Feb Null % | Veränderung | Trend |
|---|---|---|---|---|---|
| ApproverName | Event | 5,2 % | 3,1 % | -2,1 % | VERBESSERT |
| Department | Case | 8,4 % | 8,9 % | +0,5 % | VERSCHLECHTERT |
| CostCenter | Event | 12,3 % | 18,7 % | +6,4 % | VERSCHLECHTERT |
| Priority | Case | 1,2 % | 1,1 % | -0,1 % | STABIL |
| DueDate | Case | 15,6 % | 9,2 % | -6,4 % | VERBESSERT |
Erkenntnisse: Der Vergleich zeigt gemischte Trends in der Datenqualität. Die Nullanteile bei ApproverName sanken von 5,2 % auf 3,1 %, was auf eine verbesserte Datenerfassung im Genehmigungsprozess hindeutet – möglicherweise durch kürzlich eingeführte obligatorische Genehmigerauswahl. Die Nullwerte bei CostCenter stiegen dagegen deutlich von 12,3 % auf 18,7 %, was auf eine Verschlechterung bei der Kostenstellenzuweisung hinweist und sofortige Maßnahmen erfordert. Die dramatische Verbesserung bei DueDate (von 15,6 % auf 9,2 %) spiegelt die erfolgreiche Umsetzung einer verpflichtenden Fälligkeitsdateneingabe wider. Diese Trends unterstützen fortlaufende Maßnahmen zur Datenqualitätsverbesserung.
Ausgabe
Der Column Info Rechner zeigt eine umfassende Tabelle mit detaillierten Statistiken zu jedem Attribut in Ihrem Ereignisprotokoll an. Die Tabelle umfasst sowohl Attribute auf Fall- als auch auf Ereignisebene mit folgenden Informationen:
Attributname: Der Name des Attributs, wie er im Datensatz erscheint.
Attributtyp: Gibt an, ob es sich um ein Fallattribut (ein Wert pro Fall) oder ein Ereignisattribut (ein Wert pro Ereignis/Aktivität) handelt.
Datentyp: Der erkannte Datentyp des Attributs (String, Integer, Decimal, DateTime, Boolean usw.).
Gesamtwerte: Die Gesamtanzahl der für dieses Attribut vorhandenen Werte (gesamt Fälle bei Fallattributen, alle Ereignisse bei Ereignisattributen).
Nullanzahl: Die Anzahl der Null- oder fehlenden Werte für dieses Attribut.
Null-Prozent: Der prozentuale Anteil der Nullwerte, berechnet als (Nullanzahl / Gesamtwerte) * 100.
Einzigartige Werte: Die Anzahl der verschiedenen, eindeutigen Werte in diesem Attribut.
Kardinalitätsverhältnis: Das Verhältnis eindeutiger Werte zu Gesamtwerten in Prozent. Hohe Kardinalität (nahe 100 %) bedeutet überwiegend einzigartige Werte; niedrige Kardinalität deutet auf viele Wiederholungen hin.
Beispielwerte: Eine repräsentative Stichprobe tatsächlicher Werte aus dem Attribut, typischerweise 3–5 unterschiedliche Werte, um Datenformat und Inhalt zu veranschaulichen.
Min-Wert: Für numerische und Datumsattribute der kleinste/früheste Wert.
Max-Wert: Für numerische und Datumsattribute der größte/späteste Wert.
Interaktive Funktionen
Sortieren und Filtern: Klicken Sie auf Spaltenüberschriften, um nach jeder Metrik zu sortieren. Nutzen Sie die Suchfunktion, um gezielt Attribute zu filtern.
Ergebnisse exportieren: Exportieren Sie die vollständige Attributanalyse nach Excel oder CSV für Dokumentation, Vergleich oder Teilen mit technischen Teams.
Detaillierte Analyse: Klicken Sie auf einen Attributnamen, um zusätzliche detaillierte Statistiken, einschließlich Wertverteilungen und umfangreicherer Beispielwerte, anzuzeigen.
Performance-Aspekte
- Große Datensätze: Bei Datensätzen mit Millionen von Ereignissen oder hunderten Attributen kann die Analyse mehrere Minuten dauern.
- Ressourcenverbrauch: Der Rechner führt umfassende Scans aller Attributwerte durch, was speicher- und CPU-intensiv ist.
- Best Practices: Führen Sie den Rechner bei sehr großen Datensätzen außerhalb der Spitzenzeiten aus oder verwenden Sie Filter, um die Datensatzgröße vor der Ausführung zu reduzieren.
Administratorzugang
Dieser Rechner ist nur für Benutzer mit Administratorrolle zugänglich. Normale Benutzer, die Übersichtsinformationen zum Datensatz benötigen, sollten stattdessen den Rechner Dataset Information verwenden, der wichtige Kennzahlen ohne den Performance-Overhead einer umfassenden Spaltenanalyse bietet.
Diese Dokumentation ist Teil der mindzie Studio Process-Mining-Plattform.