Spalteninformationen

Übersicht

Der Column Info Rechner liefert detaillierte Metadaten und Statistiken zu allen Attributen (Spalten) in Ihrem Ereignisprotokolldatensatz. Dieses Administrationswerkzeug zeigt umfassende Informationen zu jedem Attribut, einschließlich Datentypen, Wertverteilungen, Anzahl der Nullwerte und Beispielwerte.

WICHTIG: Dies ist ein ausschließlich für Administratoren bestimmter Rechner, der für technische Analysen und Forschungszwecke konzipiert wurde. Er ist nicht für den Produktionseinsatz optimiert und kann bei großen Datensätzen erhebliche Bearbeitungszeiten benötigen. Normale Benutzer sollten den Rechner Dataset Information für allgemeine Übersichtsdaten verwenden.

Dieser Rechner wird hauptsächlich von Systemadministratoren, Datenanalysten und technischen Nutzern verwendet, die tiefgehende Einblicke in die Datenstruktur und Datenqualität für Fehlerbehebung, Datenvalidierung oder Datensatzoptimierung benötigen.

Häufige Einsatzgebiete

Durchführung umfassender Datenqualitätsprüfungen über alle Attribute im Ereignisprotokoll
Identifikation von Attributen mit hohem Anteil an Null- oder fehlenden Werten
Analyse der Konsistenz von Datentypen und Erkennung potenzieller Typkonvertierungsprobleme
Überprüfung der Attribut-Kardinalität (Anzahl eindeutiger Werte) zur Identifikation von Kandidaten für kategoriale Analysen
Validierung von Datenauszügen durch Untersuchung von Attributstatistiken
Diagnose von Performance-Problemen durch Erkennung von Attributen mit unerwarteten Wertverteilungen
Dokumentation des Datensatzschemas und der Eigenschaften für technische Spezifikationen

Einstellungen

Für diesen Rechner sind keine spezifischen Konfigurationseinstellungen erforderlich. Bei Ausführung werden automatisch alle Attribute im aktuellen Datensatz (sowohl auf Fall- als auch auf Ereignisebene) gescannt und umfassende Statistiken für jedes Attribut erzeugt.

Hinweis: Die Verarbeitungszeit hängt von der Datensatzgröße und der Anzahl der Attribute ab. Bei sehr großen Datensätzen kann die Ausführung mehrere Minuten dauern.

Beispiele

Beispiel 1: Datenqualitätsprüfung nach ETL

Szenario: Sie haben gerade einen ETL-Prozess abgeschlossen, um Order-to-Cash-Daten aus Ihrem ERP-System zu extrahieren. Bevor der Datensatz den Fachanwendern zur Verfügung gestellt wird, müssen Sie überprüfen, ob alle Attribute korrekt extrahiert wurden und die Datenvollständigkeit bewerten.

Einstellungen:

Titel: "Datenqualitätsvalidierung nach ETL"
Beschreibung: "O2C-Datensatz – Januar 2025 Extraktion"

Ausgabe:

Der Rechner zeigt eine umfassende Tabelle mit folgenden Informationen für jedes Attribut:

Attributname	Typ	Gesamtwerte	Nullanzahl	Null %	Einzigartige Werte	Beispielwerte
CaseID	Case	2.456	0	0%	2.456	ORD-001, ORD-002, ORD-003
CustomerName	Case	2.456	12	0,5%	847	Acme Corp, TechStart Inc, Global...
OrderAmount	Case	2.456	0	0%	1.823	1250,00, 3400,50, 875,25
Region	Case	2.456	156	6,4%	4	Nord, Süd, Ost, West
ActivityName	Event	18.945	0	0%	15	Auftrag erstellen, Auftrag genehmigen, ...
Timestamp	Event	18.945	0	0%	18.893	2025-01-15 08:23:00, 2025-01-15...
ApprovalLevel	Event	18.945	8.234	43,5%	3	L1, L2, L3
Department	Event	18.945	3.456	18,2%	8	Vertrieb, Finanzen, Betrieb...

Erkenntnisse: Die Prüfung offenbart mehrere Datenqualitätsprobleme. Das Attribut Region weist 6,4 % Nullwerte auf, was 156 Fälle betrifft – diese Fälle benötigen eine manuelle Überprüfung oder Datenkorrektur. Kritischer ist das Attribut ApprovalLevel mit 43,5 % Nullwerten, was darauf hindeuten kann, dass nicht alle Aktivitäten eine Genehmigung erfordern (erwartet) oder dass Genehmigungsdaten für Aktivitäten fehlen, die sie haben sollten (benötigt Untersuchung). Die geringe Anzahl an Nullwerten bei CustomerName (0,5 %) ist akzeptabel und könnte Testbestellungen darstellen. Alle kritischen Kennungen (CaseID, Timestamp) sind ohne Nullwerte, was die Datenintegrität bestätigt.

Beispiel 2: Performance-Fehleranalyse

Szenario: Nutzer berichten von langsamer Performance beim Filtern bestimmter Attribute. Sie müssen herausfinden, welche Attribute eine hohe Kardinalität (viele eindeutige Werte) aufweisen, die ineffizientes Filtern verursachen könnten.

Einstellungen:

Titel: "Analyse der Attribut-Kardinalität"
Beschreibung: "Untersuchung von Filterperformance-Problemen"

Ausgabe:

Attributname	Typ	Gesamtwerte	Einzigartige Werte	Kardinalitätsverhältnis	Datentyp
CaseID	Case	45.678	45.678	100 %	String
TransactionID	Event	367.824	367.824	100 %	String
UserComments	Event	367.824	89.234	24,3 %	String
ProductSKU	Event	367.824	12.456	3,4 %	String
Status	Case	45.678	8	0,02 %	String
Priority	Case	45.678	3	0,007 %	String

Erkenntnisse: Die Analyse zeigt eine große Spannweite in der Kardinalität der Attribute. CaseID und TransactionID haben 100 % Kardinalität (jeder Wert ist einzigartig), wodurch sie ideal für die Fallidentifikation, aber schlecht für kategoriale Filter sind. UserComments weist mit 24,3 % unerwartet hohe Kardinalität auf, was darauf hindeutet, dass das Feld Freitext enthält und kein standardisierter Wert; Filterung wird hier langsam sein und könnte von einer Volltextsuche profitieren. Status (8 Werte) und Priority (3 Werte) sind hingegen gut für effizientes Filtern geeignet. Diese Analyse unterstützt bei der Optimierung von Filtern und leitet Benutzer zu leistungsstarken Attributen.

Beispiel 3: Schema-Dokumentation für Integration

Szenario: Sie müssen technisches Dokumentationsmaterial für einen Drittanbieter bereitstellen, der in Ihre Process-Mining-Umgebung integrieren wird. Er benötigt detaillierte Informationen zu verfügbaren Attributen, Datentypen und erwarteten Wertebereichen.

Einstellungen:

Titel: "Schema-Dokumentation Purchase-to-Pay"
Beschreibung: "Technische Spezifikation für API-Integration"

Ausgabe:

Attributname	Attributtyp	Datentyp	Gesamtwerte	Einzigartige Werte	Nullanzahl	Beispielwerte
PO_Number	Case	String	8.945	8.945	0	PO-2025-00001, PO-2025-00002
Vendor_ID	Case	String	8.945	234	0	V12345, V67890, V45678
Total_Amount	Case	Decimal	8.945	7.823	0	15750,50, 2340,00, 987,25
Currency	Case	String	8.945	3	12	USD, EUR, GBP
RequestDate	Case	DateTime	8.945	2.456	0	2025-01-15, 2025-01-16
Activity	Event	String	71.560	12	0	PO erstellen, PO genehmigen, Senden...
Resource	Event	String	71.560	145	234	john.smith, sarah.jones...
Cost_Center	Event	String	71.560	67	1.234	CC-1001, CC-2045, CC-3012

Erkenntnisse: Die Schema-Dokumentation zeigt, dass PO_Number der primäre Fallbezeichner mit garantierter Einzigartigkeit und ohne Nullwerte ist. Alle Geldbeträge werden im Feld Total_Amount (Dezimaltyp) erfasst, während die Währung separat angegeben wird. Der Prozess unterstützt drei Währungen (USD, EUR, GBP), wobei 12 Fälle fehlende Währungsdaten aufweisen, die korrigiert werden müssen. Ressourceninformationen sind für 145 einzigartige Benutzer verfügbar, weisen jedoch auf Ereignisebene 234 Nullwerte auf, was auf einige automatisierte Aktivitäten hindeutet. Das Attribut Cost_Center hat 1,7 % Nullwerte, was auf unvollständige Dateneingaben bei einigen Aktivitäten schließen lässt. Dieser umfassende Überblick ermöglicht eine präzise Integrationsplanung.

Beispiel 4: Erkennung von Datentypen-Inkonsistenzen

Szenario: Nach dem Zusammenführen von Daten aus mehreren Quellsystemen vermuten Sie Datentyp-Inkonsistenzen, die Berechnungsfehler oder unerwartetes Verhalten in Analysen verursachen könnten.

Einstellungen:

Titel: "Prüfung der Datentypenkonsistenz"
Beschreibung: "Multiquellen-Datenvalidierung"

Ausgabe:

Attributname	Erkannter Typ	Gesamtwerte	Typkonflikte	Beispiel inkonsistenter Werte
OrderDate	DateTime	5.678	0	-
OrderValue	Mixed	5.678	23	"1250.50", "$1,250.50", "1250,50"
QuantityOrdered	Integer	5.678	8	"100", "100.0", "100 Stück"
CustomerID	String	5.678	0	-
IsRush	Mixed	5.678	145	"Ja", "J", "1", "true", "TRUE"

Erkenntnisse: Die Analyse enthüllt kritische Datentyp-Inkonsistenzen. Das Attribut OrderValue enthält gemischte Formate – einige Werte beinhalten Währungssymbole und unterschiedliche Dezimaltrennzeichen (Komma vs. Punkt), was vor Berechnungen eine Datenbereinigung erfordert. QuantityOrdered zeigt acht Fälle mit angehängtem Text ("100 Stück"), was Fehler bei numerischen Aggregationen verursacht. Die IsRush-Kennzeichnung verwendet fünf verschiedene Darstellungen von Booleschen Werten, die auf "true/false" oder "1/0" standardisiert werden müssen, um zuverlässige Filterungen zu ermöglichen. Diese Probleme müssen im ETL-Prozess gelöst werden, bevor die Daten zuverlässig genutzt werden können.

Beispiel 5: Identifikation von Anreicherungsmöglichkeiten

Szenario: Sie möchten Attribute mit niedriger Kardinalität identifizieren, die von einer Anreicherung mit zusätzlichen Beschreibungsinformationen profitieren würden, um Analysen benutzerfreundlicher zu machen.

Einstellungen:

Titel: "Analyse von Anreicherungsmöglichkeiten"
Beschreibung: "Identifizierung von Kandidaten für Lookup-Erweiterungen"

Ausgabe:

Attributname	Typ	Einzigartige Werte	Null %	Beispielwerte	Anreicherungs-Potenzial
ProductCode	Event	45	0%	P001, P002, P003	HOCH – Produktnamen hinzufügen
StatusCode	Case	8	0%	ST-01, ST-02, ST-03	HOCH – Statusbeschreibungen hinzufügen
RegionCode	Case	4	0%	R1, R2, R3, R4	HOCH – Regionsnamen hinzufügen
CurrencyCode	Case	3	0%	USD, EUR, GBP	MITTEL – Allgemein bekannt
EmployeeID	Event	234	2,1 %	E12345, E67890	HOCH – Mitarbeiternamen hinzufügen

Erkenntnisse: Mehrere Attribute enthalten Codes, die von einer Anreicherung profitieren würden. Mit nur 45 einzigartigen Produktcodes würde das Hinzufügen von Produktnamen die Benutzerfreundlichkeit deutlich erhöhen. Die 8 Status-Codes sollten mit verständlichen Beschreibungen ergänzt werden, damit Anwender keine Code-Tabellen konsultieren müssen. Mitarbeiter-IDs sollten mit Namen angereichert werden, wobei Datenschutzvorgaben zu beachten sind. Diese Erweiterungen verbessern das Benutzererlebnis erheblich, ohne die Datenmenge wesentlich zu erhöhen.

Beispiel 6: Überwachung von Datenvollständigkeitstrends

Szenario: Sie führen regelmäßige Datenextraktionen durch und möchten überwachen, ob sich die Datenvollständigkeit im Zeitverlauf verbessert oder verschlechtert, indem Sie aktuelle Extraktionsstatistiken mit vorherigen Vergleichswerten gegenüberstellen.

Einstellungen:

Titel: "Überwachung der Datenvollständigkeit – Februar 2025"
Beschreibung: "Vergleich mit Januar-Basiswerten"

Ausgabe:

Attributname	Typ	Jan Null %	Feb Null %	Veränderung	Trend
ApproverName	Event	5,2 %	3,1 %	-2,1 %	VERBESSERT
Department	Case	8,4 %	8,9 %	+0,5 %	VERSCHLECHTERT
CostCenter	Event	12,3 %	18,7 %	+6,4 %	VERSCHLECHTERT
Priority	Case	1,2 %	1,1 %	-0,1 %	STABIL
DueDate	Case	15,6 %	9,2 %	-6,4 %	VERBESSERT

Erkenntnisse: Der Vergleich zeigt gemischte Trends in der Datenqualität. Die Nullanteile bei ApproverName sanken von 5,2 % auf 3,1 %, was auf eine verbesserte Datenerfassung im Genehmigungsprozess hindeutet – möglicherweise durch kürzlich eingeführte obligatorische Genehmigerauswahl. Die Nullwerte bei CostCenter stiegen dagegen deutlich von 12,3 % auf 18,7 %, was auf eine Verschlechterung bei der Kostenstellenzuweisung hinweist und sofortige Maßnahmen erfordert. Die dramatische Verbesserung bei DueDate (von 15,6 % auf 9,2 %) spiegelt die erfolgreiche Umsetzung einer verpflichtenden Fälligkeitsdateneingabe wider. Diese Trends unterstützen fortlaufende Maßnahmen zur Datenqualitätsverbesserung.

Ausgabe

Der Column Info Rechner zeigt eine umfassende Tabelle mit detaillierten Statistiken zu jedem Attribut in Ihrem Ereignisprotokoll an. Die Tabelle umfasst sowohl Attribute auf Fall- als auch auf Ereignisebene mit folgenden Informationen:

Attributname: Der Name des Attributs, wie er im Datensatz erscheint.

Attributtyp: Gibt an, ob es sich um ein Fallattribut (ein Wert pro Fall) oder ein Ereignisattribut (ein Wert pro Ereignis/Aktivität) handelt.

Datentyp: Der erkannte Datentyp des Attributs (String, Integer, Decimal, DateTime, Boolean usw.).

Gesamtwerte: Die Gesamtanzahl der für dieses Attribut vorhandenen Werte (gesamt Fälle bei Fallattributen, alle Ereignisse bei Ereignisattributen).

Nullanzahl: Die Anzahl der Null- oder fehlenden Werte für dieses Attribut.

Null-Prozent: Der prozentuale Anteil der Nullwerte, berechnet als (Nullanzahl / Gesamtwerte) * 100.

Einzigartige Werte: Die Anzahl der verschiedenen, eindeutigen Werte in diesem Attribut.

Kardinalitätsverhältnis: Das Verhältnis eindeutiger Werte zu Gesamtwerten in Prozent. Hohe Kardinalität (nahe 100 %) bedeutet überwiegend einzigartige Werte; niedrige Kardinalität deutet auf viele Wiederholungen hin.

Beispielwerte: Eine repräsentative Stichprobe tatsächlicher Werte aus dem Attribut, typischerweise 3–5 unterschiedliche Werte, um Datenformat und Inhalt zu veranschaulichen.

Min-Wert: Für numerische und Datumsattribute der kleinste/früheste Wert.

Max-Wert: Für numerische und Datumsattribute der größte/späteste Wert.

Interaktive Funktionen

Sortieren und Filtern: Klicken Sie auf Spaltenüberschriften, um nach jeder Metrik zu sortieren. Nutzen Sie die Suchfunktion, um gezielt Attribute zu filtern.

Ergebnisse exportieren: Exportieren Sie die vollständige Attributanalyse nach Excel oder CSV für Dokumentation, Vergleich oder Teilen mit technischen Teams.

Detaillierte Analyse: Klicken Sie auf einen Attributnamen, um zusätzliche detaillierte Statistiken, einschließlich Wertverteilungen und umfangreicherer Beispielwerte, anzuzeigen.

Performance-Aspekte

Große Datensätze: Bei Datensätzen mit Millionen von Ereignissen oder hunderten Attributen kann die Analyse mehrere Minuten dauern.
Ressourcenverbrauch: Der Rechner führt umfassende Scans aller Attributwerte durch, was speicher- und CPU-intensiv ist.
Best Practices: Führen Sie den Rechner bei sehr großen Datensätzen außerhalb der Spitzenzeiten aus oder verwenden Sie Filter, um die Datensatzgröße vor der Ausführung zu reduzieren.

Administratorzugang

Dieser Rechner ist nur für Benutzer mit Administratorrolle zugänglich. Normale Benutzer, die Übersichtsinformationen zum Datensatz benötigen, sollten stattdessen den Rechner Dataset Information verwenden, der wichtige Kennzahlen ohne den Performance-Overhead einer umfassenden Spaltenanalyse bietet.

Diese Dokumentation ist Teil der mindzie Studio Process-Mining-Plattform.