Kolominfo

Overzicht

De Kolominfo-calculator biedt gedetailleerde metadata en statistieken over alle attributen (kolommen) in uw event log-dataset. Deze administratieve tool toont uitgebreide informatie over elk attribuut, waaronder datatypes, waardeverdelingen, aantal null-waarden en voorbeeldwaarden.

BELANGRIJK: Dit is een calculator die alleen voor beheerders bedoeld is en geschikt is voor technische analyse en onderzoeksdoeleinden. Hij is niet geoptimaliseerd voor productief gebruik en kan aanzienlijk wat tijd kosten om grote datasets te verwerken. Reguliere gebruikers dienen de Datasetinformatie-calculator te gebruiken voor algemene datasetoverzichten.

Deze calculator wordt vooral gebruikt door systeembeheerders, data-analisten en technische gebruikers die diepgaande inzichten nodig hebben in datastructuur en -kwaliteit voor probleemoplossing, datavalidatie of datasetoptimalisatie.

Veelvoorkomende Toepassingen

Uitvoeren van uitgebreide datakwaliteitsaudits over alle attributen in de event log
Identificeren van attributen met hoge percentages null- of ontbrekende waarden
Analyseren van consistentie in datatypes en het detecteren van mogelijke typeconversieproblemen
Beoordelen van attribuutcardinaliteit (aantal unieke waarden) om kandidaten voor categorische analyse te identificeren
Valideren van data-extractieresultaten door attributenstatistieken te onderzoeken
Diagnose van prestatieproblemen door attributen met onverwachte waardeverdelingen te identificeren
Documenteren van dataschema’s en kenmerken voor technische specificaties

Instellingen

Deze calculator vereist geen specifieke configuratie-instellingen. Bij uitvoering scant hij automatisch alle attributen in de huidige dataset (zowel gevalsniveau als eventniveau) en genereert hij uitgebreide statistieken voor elk.

Opmerking: De verwerkingstijd is afhankelijk van de datasetgrootte en het aantal attributen. Voor zeer grote datasets kan deze calculator enkele minuten duren om te voltooien.

Voorbeelden

Voorbeeld 1: Datakwaliteitsaudit na ETL

Scenario: U heeft zojuist een ETL-proces afgerond om order-to-cash gegevens uit uw ERP-systeem te extraheren. Voordat u de dataset vrijgeeft aan zakelijke gebruikers, moet u verifiëren dat alle attributen correct zijn geëxtraheerd en de datavolledigheid beoordelen.

Instellingen:

Titel: "Validatie datakwaliteit na ETL"
Beschrijving: "O2C dataset - Extractie januari 2025"

Output:

De calculator toont een uitgebreide tabel met de volgende informatie per attribuut:

Attribuutnaam	Type	Totaalwaarden	Aantal nulls	Null %	Unieke waarden	Voorbeeldwaarden
CaseID	Case	2.456	0	0%	2.456	ORD-001, ORD-002, ORD-003
CustomerName	Case	2.456	12	0,5%	847	Acme Corp, TechStart Inc, Global...
OrderAmount	Case	2.456	0	0%	1.823	1250.00, 3400.50, 875.25
Region	Case	2.456	156	6,4%	4	Noord, Zuid, Oost, West
ActivityName	Event	18.945	0	0%	15	Order aanmaken, Order goedkeuren, Verzenden...
Timestamp	Event	18.945	0	0%	18.893	2025-01-15 08:23:00, 2025-01-15...
ApprovalLevel	Event	18.945	8.234	43,5%	3	L1, L2, L3
Department	Event	18.945	3.456	18,2%	8	Verkoop, Financiën, Operaties...

Inzichten: De audit onthult diverse datakwaliteitsproblemen. Het attribuut Region heeft 6,4% null-waarden die 156 cases beïnvloeden – deze cases vereisen handmatige controle of datacorrectie. Cruciaal is dat ApprovalLevel 43,5% null-waarden heeft, wat kan betekenen dat niet alle activiteiten goedkeuring vereisen (verwacht) of dat goedkeuringsgegevens ontbreken bij activiteiten die dit wel behoeven (vereist nader onderzoek). Het lage aantal nulls in CustomerName (0,5%) is acceptabel en kan testorders betreffen. Alle kritieke identifiers (CaseID, Timestamp) zijn nullvrij, wat de dataintegriteit bevestigt.

Voorbeeld 2: Prestatieproblemen opsporen

Scenario: Gebruikers melden trage prestaties bij het filteren op bepaalde attributen. U moet identificeren welke attributen hoge cardinaliteit hebben (veel unieke waarden) die ondoeltreffende filtering kunnen veroorzaken.

Instellingen:

Titel: "Analyse attributencardinaliteit"
Beschrijving: "Onderzoek filterprestaties"

Output:

Attribuutnaam	Type	Totaalwaarden	Unieke waarden	Cardinaliteitsratio	Datatype
CaseID	Case	45.678	45.678	100%	String
TransactionID	Event	367.824	367.824	100%	String
UserComments	Event	367.824	89.234	24,3%	String
ProductSKU	Event	367.824	12.456	3,4%	String
Status	Case	45.678	8	0,02%	String
Priority	Case	45.678	3	0,007%	String

Inzichten: De analyse toont een breed spectrum aan cardinaliteit over attributen. CaseID en TransactionID hebben 100% cardinaliteit (elke waarde is uniek), wat ze uitstekend maakt voor case-identificatie maar ongeschikt voor categorische filtering. UserComments heeft onverwacht hoge cardinaliteit (24,3%), wat suggereert dat het vrije tekst bevat in plaats van gestandaardiseerde waarden – filteren op dit attribuut zal traag zijn en kan profiteren van full-text zoekoptimalisatie. Daartegenover zijn Status (8 waarden) en Priority (3 waarden) ideaal voor efficiënte filtering. Deze analyse helpt om filterontwerp te optimaliseren en gebruikers te begeleiden bij het kiezen van hoge-prestatieattributen.

Voorbeeld 3: Schemadocumentatie voor integratie

Scenario: U moet technische documentatie aan een derde partij leveren die met uw process mining-omgeving gaat integreren. Zij hebben gedetailleerde informatie nodig over beschikbare attributen, datatypes en verwachte waardebereiken.

Instellingen:

Titel: "Purchase-to-Pay schemadocumentatie"
Beschrijving: "Technische specificatie voor API-integratie"

Output:

Attribuutnaam	Attribuuttype	Datatype	Totaalwaarden	Unieke waarden	Null-aantal	Voorbeeldwaarden
PO_Number	Case	String	8.945	8.945	0	PO-2025-00001, PO-2025-00002
Vendor_ID	Case	String	8.945	234	0	V12345, V67890, V45678
Total_Amount	Case	Decimal	8.945	7.823	0	15750.50, 2340.00, 987.25
Currency	Case	String	8.945	3	12	USD, EUR, GBP
RequestDate	Case	DateTime	8.945	2.456	0	2025-01-15, 2025-01-16
Activity	Event	String	71.560	12	0	PO aanmaken, PO goedkeuren, Verzenden...
Resource	Event	String	71.560	145	234	john.smith, sarah.jones...
Cost_Center	Event	String	71.560	67	1.234	CC-1001, CC-2045, CC-3012

Inzichten: De schemadocumentatie toont dat PO_Number de primaire case-identifier is met gegarandeerde uniciteit en zonder nulls. Alle geldbedragen zijn in het veld Total_Amount (decimaal type) vastgelegd, met Currency afzonderlijk gespecificeerd. Het proces ondersteunt drie valuta’s (USD, EUR, GBP) waarbij 12 cases ontbreken met valuta-informatie, wat correctie vereist. Resource-informatie is beschikbaar voor 145 unieke gebruikers maar heeft 234 null-waarden op eventniveau, wat op geautomatiseerde activiteiten duidt. Het attribuut Cost_Center heeft 1,7% null-waarden, wat wijst op onvolledige datainvoer bij bepaalde activiteiten. Dit overzicht ondersteunt nauwkeurige integratieplanning.

Voorbeeld 4: Detecteren van datatypes-inconsistenties

Scenario: Na het samenvoegen van data uit meerdere bronsystemen vermoedt u datatype-inconsistenties die rekenfouten of onverwacht gedrag in analyses kunnen veroorzaken.

Instellingen:

Titel: "Controle datatypes consistentie"
Beschrijving: "Validatie multi-bron data"

Output:

Attribuutnaam	Gedetecteerd type	Totaalwaarden	Typeconflicten	Voorbeeld inconsistente waarden
OrderDate	DateTime	5.678	0	-
OrderValue	Mixed	5.678	23	"1250.50", "$1,250.50", "1250,50"
QuantityOrdered	Integer	5.678	8	"100", "100.0", "100 units"
CustomerID	String	5.678	0	-
IsRush	Mixed	5.678	145	"Yes", "Y", "1", "true", "TRUE"

Inzichten: De analyse onthulde kritieke inconsistenties in datatypes. Het attribuut OrderValue bevat gemengde formaten – sommige waarden bevatten valutatekens en verschillende decimaalscheidingstekens (komma vs punt), wat een datacleansing vereist vóór berekeningen. QuantityOrdered toont 8 gevallen waarin tekst is toegevoegd ("100 units"), wat fouten veroorzaakt bij numerieke aggregaties. De IsRush-vlag kent vijf verschillende boolean-representaties, wat standaardisatie naar "true/false" of "1/0" vereist voor betrouwbare filtering. Deze problemen moeten worden opgelost in het ETL-proces voordat de data betrouwbaar gebruikt kan worden.

Voorbeeld 5: Identificeren van verrijkingsmogelijkheden

Scenario: U wilt attributen met lage cardinaliteit identificeren die kunnen profiteren van verrijking met extra beschrijvende informatie om analyses gebruiksvriendelijker te maken.

Instellingen:

Titel: "Analyse verrijkingskansen"
Beschrijving: "Identificatie kandidaten voor lookup-verrijking"

Output:

Attribuutnaam	Type	Unieke waarden	Null %	Voorbeeldwaarden	Verrijkingspotentieel
ProductCode	Event	45	0%	P001, P002, P003	HOOG - Productnamen toevoegen
StatusCode	Case	8	0%	ST-01, ST-02, ST-03	HOOG - Statusbeschrijvingen toevoegen
RegionCode	Case	4	0%	R1, R2, R3, R4	HOOG - Regio-namen toevoegen
CurrencyCode	Case	3	0%	USD, EUR, GBP	MIDDEN - Algemeen bekend
EmployeeID	Event	234	2,1%	E12345, E67890	HOOG - Werknemersnamen toevoegen

Inzichten: Diverse attributen bevatten codes die baat hebben bij verrijking. Met slechts 45 unieke productcodes zou het toevoegen van productnamen analyses veel leesbaarder maken voor zakelijke gebruikers. De 8 statuscodes dienen verrijkt te worden met heldere omschrijvingen om te voorkomen dat gebruikers codeboeken hoeven te raadplegen. EmployeeID’s moeten verrijkt worden met namen, met inachtneming van privacyregels. Deze verrijkingen verbeteren de gebruikerservaring aanzienlijk zonder veel extra data te genereren.

Voorbeeld 6: Monitoren van trends in datavolledigheid

Scenario: U voert regelmatig data-extracties uit en wilt monitoren of de datavolledigheid verbetert of verslechtert over tijd door huidige extractiestatistieken te vergelijken met eerdere basislijnen.

Instellingen:

Titel: "Monitoring datavolledigheid - februari 2025"
Beschrijving: "Vergelijking met basislijn januari"

Output:

Attribuutnaam	Type	Jan Null %	Feb Null %	Verandering	Trend
ApproverName	Event	5,2%	3,1%	-2,1%	VERBETERD
Department	Case	8,4%	8,9%	+0,5%	VERSLECHTERD
CostCenter	Event	12,3%	18,7%	+6,4%	VERSLECHTERD
Priority	Case	1,2%	1,1%	-0,1%	STABIEL
DueDate	Case	15,6%	9,2%	-6,4%	VERBETERD

Inzichten: De vergelijking toont gemengde datakwaliteittrends. Het percentage null-waarden in ApproverName daalde van 5,2% naar 3,1%, wat duidt op verbeterde gegevensvastlegging bij de goedkeuringsfase – mogelijk door recente proceswijzigingen die expliciete goedkeurderselectie vereisen. Daarentegen steeg het percentage nulls in CostCenter aanzienlijk van 12,3% naar 18,7%, wat wijst op verslechterde toewijzing die directe aandacht vereist. De sterke verbetering in DueDate-volledigheid (van 15,6% naar 9,2%) weerspiegelt succesvolle implementatie van verplichte ingeving van de vervaldatum. Deze trends sturen lopende datakwaliteitsinitiatieven aan.

Output

De Kolominfo-calculator toont een uitgebreide tabel met gedetailleerde statistieken voor elk attribuut in uw event log. De tabel bevat zowel gevalsniveau- als eventniveau-attributen met de volgende informatie:

Attribuutnaam: De naam van het attribuut zoals die in de dataset voorkomt.

Attribuuttype: Geeft aan of dit een Case-niveau attribuut is (één waarde per case) of Event-niveau attribuut (één waarde per event/activiteit).

Datatype: Het gedetecteerde datatype van het attribuut (String, Integer, Decimal, DateTime, Boolean, enz.).

Totaalwaarden: Het totale aantal waarden dat voor dit attribuut aanwezig is (totaal aantal cases voor case-attributen, totaal aantal events voor event-attributen).

Aantal nulls: Het aantal null- of ontbrekende waarden voor dit attribuut.

Percentage nulls: Het percentage waarden dat null of ontbrekend is, berekend als (Aantal nulls / Totaalwaarden) * 100.

Unieke waarden: Het aantal onderscheidende unieke waarden in dit attribuut.

Cardinaliteitsratio: De verhouding van unieke waarden tot totaalwaarden, uitgedrukt als percentage. Een hoge cardinaliteit (dicht bij 100%) duidt meestal op unieke waarden; lage cardinaliteit wijst op veel herhaalde waarden.

Voorbeeldwaarden: Een representatieve steekproef van daadwerkelijke waarden van het attribuut, meestal 3-5 verschillende waarden om het dataformaat en de inhoud te illustreren.

Min Waarde: Voor numerieke en datum-attributen, de minimum (kleinste/vroegste) waarde.

Max Waarde: Voor numerieke en datum-attributen, de maximum (grootste/laatste) waarde.

Interactieve Functionaliteiten

Sorteren en filteren: Klik op kolomkoppen om op een gewenste metriek te sorteren. Gebruik het zoekvak om te filteren op specifieke attributen van belang.

Resultaten exporteren: Exporteer de complete attributenanalyse naar Excel of CSV voor documentatie, vergelijking of delen met technische teams.

Diepgaande analyse: Klik op een attribuutnaam om extra gedetailleerde statistieken te zien, inclusief waardefrequentieverdeling en uitgebreidere voorbeeldwaarden.

Prestatie-overwegingen

Grote datasets: Voor datasets met miljoenen events of honderden attributen kan deze calculator enkele minuten nodig hebben voor analyse
Resourcegebruik: De calculator voert uitgebreide scans uit over alle attribuutwaarden, wat veel geheugen en CPU vraagt
Beste praktijken: Voer deze calculator uit buiten piekuren bij zeer grote datasets, of gebruik filters om datasetgrootte voor uitvoering te beperken

Administratieve Toegang

Deze calculator is beperkt tot gebruikers met de Administrator-rol. Reguliere gebruikers die overzichtsinformatie over datasets nodig hebben, dienen de Datasetinformatie-calculator te gebruiken, die kernstatistieken levert zonder de prestatiebelasting van uitgebreide kolomanalyse.

Deze documentatie maakt deel uit van het mindzieStudio process mining platform.