Kolominfo

Overzicht

De Kolominfo-calculator biedt gedetailleerde metadata en statistieken over alle attributen (kolommen) in uw event log-dataset. Deze administratieve tool toont uitgebreide informatie over elk attribuut, waaronder datatypes, waardeverdelingen, aantal null-waarden en voorbeeldwaarden.

BELANGRIJK: Dit is een calculator die alleen voor beheerders bedoeld is en geschikt is voor technische analyse en onderzoeksdoeleinden. Hij is niet geoptimaliseerd voor productief gebruik en kan aanzienlijk wat tijd kosten om grote datasets te verwerken. Reguliere gebruikers dienen de Datasetinformatie-calculator te gebruiken voor algemene datasetoverzichten.

Deze calculator wordt vooral gebruikt door systeembeheerders, data-analisten en technische gebruikers die diepgaande inzichten nodig hebben in datastructuur en -kwaliteit voor probleemoplossing, datavalidatie of datasetoptimalisatie.

Veelvoorkomende Toepassingen

  • Uitvoeren van uitgebreide datakwaliteitsaudits over alle attributen in de event log
  • Identificeren van attributen met hoge percentages null- of ontbrekende waarden
  • Analyseren van consistentie in datatypes en het detecteren van mogelijke typeconversieproblemen
  • Beoordelen van attribuutcardinaliteit (aantal unieke waarden) om kandidaten voor categorische analyse te identificeren
  • Valideren van data-extractieresultaten door attributenstatistieken te onderzoeken
  • Diagnose van prestatieproblemen door attributen met onverwachte waardeverdelingen te identificeren
  • Documenteren van dataschema’s en kenmerken voor technische specificaties

Instellingen

Deze calculator vereist geen specifieke configuratie-instellingen. Bij uitvoering scant hij automatisch alle attributen in de huidige dataset (zowel gevalsniveau als eventniveau) en genereert hij uitgebreide statistieken voor elk.

Opmerking: De verwerkingstijd is afhankelijk van de datasetgrootte en het aantal attributen. Voor zeer grote datasets kan deze calculator enkele minuten duren om te voltooien.

Voorbeelden

Voorbeeld 1: Datakwaliteitsaudit na ETL

Scenario: U heeft zojuist een ETL-proces afgerond om order-to-cash gegevens uit uw ERP-systeem te extraheren. Voordat u de dataset vrijgeeft aan zakelijke gebruikers, moet u verifiëren dat alle attributen correct zijn geëxtraheerd en de datavolledigheid beoordelen.

Instellingen:

  • Titel: "Validatie datakwaliteit na ETL"
  • Beschrijving: "O2C dataset - Extractie januari 2025"

Output:

De calculator toont een uitgebreide tabel met de volgende informatie per attribuut:

Attribuutnaam Type Totaalwaarden Aantal nulls Null % Unieke waarden Voorbeeldwaarden
CaseID Case 2.456 0 0% 2.456 ORD-001, ORD-002, ORD-003
CustomerName Case 2.456 12 0,5% 847 Acme Corp, TechStart Inc, Global...
OrderAmount Case 2.456 0 0% 1.823 1250.00, 3400.50, 875.25
Region Case 2.456 156 6,4% 4 Noord, Zuid, Oost, West
ActivityName Event 18.945 0 0% 15 Order aanmaken, Order goedkeuren, Verzenden...
Timestamp Event 18.945 0 0% 18.893 2025-01-15 08:23:00, 2025-01-15...
ApprovalLevel Event 18.945 8.234 43,5% 3 L1, L2, L3
Department Event 18.945 3.456 18,2% 8 Verkoop, Financiën, Operaties...

Inzichten: De audit onthult diverse datakwaliteitsproblemen. Het attribuut Region heeft 6,4% null-waarden die 156 cases beïnvloeden – deze cases vereisen handmatige controle of datacorrectie. Cruciaal is dat ApprovalLevel 43,5% null-waarden heeft, wat kan betekenen dat niet alle activiteiten goedkeuring vereisen (verwacht) of dat goedkeuringsgegevens ontbreken bij activiteiten die dit wel behoeven (vereist nader onderzoek). Het lage aantal nulls in CustomerName (0,5%) is acceptabel en kan testorders betreffen. Alle kritieke identifiers (CaseID, Timestamp) zijn nullvrij, wat de dataintegriteit bevestigt.

Voorbeeld 2: Prestatieproblemen opsporen

Scenario: Gebruikers melden trage prestaties bij het filteren op bepaalde attributen. U moet identificeren welke attributen hoge cardinaliteit hebben (veel unieke waarden) die ondoeltreffende filtering kunnen veroorzaken.

Instellingen:

  • Titel: "Analyse attributencardinaliteit"
  • Beschrijving: "Onderzoek filterprestaties"

Output:

Attribuutnaam Type Totaalwaarden Unieke waarden Cardinaliteitsratio Datatype
CaseID Case 45.678 45.678 100% String
TransactionID Event 367.824 367.824 100% String
UserComments Event 367.824 89.234 24,3% String
ProductSKU Event 367.824 12.456 3,4% String
Status Case 45.678 8 0,02% String
Priority Case 45.678 3 0,007% String

Inzichten: De analyse toont een breed spectrum aan cardinaliteit over attributen. CaseID en TransactionID hebben 100% cardinaliteit (elke waarde is uniek), wat ze uitstekend maakt voor case-identificatie maar ongeschikt voor categorische filtering. UserComments heeft onverwacht hoge cardinaliteit (24,3%), wat suggereert dat het vrije tekst bevat in plaats van gestandaardiseerde waarden – filteren op dit attribuut zal traag zijn en kan profiteren van full-text zoekoptimalisatie. Daartegenover zijn Status (8 waarden) en Priority (3 waarden) ideaal voor efficiënte filtering. Deze analyse helpt om filterontwerp te optimaliseren en gebruikers te begeleiden bij het kiezen van hoge-prestatieattributen.

Voorbeeld 3: Schemadocumentatie voor integratie

Scenario: U moet technische documentatie aan een derde partij leveren die met uw process mining-omgeving gaat integreren. Zij hebben gedetailleerde informatie nodig over beschikbare attributen, datatypes en verwachte waardebereiken.

Instellingen:

  • Titel: "Purchase-to-Pay schemadocumentatie"
  • Beschrijving: "Technische specificatie voor API-integratie"

Output:

Attribuutnaam Attribuuttype Datatype Totaalwaarden Unieke waarden Null-aantal Voorbeeldwaarden
PO_Number Case String 8.945 8.945 0 PO-2025-00001, PO-2025-00002
Vendor_ID Case String 8.945 234 0 V12345, V67890, V45678
Total_Amount Case Decimal 8.945 7.823 0 15750.50, 2340.00, 987.25
Currency Case String 8.945 3 12 USD, EUR, GBP
RequestDate Case DateTime 8.945 2.456 0 2025-01-15, 2025-01-16
Activity Event String 71.560 12 0 PO aanmaken, PO goedkeuren, Verzenden...
Resource Event String 71.560 145 234 john.smith, sarah.jones...
Cost_Center Event String 71.560 67 1.234 CC-1001, CC-2045, CC-3012

Inzichten: De schemadocumentatie toont dat PO_Number de primaire case-identifier is met gegarandeerde uniciteit en zonder nulls. Alle geldbedragen zijn in het veld Total_Amount (decimaal type) vastgelegd, met Currency afzonderlijk gespecificeerd. Het proces ondersteunt drie valuta’s (USD, EUR, GBP) waarbij 12 cases ontbreken met valuta-informatie, wat correctie vereist. Resource-informatie is beschikbaar voor 145 unieke gebruikers maar heeft 234 null-waarden op eventniveau, wat op geautomatiseerde activiteiten duidt. Het attribuut Cost_Center heeft 1,7% null-waarden, wat wijst op onvolledige datainvoer bij bepaalde activiteiten. Dit overzicht ondersteunt nauwkeurige integratieplanning.

Voorbeeld 4: Detecteren van datatypes-inconsistenties

Scenario: Na het samenvoegen van data uit meerdere bronsystemen vermoedt u datatype-inconsistenties die rekenfouten of onverwacht gedrag in analyses kunnen veroorzaken.

Instellingen:

  • Titel: "Controle datatypes consistentie"
  • Beschrijving: "Validatie multi-bron data"

Output:

Attribuutnaam Gedetecteerd type Totaalwaarden Typeconflicten Voorbeeld inconsistente waarden
OrderDate DateTime 5.678 0 -
OrderValue Mixed 5.678 23 "1250.50", "$1,250.50", "1250,50"
QuantityOrdered Integer 5.678 8 "100", "100.0", "100 units"
CustomerID String 5.678 0 -
IsRush Mixed 5.678 145 "Yes", "Y", "1", "true", "TRUE"

Inzichten: De analyse onthulde kritieke inconsistenties in datatypes. Het attribuut OrderValue bevat gemengde formaten – sommige waarden bevatten valutatekens en verschillende decimaalscheidingstekens (komma vs punt), wat een datacleansing vereist vóór berekeningen. QuantityOrdered toont 8 gevallen waarin tekst is toegevoegd ("100 units"), wat fouten veroorzaakt bij numerieke aggregaties. De IsRush-vlag kent vijf verschillende boolean-representaties, wat standaardisatie naar "true/false" of "1/0" vereist voor betrouwbare filtering. Deze problemen moeten worden opgelost in het ETL-proces voordat de data betrouwbaar gebruikt kan worden.

Voorbeeld 5: Identificeren van verrijkingsmogelijkheden

Scenario: U wilt attributen met lage cardinaliteit identificeren die kunnen profiteren van verrijking met extra beschrijvende informatie om analyses gebruiksvriendelijker te maken.

Instellingen:

  • Titel: "Analyse verrijkingskansen"
  • Beschrijving: "Identificatie kandidaten voor lookup-verrijking"

Output:

Attribuutnaam Type Unieke waarden Null % Voorbeeldwaarden Verrijkingspotentieel
ProductCode Event 45 0% P001, P002, P003 HOOG - Productnamen toevoegen
StatusCode Case 8 0% ST-01, ST-02, ST-03 HOOG - Statusbeschrijvingen toevoegen
RegionCode Case 4 0% R1, R2, R3, R4 HOOG - Regio-namen toevoegen
CurrencyCode Case 3 0% USD, EUR, GBP MIDDEN - Algemeen bekend
EmployeeID Event 234 2,1% E12345, E67890 HOOG - Werknemersnamen toevoegen

Inzichten: Diverse attributen bevatten codes die baat hebben bij verrijking. Met slechts 45 unieke productcodes zou het toevoegen van productnamen analyses veel leesbaarder maken voor zakelijke gebruikers. De 8 statuscodes dienen verrijkt te worden met heldere omschrijvingen om te voorkomen dat gebruikers codeboeken hoeven te raadplegen. EmployeeID’s moeten verrijkt worden met namen, met inachtneming van privacyregels. Deze verrijkingen verbeteren de gebruikerservaring aanzienlijk zonder veel extra data te genereren.

Scenario: U voert regelmatig data-extracties uit en wilt monitoren of de datavolledigheid verbetert of verslechtert over tijd door huidige extractiestatistieken te vergelijken met eerdere basislijnen.

Instellingen:

  • Titel: "Monitoring datavolledigheid - februari 2025"
  • Beschrijving: "Vergelijking met basislijn januari"

Output:

Attribuutnaam Type Jan Null % Feb Null % Verandering Trend
ApproverName Event 5,2% 3,1% -2,1% VERBETERD
Department Case 8,4% 8,9% +0,5% VERSLECHTERD
CostCenter Event 12,3% 18,7% +6,4% VERSLECHTERD
Priority Case 1,2% 1,1% -0,1% STABIEL
DueDate Case 15,6% 9,2% -6,4% VERBETERD

Inzichten: De vergelijking toont gemengde datakwaliteittrends. Het percentage null-waarden in ApproverName daalde van 5,2% naar 3,1%, wat duidt op verbeterde gegevensvastlegging bij de goedkeuringsfase – mogelijk door recente proceswijzigingen die expliciete goedkeurderselectie vereisen. Daarentegen steeg het percentage nulls in CostCenter aanzienlijk van 12,3% naar 18,7%, wat wijst op verslechterde toewijzing die directe aandacht vereist. De sterke verbetering in DueDate-volledigheid (van 15,6% naar 9,2%) weerspiegelt succesvolle implementatie van verplichte ingeving van de vervaldatum. Deze trends sturen lopende datakwaliteitsinitiatieven aan.

Output

De Kolominfo-calculator toont een uitgebreide tabel met gedetailleerde statistieken voor elk attribuut in uw event log. De tabel bevat zowel gevalsniveau- als eventniveau-attributen met de volgende informatie:

Attribuutnaam: De naam van het attribuut zoals die in de dataset voorkomt.

Attribuuttype: Geeft aan of dit een Case-niveau attribuut is (één waarde per case) of Event-niveau attribuut (één waarde per event/activiteit).

Datatype: Het gedetecteerde datatype van het attribuut (String, Integer, Decimal, DateTime, Boolean, enz.).

Totaalwaarden: Het totale aantal waarden dat voor dit attribuut aanwezig is (totaal aantal cases voor case-attributen, totaal aantal events voor event-attributen).

Aantal nulls: Het aantal null- of ontbrekende waarden voor dit attribuut.

Percentage nulls: Het percentage waarden dat null of ontbrekend is, berekend als (Aantal nulls / Totaalwaarden) * 100.

Unieke waarden: Het aantal onderscheidende unieke waarden in dit attribuut.

Cardinaliteitsratio: De verhouding van unieke waarden tot totaalwaarden, uitgedrukt als percentage. Een hoge cardinaliteit (dicht bij 100%) duidt meestal op unieke waarden; lage cardinaliteit wijst op veel herhaalde waarden.

Voorbeeldwaarden: Een representatieve steekproef van daadwerkelijke waarden van het attribuut, meestal 3-5 verschillende waarden om het dataformaat en de inhoud te illustreren.

Min Waarde: Voor numerieke en datum-attributen, de minimum (kleinste/vroegste) waarde.

Max Waarde: Voor numerieke en datum-attributen, de maximum (grootste/laatste) waarde.

Interactieve Functionaliteiten

Sorteren en filteren: Klik op kolomkoppen om op een gewenste metriek te sorteren. Gebruik het zoekvak om te filteren op specifieke attributen van belang.

Resultaten exporteren: Exporteer de complete attributenanalyse naar Excel of CSV voor documentatie, vergelijking of delen met technische teams.

Diepgaande analyse: Klik op een attribuutnaam om extra gedetailleerde statistieken te zien, inclusief waardefrequentieverdeling en uitgebreidere voorbeeldwaarden.

Prestatie-overwegingen

  • Grote datasets: Voor datasets met miljoenen events of honderden attributen kan deze calculator enkele minuten nodig hebben voor analyse
  • Resourcegebruik: De calculator voert uitgebreide scans uit over alle attribuutwaarden, wat veel geheugen en CPU vraagt
  • Beste praktijken: Voer deze calculator uit buiten piekuren bij zeer grote datasets, of gebruik filters om datasetgrootte voor uitvoering te beperken

Administratieve Toegang

Deze calculator is beperkt tot gebruikers met de Administrator-rol. Reguliere gebruikers die overzichtsinformatie over datasets nodig hebben, dienen de Datasetinformatie-calculator te gebruiken, die kernstatistieken levert zonder de prestatiebelasting van uitgebreide kolomanalyse.


Deze documentatie maakt deel uit van het mindzieStudio process mining platform.