Kolominfo
Overzicht
De Kolominfo-calculator biedt gedetailleerde metadata en statistieken over alle attributen (kolommen) in uw event log-dataset. Deze administratieve tool toont uitgebreide informatie over elk attribuut, waaronder datatypes, waardeverdelingen, aantal null-waarden en voorbeeldwaarden.
BELANGRIJK: Dit is een calculator die alleen voor beheerders bedoeld is en geschikt is voor technische analyse en onderzoeksdoeleinden. Hij is niet geoptimaliseerd voor productief gebruik en kan aanzienlijk wat tijd kosten om grote datasets te verwerken. Reguliere gebruikers dienen de Datasetinformatie-calculator te gebruiken voor algemene datasetoverzichten.
Deze calculator wordt vooral gebruikt door systeembeheerders, data-analisten en technische gebruikers die diepgaande inzichten nodig hebben in datastructuur en -kwaliteit voor probleemoplossing, datavalidatie of datasetoptimalisatie.
Veelvoorkomende Toepassingen
- Uitvoeren van uitgebreide datakwaliteitsaudits over alle attributen in de event log
- Identificeren van attributen met hoge percentages null- of ontbrekende waarden
- Analyseren van consistentie in datatypes en het detecteren van mogelijke typeconversieproblemen
- Beoordelen van attribuutcardinaliteit (aantal unieke waarden) om kandidaten voor categorische analyse te identificeren
- Valideren van data-extractieresultaten door attributenstatistieken te onderzoeken
- Diagnose van prestatieproblemen door attributen met onverwachte waardeverdelingen te identificeren
- Documenteren van dataschema’s en kenmerken voor technische specificaties
Instellingen
Deze calculator vereist geen specifieke configuratie-instellingen. Bij uitvoering scant hij automatisch alle attributen in de huidige dataset (zowel gevalsniveau als eventniveau) en genereert hij uitgebreide statistieken voor elk.
Opmerking: De verwerkingstijd is afhankelijk van de datasetgrootte en het aantal attributen. Voor zeer grote datasets kan deze calculator enkele minuten duren om te voltooien.
Voorbeelden
Voorbeeld 1: Datakwaliteitsaudit na ETL
Scenario: U heeft zojuist een ETL-proces afgerond om order-to-cash gegevens uit uw ERP-systeem te extraheren. Voordat u de dataset vrijgeeft aan zakelijke gebruikers, moet u verifiëren dat alle attributen correct zijn geëxtraheerd en de datavolledigheid beoordelen.
Instellingen:
- Titel: "Validatie datakwaliteit na ETL"
- Beschrijving: "O2C dataset - Extractie januari 2025"
Output:
De calculator toont een uitgebreide tabel met de volgende informatie per attribuut:
| Attribuutnaam | Type | Totaalwaarden | Aantal nulls | Null % | Unieke waarden | Voorbeeldwaarden |
|---|---|---|---|---|---|---|
| CaseID | Case | 2.456 | 0 | 0% | 2.456 | ORD-001, ORD-002, ORD-003 |
| CustomerName | Case | 2.456 | 12 | 0,5% | 847 | Acme Corp, TechStart Inc, Global... |
| OrderAmount | Case | 2.456 | 0 | 0% | 1.823 | 1250.00, 3400.50, 875.25 |
| Region | Case | 2.456 | 156 | 6,4% | 4 | Noord, Zuid, Oost, West |
| ActivityName | Event | 18.945 | 0 | 0% | 15 | Order aanmaken, Order goedkeuren, Verzenden... |
| Timestamp | Event | 18.945 | 0 | 0% | 18.893 | 2025-01-15 08:23:00, 2025-01-15... |
| ApprovalLevel | Event | 18.945 | 8.234 | 43,5% | 3 | L1, L2, L3 |
| Department | Event | 18.945 | 3.456 | 18,2% | 8 | Verkoop, Financiën, Operaties... |
Inzichten: De audit onthult diverse datakwaliteitsproblemen. Het attribuut Region heeft 6,4% null-waarden die 156 cases beïnvloeden – deze cases vereisen handmatige controle of datacorrectie. Cruciaal is dat ApprovalLevel 43,5% null-waarden heeft, wat kan betekenen dat niet alle activiteiten goedkeuring vereisen (verwacht) of dat goedkeuringsgegevens ontbreken bij activiteiten die dit wel behoeven (vereist nader onderzoek). Het lage aantal nulls in CustomerName (0,5%) is acceptabel en kan testorders betreffen. Alle kritieke identifiers (CaseID, Timestamp) zijn nullvrij, wat de dataintegriteit bevestigt.
Voorbeeld 2: Prestatieproblemen opsporen
Scenario: Gebruikers melden trage prestaties bij het filteren op bepaalde attributen. U moet identificeren welke attributen hoge cardinaliteit hebben (veel unieke waarden) die ondoeltreffende filtering kunnen veroorzaken.
Instellingen:
- Titel: "Analyse attributencardinaliteit"
- Beschrijving: "Onderzoek filterprestaties"
Output:
| Attribuutnaam | Type | Totaalwaarden | Unieke waarden | Cardinaliteitsratio | Datatype |
|---|---|---|---|---|---|
| CaseID | Case | 45.678 | 45.678 | 100% | String |
| TransactionID | Event | 367.824 | 367.824 | 100% | String |
| UserComments | Event | 367.824 | 89.234 | 24,3% | String |
| ProductSKU | Event | 367.824 | 12.456 | 3,4% | String |
| Status | Case | 45.678 | 8 | 0,02% | String |
| Priority | Case | 45.678 | 3 | 0,007% | String |
Inzichten: De analyse toont een breed spectrum aan cardinaliteit over attributen. CaseID en TransactionID hebben 100% cardinaliteit (elke waarde is uniek), wat ze uitstekend maakt voor case-identificatie maar ongeschikt voor categorische filtering. UserComments heeft onverwacht hoge cardinaliteit (24,3%), wat suggereert dat het vrije tekst bevat in plaats van gestandaardiseerde waarden – filteren op dit attribuut zal traag zijn en kan profiteren van full-text zoekoptimalisatie. Daartegenover zijn Status (8 waarden) en Priority (3 waarden) ideaal voor efficiënte filtering. Deze analyse helpt om filterontwerp te optimaliseren en gebruikers te begeleiden bij het kiezen van hoge-prestatieattributen.
Voorbeeld 3: Schemadocumentatie voor integratie
Scenario: U moet technische documentatie aan een derde partij leveren die met uw process mining-omgeving gaat integreren. Zij hebben gedetailleerde informatie nodig over beschikbare attributen, datatypes en verwachte waardebereiken.
Instellingen:
- Titel: "Purchase-to-Pay schemadocumentatie"
- Beschrijving: "Technische specificatie voor API-integratie"
Output:
| Attribuutnaam | Attribuuttype | Datatype | Totaalwaarden | Unieke waarden | Null-aantal | Voorbeeldwaarden |
|---|---|---|---|---|---|---|
| PO_Number | Case | String | 8.945 | 8.945 | 0 | PO-2025-00001, PO-2025-00002 |
| Vendor_ID | Case | String | 8.945 | 234 | 0 | V12345, V67890, V45678 |
| Total_Amount | Case | Decimal | 8.945 | 7.823 | 0 | 15750.50, 2340.00, 987.25 |
| Currency | Case | String | 8.945 | 3 | 12 | USD, EUR, GBP |
| RequestDate | Case | DateTime | 8.945 | 2.456 | 0 | 2025-01-15, 2025-01-16 |
| Activity | Event | String | 71.560 | 12 | 0 | PO aanmaken, PO goedkeuren, Verzenden... |
| Resource | Event | String | 71.560 | 145 | 234 | john.smith, sarah.jones... |
| Cost_Center | Event | String | 71.560 | 67 | 1.234 | CC-1001, CC-2045, CC-3012 |
Inzichten: De schemadocumentatie toont dat PO_Number de primaire case-identifier is met gegarandeerde uniciteit en zonder nulls. Alle geldbedragen zijn in het veld Total_Amount (decimaal type) vastgelegd, met Currency afzonderlijk gespecificeerd. Het proces ondersteunt drie valuta’s (USD, EUR, GBP) waarbij 12 cases ontbreken met valuta-informatie, wat correctie vereist. Resource-informatie is beschikbaar voor 145 unieke gebruikers maar heeft 234 null-waarden op eventniveau, wat op geautomatiseerde activiteiten duidt. Het attribuut Cost_Center heeft 1,7% null-waarden, wat wijst op onvolledige datainvoer bij bepaalde activiteiten. Dit overzicht ondersteunt nauwkeurige integratieplanning.
Voorbeeld 4: Detecteren van datatypes-inconsistenties
Scenario: Na het samenvoegen van data uit meerdere bronsystemen vermoedt u datatype-inconsistenties die rekenfouten of onverwacht gedrag in analyses kunnen veroorzaken.
Instellingen:
- Titel: "Controle datatypes consistentie"
- Beschrijving: "Validatie multi-bron data"
Output:
| Attribuutnaam | Gedetecteerd type | Totaalwaarden | Typeconflicten | Voorbeeld inconsistente waarden |
|---|---|---|---|---|
| OrderDate | DateTime | 5.678 | 0 | - |
| OrderValue | Mixed | 5.678 | 23 | "1250.50", "$1,250.50", "1250,50" |
| QuantityOrdered | Integer | 5.678 | 8 | "100", "100.0", "100 units" |
| CustomerID | String | 5.678 | 0 | - |
| IsRush | Mixed | 5.678 | 145 | "Yes", "Y", "1", "true", "TRUE" |
Inzichten: De analyse onthulde kritieke inconsistenties in datatypes. Het attribuut OrderValue bevat gemengde formaten – sommige waarden bevatten valutatekens en verschillende decimaalscheidingstekens (komma vs punt), wat een datacleansing vereist vóór berekeningen. QuantityOrdered toont 8 gevallen waarin tekst is toegevoegd ("100 units"), wat fouten veroorzaakt bij numerieke aggregaties. De IsRush-vlag kent vijf verschillende boolean-representaties, wat standaardisatie naar "true/false" of "1/0" vereist voor betrouwbare filtering. Deze problemen moeten worden opgelost in het ETL-proces voordat de data betrouwbaar gebruikt kan worden.
Voorbeeld 5: Identificeren van verrijkingsmogelijkheden
Scenario: U wilt attributen met lage cardinaliteit identificeren die kunnen profiteren van verrijking met extra beschrijvende informatie om analyses gebruiksvriendelijker te maken.
Instellingen:
- Titel: "Analyse verrijkingskansen"
- Beschrijving: "Identificatie kandidaten voor lookup-verrijking"
Output:
| Attribuutnaam | Type | Unieke waarden | Null % | Voorbeeldwaarden | Verrijkingspotentieel |
|---|---|---|---|---|---|
| ProductCode | Event | 45 | 0% | P001, P002, P003 | HOOG - Productnamen toevoegen |
| StatusCode | Case | 8 | 0% | ST-01, ST-02, ST-03 | HOOG - Statusbeschrijvingen toevoegen |
| RegionCode | Case | 4 | 0% | R1, R2, R3, R4 | HOOG - Regio-namen toevoegen |
| CurrencyCode | Case | 3 | 0% | USD, EUR, GBP | MIDDEN - Algemeen bekend |
| EmployeeID | Event | 234 | 2,1% | E12345, E67890 | HOOG - Werknemersnamen toevoegen |
Inzichten: Diverse attributen bevatten codes die baat hebben bij verrijking. Met slechts 45 unieke productcodes zou het toevoegen van productnamen analyses veel leesbaarder maken voor zakelijke gebruikers. De 8 statuscodes dienen verrijkt te worden met heldere omschrijvingen om te voorkomen dat gebruikers codeboeken hoeven te raadplegen. EmployeeID’s moeten verrijkt worden met namen, met inachtneming van privacyregels. Deze verrijkingen verbeteren de gebruikerservaring aanzienlijk zonder veel extra data te genereren.
Voorbeeld 6: Monitoren van trends in datavolledigheid
Scenario: U voert regelmatig data-extracties uit en wilt monitoren of de datavolledigheid verbetert of verslechtert over tijd door huidige extractiestatistieken te vergelijken met eerdere basislijnen.
Instellingen:
- Titel: "Monitoring datavolledigheid - februari 2025"
- Beschrijving: "Vergelijking met basislijn januari"
Output:
| Attribuutnaam | Type | Jan Null % | Feb Null % | Verandering | Trend |
|---|---|---|---|---|---|
| ApproverName | Event | 5,2% | 3,1% | -2,1% | VERBETERD |
| Department | Case | 8,4% | 8,9% | +0,5% | VERSLECHTERD |
| CostCenter | Event | 12,3% | 18,7% | +6,4% | VERSLECHTERD |
| Priority | Case | 1,2% | 1,1% | -0,1% | STABIEL |
| DueDate | Case | 15,6% | 9,2% | -6,4% | VERBETERD |
Inzichten: De vergelijking toont gemengde datakwaliteittrends. Het percentage null-waarden in ApproverName daalde van 5,2% naar 3,1%, wat duidt op verbeterde gegevensvastlegging bij de goedkeuringsfase – mogelijk door recente proceswijzigingen die expliciete goedkeurderselectie vereisen. Daarentegen steeg het percentage nulls in CostCenter aanzienlijk van 12,3% naar 18,7%, wat wijst op verslechterde toewijzing die directe aandacht vereist. De sterke verbetering in DueDate-volledigheid (van 15,6% naar 9,2%) weerspiegelt succesvolle implementatie van verplichte ingeving van de vervaldatum. Deze trends sturen lopende datakwaliteitsinitiatieven aan.
Output
De Kolominfo-calculator toont een uitgebreide tabel met gedetailleerde statistieken voor elk attribuut in uw event log. De tabel bevat zowel gevalsniveau- als eventniveau-attributen met de volgende informatie:
Attribuutnaam: De naam van het attribuut zoals die in de dataset voorkomt.
Attribuuttype: Geeft aan of dit een Case-niveau attribuut is (één waarde per case) of Event-niveau attribuut (één waarde per event/activiteit).
Datatype: Het gedetecteerde datatype van het attribuut (String, Integer, Decimal, DateTime, Boolean, enz.).
Totaalwaarden: Het totale aantal waarden dat voor dit attribuut aanwezig is (totaal aantal cases voor case-attributen, totaal aantal events voor event-attributen).
Aantal nulls: Het aantal null- of ontbrekende waarden voor dit attribuut.
Percentage nulls: Het percentage waarden dat null of ontbrekend is, berekend als (Aantal nulls / Totaalwaarden) * 100.
Unieke waarden: Het aantal onderscheidende unieke waarden in dit attribuut.
Cardinaliteitsratio: De verhouding van unieke waarden tot totaalwaarden, uitgedrukt als percentage. Een hoge cardinaliteit (dicht bij 100%) duidt meestal op unieke waarden; lage cardinaliteit wijst op veel herhaalde waarden.
Voorbeeldwaarden: Een representatieve steekproef van daadwerkelijke waarden van het attribuut, meestal 3-5 verschillende waarden om het dataformaat en de inhoud te illustreren.
Min Waarde: Voor numerieke en datum-attributen, de minimum (kleinste/vroegste) waarde.
Max Waarde: Voor numerieke en datum-attributen, de maximum (grootste/laatste) waarde.
Interactieve Functionaliteiten
Sorteren en filteren: Klik op kolomkoppen om op een gewenste metriek te sorteren. Gebruik het zoekvak om te filteren op specifieke attributen van belang.
Resultaten exporteren: Exporteer de complete attributenanalyse naar Excel of CSV voor documentatie, vergelijking of delen met technische teams.
Diepgaande analyse: Klik op een attribuutnaam om extra gedetailleerde statistieken te zien, inclusief waardefrequentieverdeling en uitgebreidere voorbeeldwaarden.
Prestatie-overwegingen
- Grote datasets: Voor datasets met miljoenen events of honderden attributen kan deze calculator enkele minuten nodig hebben voor analyse
- Resourcegebruik: De calculator voert uitgebreide scans uit over alle attribuutwaarden, wat veel geheugen en CPU vraagt
- Beste praktijken: Voer deze calculator uit buiten piekuren bij zeer grote datasets, of gebruik filters om datasetgrootte voor uitvoering te beperken
Administratieve Toegang
Deze calculator is beperkt tot gebruikers met de Administrator-rol. Reguliere gebruikers die overzichtsinformatie over datasets nodig hebben, dienen de Datasetinformatie-calculator te gebruiken, die kernstatistieken levert zonder de prestatiebelasting van uitgebreide kolomanalyse.
Deze documentatie maakt deel uit van het mindzieStudio process mining platform.