Filter Proceslog

Overzicht

De Filter Proceslog verrijking is een krachtige operator voor dataclearing die permanent ongewenste cases en gebeurtenissen uit je procesdataset verwijdert op basis van gespecificeerde filtercriteria. In tegenstelling tot tijdelijke filtering die data alleen tijdens analyse verbergt, verwijdert deze verrijking de gefilterde data fysiek uit de log, waardoor een kleinere, meer gerichte dataset ontstaat. Deze permanente filtering is essentieel voor datakwaliteitsbeheer, naleving van privacyregels en prestatie-optimalisatie in procesminingprojecten.

Deze verrijking werkt op het meest fundamentele niveau van procesmining door de daadwerkelijke structuur van de eventlog aan te passen. Wanneer je filters toepast via deze verrijking, wordt elke case geëvalueerd aan de hand van jouw criteria en worden alle cases (en hun gekoppelde events) verwijderd die niet voldoen. Het resultaat is een gestroomlijnde dataset die alleen relevante procesinstanties bevat, waardoor alle daaropvolgende analyses sneller en nauwkeuriger verlopen. Dit is vooral waardevol bij grote datasets waar irrelevante data belangrijke patronen kan verhullen, of wanneer je specialistische weergaven van je proces voor verschillende belanghebbenden wilt creëren.

De Filter Proceslog verrijking is uniek door zijn permanente karakter – eenmaal uitgevoerd is de gefilterde data verwijderd uit de werkende dataset. Dit maakt het ideaal voor het aanmaken van productieklaar datasets, het verwijderen van testdata, het elimineren van uitschieters of het focussen op specifieke tijdsperioden of bedrijfssegmenten. De verrijking maakt gebruik van dezelfde krachtige filterengine die door mindzieStudio wordt ingezet, waarmee je meerdere filtervoorwaarden kunt combineren met complexe logica om precies te bepalen welke data behouden blijft.

Veelvoorkomende Toepassingen

  • Verwijderen van testcases en dummydata vóór productanalyse
  • Extractie van specifieke tijdsperioden voor vergelijkingen over periodes
  • Elimineren van incomplete cases die processtatistieken kunnen vervormen
  • Creëren van afdelings- of regiogebonden datasets uit bedrijfsbrede logs
  • Verwijderen van uitschieters en anomalieën die standaard procespatronen verstoren
  • Waarborgen van dataprivacy door gevoelige casecategorieën uit te filteren
  • Prestatieoptimalisatie door datasetgrootte te verkleinen voor complexe analyses

Instellingen

Filterlijst: De kernconfiguratie die bepaalt welke cases behouden blijven of verwijderd worden uit de proceslog. Je opent de filterconfiguratie via het drie-puntjesmenu, waar je meerdere filtervoorwaarden kunt toevoegen. Elke filter kan je richten op verschillende aspecten van je data – case-attributen, eventattributen, tijdstempels of activiteitsnamen. Filters kunnen gecombineerd worden met EN/OF-logica om geavanceerde selectiecriteria te creëren. De filterinterface biedt een visuele bouwer die helpt complexe filterlogica samen te stellen zonder te programmeren. Veelvoorkomende filtertypes zijn:

  • Attribuutfilters: gebaseerd op case- of eventattribuutwaarden
  • Tijdfilters: selectie van specifieke datumbereiken of tijdsperiodes
  • Activiteitsfilters: includeren of excluderen van cases met bepaalde activiteiten
  • Prestatiefilters: gebaseerd op duur, doorvoer of andere meetwaarden
  • Conformiteitsfilters: cases die voldoen aan of afwijken van procesregels

De filterlijst ondersteunt het opslaan en laden van filterconfiguraties, zodat je veelgebruikte filterpatronen in verschillende datasets of projecten kunt hergebruiken.

Voorbeelden

Voorbeeld 1: Testdata verwijderen uit productiedataset

Scenario: Een SAP-implementatie bevat testtransacties met specifieke voorvoegsels die verwijderd moeten worden voordat echte bedrijfsprocessen geanalyseerd worden. De testdata is aangemaakt tijdens systevalidatie en zou KPI’s vertekenen als ze in de analyse worden meegenomen.

Instellingen:

  • Filterlijst Configuratie:
    • Filter 1: Order_Number START NIET MET "TEST"
    • Filter 2: Customer_Name IS NIET GELIJK AAN "Dummy Customer"
    • Filter 3: Created_Date IS NA "2024-01-01"
    • Logica: Filter 1 EN Filter 2 EN Filter 3

Output: De verrijking verwijdert alle cases waarbij:

  • Ordernummers beginnen met "TEST" (bijv. "TEST_001", "TEST_PO_2024")
  • Klantnaam precies "Dummy Customer" is
  • Cases zijn aangemaakt vóór 1 januari 2024

Originele dataset: 150.000 cases met 2,3 miljoen events
Gefilterde dataset: 142.000 cases met 2,18 miljoen events
Verwijderd: 8.000 testcases en de bijbehorende 120.000 events

Inzichten: De opgeschoonde dataset vertegenwoordigt nu nauwkeurig de daadwerkelijke bedrijfsactiviteiten, wat de betrouwbaarheid van processtatistieken en conformiteitsanalyses verbetert. Prestatieberekeningen, doorlooptijden en bottleneckanalyses weerspiegelen nu echte operationele uitdagingen in plaats van kunstmatige testsituaties.

Voorbeeld 2: Extractie van hoge waarde inkooporders

Scenario: In een inkoopproces dat meerdere categorieën beslaat, wil het management zich uitsluitend richten op hoge-waarde inkooporders boven $50.000 om goedkeuringsstromen te optimaliseren en besparingsmogelijkheden te identificeren.

Instellingen:

  • Filterlijst Configuratie:
    • Filter 1: Total_Order_Value GROTER DAN 50000
    • Filter 2: Order_Status IS NIET GELIJK AAN "Cancelled"
    • Filter 3: Order_Type IS IN ["Standard PO", "Contract PO", "Planned PO"]
    • Logica: Filter 1 EN Filter 2 EN Filter 3

Output: Creëert een gerichte dataset die alleen bevat:

  • Inkooporders met een totaalwaarde boven $50.000
  • Actieve orders (geen geannuleerde)
  • Standaard zakelijke ordertypes (exclusief spoed- of eenmalige aankopen)

Voor filteren: 45.000 totale inkooporders
Na filteren: 3.200 hoge-waarde orders, goed voor 72% van totale besteding
Events teruggebracht van 890.000 naar 95.000

Inzichten: De gefilterde dataset toont dat hoge waarde orders andere goedkeuringspatronen hebben, langere doorlooptijden kennen en meer stakeholders betrekken. Deze gerichte weergave maakt gerichte procesoptimalisatie mogelijk voor orders met de grootste financiële impact.

Voorbeeld 3: Regiogebonden dataset creëren

Scenario: Een multinational moet aparte procesanalyses maken voor Europese operaties vanwege GDPR-naleving en regionale procesvariaties.

Instellingen:

  • Filterlijst Configuratie:
    • Filter 1: Region IS GELIJK AAN "Europe"
    • Filter 2: Country IS IN ["Germany", "France", "Italy", "Spain", "Netherlands", "Belgium"]
    • Filter 3: Process_Start_Date TUSSEN "2024-01-01" EN "2024-12-31"
    • Logica: (Filter 1 OF Filter 2) EN Filter 3

Output: Extraheert alle Europese cases voor kalenderjaar 2024:

  • Originele globale dataset: 500.000 cases verdeeld over 35 landen
  • Gefilterde Europese dataset: 185.000 cases uit 6 landen
  • Events teruggebracht van 8,5 miljoen naar 3,1 miljoen
  • Alle niet-Europese data permanent verwijderd uit werkdataset

Inzichten: De regiogebonden dataset maakt naleving van lokale datavereisten mogelijk, toont Europa-specifieke procespatronen en biedt een beheersbare datasetsize voor gedetailleerde regionale analyse en optimalisatie.

Voorbeeld 4: Focussen op voltooide zorgtrajecten

Scenario: Een ziekenhuis wil alleen volledig afgeronde patiëntbehandeltrajecten analyseren, met uitsluiting van lopende behandelingen en alleen-administratieve bezoeken, om behandelresultaten en resourcegebruik accuraat te meten.

Instellingen:

  • Filterlijst Configuratie:
    • Filter 1: Episode_Status IS GELIJK AAN "Completed"
    • Filter 2: Treatment_Type IS NIET GELIJK AAN "Administrative"
    • Filter 3: Has_Clinical_Outcome IS GELIJK AAN "Yes"
    • Filter 4: Duration_Days TUSSEN 1 EN 365
    • Logica: Filter 1 EN Filter 2 EN Filter 3 EN Filter 4

Output: Gefilterde dataset bevat alleen:

  • Voltooide behandeltrajecten met gedocumenteerde uitkomsten
  • Klinische behandelingen (geen administratieve bezoeken)
  • Realistische duur (1-365 dagen)

Originele dataset: 120.000 patiënttrajecten
Gefilterde dataset: 78.000 voltooide klinische trajecten
Verwijderd: 42.000 incomplete, administratieve of outlier cases

Inzichten: De opgeschoonde dataset levert accurate maatstaven voor behandelduur, resourcegebruik en klinische paden, zonder ruis van incomplete data, waardoor betrouwbare kwaliteitsmetingen en procesverbeteringen mogelijk zijn.

Voorbeeld 5: Uitschieters elimineren voor standaardprocesanalyse

Scenario: Een productiebedrijf wil hun standaardproductieproces analyseren door extreme uitschieters te verwijderen die storingen of uitzonderlijke omstandigheden vertegenwoordigen, met focus op de typische 95% van cases.

Instellingen:

  • Filterlijst Configuratie:
    • Filter 1: Cycle_Time_Hours TUSSEN 2 EN 48
    • Filter 2: Number_of_Rework_Loops MINDER DAN 3
    • Filter 3: Production_Status IS NIET IN ["Emergency", "Experimental", "Failed"]
    • Filter 4: Defect_Rate MINDER DAN 0.05
    • Logica: Filter 1 EN Filter 2 EN Filter 3 EN Filter 4

Output: Verwijdert uitschieters:

  • Cases met extreme cyclustijden (< 2 uur of > 48 uur)
  • Overmatige herbewerkingen (3+ cycli)
  • Niet-standaard productie-uitvoeringen
  • Hoge defectpercentages (> 5%)

Voor filtering: 25.000 productieruns met grote variatie
Na filtering: 23.750 standaard productieruns
Verwijderd: 1.250 uitschieter cases (5% van totaal)

Inzichten: De gefilterde dataset representeert normale bedrijfscondities, waardoor accurate baseline-metrics, realistische verbeterdoelen en herkenning van standaard procesvarianten versus uitzonderingssituaties mogelijk zijn.

Output

De Filter Proceslog verrijking levert een permanent aangepaste dataset met de volgende kenmerken:

Aangepaste Proceslog: De verrijking retourneert een nieuw SuperLog-object dat alleen de cases bevat die voldoen aan je filtercriteria. Alle gefilterde cases en gekoppelde events worden permanent uit de werkende dataset verwijderd. Dit is een onomkeerbare handeling binnen de huidige analysesessie.

Reductie Cases: Het aantal cases in je dataset zal afnemen op basis van de filtercriteria. Je kunt deze reductie volgen in de datasetstatistieken om te bevestigen dat het filteren het verwachte resultaat oplevert.

Impact op Eventaantal: Bij het verwijderen van cases worden alle events die bij die cases horen ook verwijderd. Dit kan het totale aantal events fors verminderen, vooral bij cases met veel events.

Behouden Datastructuur: Alle bestaande attributen, zowel op case- als eventniveau, blijven behouden bij de overgebleven cases. De verrijking verwijdert alleen hele cases; de structuur of inhoud van behouden cases wordt niet aangepast.

Prestatievoordelen: Het kleinere datasetformaat zorgt voor snellere uitvoering van alle daaropvolgende verrijkingen, filters en berekeningen. Dit is vooral merkbaar bij complexe procesminingoperaties.

Effecten op Latere Analyses: Alle analyses, visualisaties en exports zullen de gefilterde dataset reflecteren. Zorg dat je een kopie van de originele dataset bewaart als je de volledige data later nog wilt raadplegen.

Belangrijke Overwegingen

Permanente Wijziging: In tegenstelling tot visualisatiefilters die data tijdelijk verbergen, verwijdert deze verrijking data permanent uit de werkende dataset. Maak altijd een backup van je originele data voordat je deze verrijking toepast.

Volgorde van Uitvoering: Pas deze verrijking vroeg toe in je analyseworkflow wanneer je weet dat bepaalde data irrelevant is. Dit verbetert de prestaties van alle volgende stappen.

Filtervalidatie: Test je filters met de previewfunctionaliteit voordat je de verrijking uitvoert, om zeker te zijn dat je de gewenste data behoudt.

Kaskadeffecten: Het verwijderen van cases kan gevolgen hebben voor berekeningen die afhangen van de volledige dataset, zoals percentielberekeningen of relatieve prestatiestatistieken.


Deze documentatie maakt deel uit van het mindzie Studio procesminingplatform.