Waarde Frequentie

Overzicht

De filter Waarde Frequentie selecteert cases op basis van hoe vaak hun attribuutwaarden voorkomen in de gehele dataset. Deze case-niveau filter groepeert cases op hun waarden in een opgegeven attribuut, telt hoe vaak elke waarde voorkomt, en sluit cases in of uit op basis van of de frequentie voldoet aan de door jou opgegeven drempel. Je kunt drempels instellen met absolute aantallen (bijv. "minimaal 5 voorkomens") of percentages (bijv. "in minstens 20% van de cases").

Deze filter is vooral nuttig voor het identificeren van veelvoorkomende patronen, het detecteren van zeldzame uitschieters, het richten op categorieën met een hoog volume, of het filteren van onregelmatige edge-cases die analyse-resultaten kunnen vertekenen.

Veelvoorkomende Toepassingen

Focus op Grote Categorieën: Houd alleen cases waar attribuutwaarden vaak genoeg voorkomen om statistisch significant te zijn, en elimineer zeldzame uitschieters.
Detectie van Uitschieters: Identificeer ongewone of zeldzame cases door te filteren op attribuutwaarden die weinig voorkomen in de dataset.
Analyse van Datakwaliteit: Vind mogelijk problematische data door waarden te identificeren die exact één keer voorkomen, wat kan wijzen op invoerfouten of dubbele records.
Analyse van Hoog Volume: Richt analyse op de meest voorkomende regio's, producten of klantsegmenten door te filteren op veelvoorkomende waarden.
Vermindering van Ruis: Verwijder edge-cases en varianten met lage frequentie die complexiteit toevoegen zonder waardevolle inzichten.
Patroonherkenning: Ontdek systematische problemen door waarden te identificeren die met specifieke frequenties voorkomen (bijv. exact twee keer, wat systematische duplicatie kan suggereren).

Instellingen

Kolomnaam: Selecteer het attribuut om te analyseren op waarde frequentie. De filter ondersteunt gehele getallen en tekstattributen. Verborgen kolommen en case-ID kolommen zijn niet beschikbaar.

Vergelijkingsmethode: Kies hoe de frequentie wordt vergeleken met je drempel:

Gelijk aan: Houd cases waar waarden exact het opgegeven aantal keren voorkomen
Groter dan: Houd cases waar waarden vaker voorkomen dan de drempel
Groter dan of gelijk aan: Houd cases waar waarden minstens het opgegeven aantal keren voorkomen
Minder dan: Houd cases waar waarden minder vaak voorkomen dan de drempel
Minder dan of gelijk aan: Houd cases waar waarden maximaal zo vaak voorkomen als de drempel
Niet gelijk aan: Houd cases waar waarden niet exact het opgegeven aantal keren voorkomen

Drempeltype: Geef aan of de drempel staat voor:

Aantal: Een absoluut aantal voorkomens
Percentage: Een decimaal percentage van het totaal aantal cases (0.0 tot 1.0)

Vergelijk Drempel: Voer de numerieke drempelwaarde in. Voor Aantal is dit het aantal voorkomens. Voor Percentage voer je een decimaal getal in (bijv. 0.4 voor 40%).

Voorbeelden

Voorbeeld 1: Focus op Belangrijke Regio's

Scenario: Je procesdata bevat cases uit 15 verschillende regio's, maar je wilt je analyse richten op regio's die een significant volume vertegenwoordigen. Je besluit alleen regio's te behouden die in minstens 10% van alle cases voorkomen.

Instellingen:

Kolomnaam: Region
Vergelijkingsmethode: Groter dan of gelijk aan
Drempeltype: Percentage
Vergelijk Drempel: 0.1

Resultaat: De filter behoudt alleen cases van regio's die in 10% of meer van de dataset voorkomen. Bij 1.000 cases betekent dit dat regio's met minstens 100 cases worden opgenomen, terwijl kleinere regio's worden gefilterd.

Inzichten: Dit richt je analyse op de belangrijkste regio's en elimineert ruis van kleine regionale kantoren met minimale activiteit, waardoor patronen en trends gemakkelijker te herkennen zijn.

Voorbeeld 2: Identificeer Unieke Cases

Scenario: Je vermoedt dat sommige cases unieke attribuutwaarden hebben die kunnen wijzen op datakwaliteitsproblemen of speciale behandeling. Je wilt alle cases vinden waar de waarde precies één keer voorkomt in de hele dataset.

Instellingen:

Kolomnaam: Customer ID
Vergelijkingsmethode: Gelijk aan
Drempeltype: Aantal
Vergelijk Drempel: 1.0

Resultaat: De filter retourneert alleen cases waar de Customer ID exact één keer voorkomt in alle cases.

Inzichten: Deze unieke klanten kunnen zijn:

Klanten die maar één keer terugkwamen
Mogelijke invoerfouten met verkeerd gespelde klantnamen
Testcases die verwijderd moeten worden
VIP-klanten die speciale aandacht nodig hebben

Voorbeeld 3: Vind Producten met Hoge Frequentie

Scenario: Je wilt alleen je best verkopende producten analyseren die minstens 50 keer voorkomen om succesvolle productpatronen te begrijpen.

Instellingen:

Kolomnaam: Product Name
Vergelijkingsmethode: Groter dan of gelijk aan
Drempeltype: Aantal
Vergelijk Drempel: 50.0

Resultaat: De filter behoudt cases voor producten die minstens 50 keer in de dataset zijn besteld.

Inzichten: Door te focussen op producten met hoog volume kun je patronen in succesvolle verwerking, knelpunten, en optimalisatiemogelijkheden identificeren die de grootste impact hebben.

Voorbeeld 4: Sluit Zeldzame Procesvarianten Uit

Scenario: Je proces bevat veel zeldzame varianten die de proceskaart rommelig maken. Je wilt cases verwijderen waar de startactiviteit ongebruikelijk is (komt voor in minder dan 5% van de cases).

Instellingen:

Kolomnaam: _calcStartActivity
Vergelijkingsmethode: Minder dan
Drempeltype: Percentage
Vergelijk Drempel: 0.05

Resultaat: De filter behoudt alleen cases waar de startactiviteit voorkomt in minder dan 5% van alle cases, waarmee zeldzame varianten worden geselecteerd.

Inzichten: Dit helpt bij het identificeren van ongewone startpunten die kunnen wijzen op uitzonderingen, fouten of niet-standaard workflows die nader onderzoek vereisen.

Voorbeeld 5: Verwijder Dubbele Detectie

Scenario: Je wilt mogelijk gedupliceerde cases identificeren door attribuutwaarden te vinden die exact twee keer voorkomen, wat kan wijzen op systematische duplicatie.

Instellingen:

Kolomnaam: Order Number
Vergelijkingsmethode: Gelijk aan
Drempeltype: Aantal
Vergelijk Drempel: 2.0

Resultaat: De filter retourneert cases waar het Order Number exact twee keer voorkomt in de dataset.

Inzichten: Deze paar gevallen kunnen zijn:

Systeemfouten die dubbele orderaanmaak veroorzaken
Gesplitste zendingen voor dezelfde order
Wijzigingen of revisies van orders
Problemen bij dataintegratie tussen meerdere systemen

Voorbeeld 6: Sluit Lage Frequentie Uitschieters Uit

Scenario: Je wilt je dataset opschonen door cases te verwijderen van categorieën die minder dan 2% van het totaalvolume vertegenwoordigen, omdat dit waarschijnlijk edge-cases zijn.

Instellingen:

Kolomnaam: Department
Vergelijkingsmethode: Groter dan of gelijk aan
Drempeltype: Percentage
Vergelijk Drempel: 0.02

Resultaat: De filter behoudt alleen cases van afdelingen die minstens 2% van alle cases afhandelen.

Inzichten: Dit creëert een schonere dataset gericht op de kernactiviteiten terwijl kleine afdelingen of testafdelingen worden gefilterd die mogelijk niet representatief zijn voor het typische procesgedrag.

Output

De filter retourneert een nieuwe dataset met alleen cases die voldoen aan de gespecificeerde frequentiecriteria voor het geselecteerde attribuut. Alle cases met dezelfde attribuutwaarde worden als één groep behandeld - ofwel wordt de hele groep opgenomen, ofwel wordt de hele groep uitgesloten, afhankelijk van hoeveel cases die waarde delen.

Bijvoorbeeld, als "Regio A" in 100 cases voorkomt en aan je drempel voldoet, worden alle 100 cases met "Regio A" opgenomen. De filter behoudt alle events en attributen voor de opgenomen cases.

Technische Notities

Filtertype: Case-niveau filter (verwijdert volledige cases op basis van waarde frequentie)
Groeperingslogica: Alle cases worden gegroepeerd op hun waarden in het opgegeven attribuut, en de frequentie van elke groep wordt vergeleken met de drempel
Null-afhandeling: Null-waarden worden als een aparte groep behandeld en geteld als elke andere waarde
Ondersteunde Datatypes: Geheel getal (Int32, Int64) en tekst (String) attributen
Drempelconversie: Bij gebruik van Percentage modus wordt het percentage automatisch omgezet naar een absoluut aantal door vermenigvuldiging met het totaal aantal cases
Validatie: De filter geeft suggesties voor vergelijkbare kolomnamen bij typefouten in de attribuutnaam

Deze documentatie is onderdeel van het mindzieStudio process mining platform.