Dubbele Gebeurtenissen Verwijderen
Overzicht
De verrijking Dubbele Gebeurtenissen Verwijderen is een krachtig hulpmiddel voor datakwaliteit dat automatisch dubbele gebeurtenissen in je procescases identificeert en verwijdert. Wanneer dezelfde gebeurtenis meerdere keren binnen een case voorkomt met identieke attribuutwaarden (activiteitnaam, tijdstempel en alle andere gebeurtenisattributen), verwijdert deze verrijking de overbodige kopieën en behoudt alleen de eerste keer dat de gebeurtenis voorkomt.
Deze verrijking is vooral waardevol bij het werken met gegevens uit meerdere bronsystemen, data-integratieprocessen of legacy-systemen waar per ongeluk dubbele gebeurtenissen kunnen ontstaan. Door deze duplicaten te verwijderen, zorg je ervoor dat je procesanalyse de daadwerkelijke procesuitvoering weerspiegelt in plaats van datakwaliteitsproblemen, wat leidt tot nauwkeurige cyclustijden, activiteitsfrequenties en processtroomvisualisaties.
In tegenstelling tot andere activiteitsgerelateerde verrijkingen die gebeurtenissen wijzigen of categoriseren, verwijdert deze verrijking de dubbele gebeurtenisrecords fysiek uit je logboek, waardoor je dataset permanent wordt opgeschoond. De verrijking vergelijkt alle gebeurtenisattributen van de originele databron (niet berekende of afgeleide attributen) om te bepalen of twee gebeurtenissen echt identiek zijn.
Veelvoorkomende Toepassingen
- Opschonen van datasets geïmporteerd uit meerdere bronsystemen die dubbele gebeurtenisrecords kunnen bevatten
- Verwijderen van overbodige gebeurtenissen die ontstaan door data-integratieprocessen of ETL-pijplijnen
- Elimineren van dubbele activiteitsregistraties veroorzaakt door systeemfouten of gegevenssynchronisatieproblemen
- Verbeteren van datakwaliteit voordat proces mining analyses worden uitgevoerd voor nauwkeurige meetwaarden
- Voorbereiden van datasets voor conformance checking door ruis van dubbele gebeurtenissen te verwijderen
- Opschonen van historische data waarin door legacy-systemen na verloop van tijd duplicaten zijn ontstaan
- Zorgen voor accurate activiteitsfrequenties en cyclustijdmetingen door dubbele gebeurtenissen te elimineren
Instellingen
Deze verrijking vereist geen configuratie-instellingen. Het is een één-klikbewerking die automatisch alle gebeurtenissen binnen elke case scant en eventuele duplicaten verwijdert.
De verrijking gebruikt een intelligent vergelijkingsalgoritme dat:
- Alle oorspronkelijke brongegevensattributen voor elke gebeurtenis vergelijkt (activiteitnaam, tijdstempel, case-ID en eventuele andere gebeurtenisniveau-attributen)
- Berekenings- of afgeleide attributen toegevoegd door eerdere verrijkingen negeert
- De eerste gebeurtenis van elke unieke gebeurtenis behoudt
- Vervolgens duplicaatgebeurtenissen verwijdert die alle attribuutwaarden exact matchen
Zo gebruik je deze verrijking:
- Navigeer naar 'Log Enrichment' vanuit een willekeurige analyse door op 'Log Enrichment' rechtsboven te klikken
- Klik op 'Add New' om een nieuwe verrijking te maken
- Selecteer 'Remove Duplicate Events' in de sectie Activities
- Klik op 'Create' - verdere configuratie is niet nodig
- Klik op 'Calculate Enrichment' om je dataset te verwerken
Voorbeelden
Voorbeeld 1: Multi-Systeem Orderverwerking
Scenario: Een e-commercebedrijf importeert ordergegevens uit drie verschillende systemen: de webwinkel, het magazijnbeheersysteem en het boekhoudsysteem. Door data-integratieproblemen verschijnen sommige ordergebeurtenissen meerdere keren wanneer dezelfde order vanuit meerdere systemen met identieke tijdstempels en waarden is vastgelegd.
Instellingen:
- Geen configuratie vereist - de verrijking detecteert en verwijdert automatisch alle dubbele gebeurtenissen
Resultaat: Voor de verrijking kan een voorbeeldcase deze gebeurtenissen bevatten:
- 2024-03-15 09:00:00 - Order ontvangen - Order#12345 - Klant: ABC Corp - Bedrag: $1,500
- 2024-03-15 09:00:00 - Order ontvangen - Order#12345 - Klant: ABC Corp - Bedrag: $1,500 (duplicaat)
- 2024-03-15 10:30:00 - Betaling verwerkt - Order#12345 - Bedrag: $1,500
- 2024-03-15 10:30:00 - Betaling verwerkt - Order#12345 - Bedrag: $1,500 (duplicaat)
- 2024-03-15 14:00:00 - Order verzonden - Order#12345
Na de verrijking zijn de dubbele gebeurtenissen verwijderd:
- 2024-03-15 09:00:00 - Order ontvangen - Order#12345 - Klant: ABC Corp - Bedrag: $1,500
- 2024-03-15 10:30:00 - Betaling verwerkt - Order#12345 - Bedrag: $1,500
- 2024-03-15 14:00:00 - Order verzonden - Order#12345
Inzichten: Het bedrijf kan nu de procesprestaties nauwkeurig meten. De cyclustijd van order tot verzending wordt correct berekend als 5 uur in plaats van dat deze wordt vertekend door dubbele gebeurtenisrecords. Activiteitsfrequenties geven nu de daadwerkelijke procesuitvoering weer in plaats van datakwaliteitsproblemen.
Voorbeeld 2: Zorgtraject Patiënt
Scenario: Een ziekenhuis verzamelt patiëntgegevens uit hun EPD-systeem, radiologiesysteem en apotheeksysteem. Tijdens migratie vanuit een legacy-systeem werden sommige patiëntgebeurtenissen gedupliceerd, waardoor de patiënttrajecttijdlijnen dezelfde procedure meerdere keren tonen en de activiteitsaantallen worden opgeblazen.
Instellingen:
- Geen configuratie vereist
Resultaat: Een patiëntcase voor de verrijking:
- 2024-06-20 08:00:00 - Patiëntopname - Patiënt-ID: P9876 - Afdeling: Cardiologie
- 2024-06-20 09:15:00 - Bloedonderzoek besteld - Testtype: CBC
- 2024-06-20 09:15:00 - Bloedonderzoek besteld - Testtype: CBC (duplicaat van laboratoriumsysteem)
- 2024-06-20 11:30:00 - ECG uitgevoerd - Resultaat: Normaal
- 2024-06-20 11:30:00 - ECG uitgevoerd - Resultaat: Normaal (duplicaat van radiologiesysteem)
- 2024-06-20 15:00:00 - Medicatie voorgeschreven - Medicijn: Aspirine
- 2024-06-20 15:00:00 - Medicatie voorgeschreven - Medicijn: Aspirine (duplicaat van apotheeksysteem)
- 2024-06-21 10:00:00 - Patiënt ontslagen
Na verrijking zijn de duplicaten verwijderd:
- 2024-06-20 08:00:00 - Patiëntopname - Patiënt-ID: P9876 - Afdeling: Cardiologie
- 2024-06-20 09:15:00 - Bloedonderzoek besteld - Testtype: CBC
- 2024-06-20 11:30:00 - ECG uitgevoerd - Resultaat: Normaal
- 2024-06-20 15:00:00 - Medicatie voorgeschreven - Medicijn: Aspirine
- 2024-06-21 10:00:00 - Patiënt ontslagen
Inzichten: Het ziekenhuis kan nu patiënttrajecten nauwkeurig volgen en echte wachttijden tussen procedures berekenen. Resource-gebruikstatistieken weerspiegelen daadwerkelijke activiteitvolumes in plaats van opgeblazen aantallen door dubbele records.
Voorbeeld 3: Productielijn Fabricage
Scenario: Een fabriek gebruikt SCADA-systemen die soms door netwerk-synchronisatieproblemen dezelfde machinehandeling dubbel registreren. Deze dubbele gebeurtenissen vertekenen productieanalyses en doen activiteiten langer lijken dan ze zijn.
Instellingen:
- Geen configuratie vereist
Resultaat: Productiecase voor verrijking:
- 2024-05-10 06:00:00 - Materiaal geladen - Batch: B1234 - Machine: Press-01
- 2024-05-10 06:05:00 - Persbediening gestart - Batch: B1234
- 2024-05-10 06:05:00 - Persbediening gestart - Batch: B1234 (netwerkduplicaat)
- 2024-05-10 06:45:00 - Persbediening voltooid - Batch: B1234
- 2024-05-10 06:45:00 - Persbediening voltooid - Batch: B1234 (netwerkduplicaat)
- 2024-05-10 07:00:00 - Kwaliteitsinspectie - Resultaat: Geslaagd
- 2024-05-10 07:15:00 - Materiaal uitgeladen - Batch: B1234
Na verrijking:
- 2024-05-10 06:00:00 - Materiaal geladen - Batch: B1234 - Machine: Press-01
- 2024-05-10 06:05:00 - Persbediening gestart - Batch: B1234
- 2024-05-10 06:45:00 - Persbediening voltooid - Batch: B1234
- 2024-05-10 07:00:00 - Kwaliteitsinspectie - Resultaat: Geslaagd
- 2024-05-10 07:15:00 - Materiaal uitgeladen - Batch: B1234
Inzichten: Cyclustijdberekeningen voor productie zijn nu nauwkeurig. De fabriek kan betrouwbaar het machinegebruik meten en echte knelpunten ontdekken zonder ruis van dubbele gebeurtenisrecords.
Voorbeeld 4: Financiële Transactie Verwerking
Scenario: Het transactieverwerkingssysteem van een bank maakt soms dubbele logboekvermeldingen wanneer transacties zowel via het realtime systeem als het batch-afstemmingssysteem worden verwerkt. Deze duplicaten moeten worden verwijderd voordat transactiepaden en compliance worden geanalyseerd.
Instellingen:
- Geen configuratie vereist
Resultaat: Transactiecase voor verrijking:
- 2024-07-15 14:30:00 - Transactie gestart - Bedrag: $5,000 - Rekening: 12345
- 2024-07-15 14:30:05 - Fraudecontrole uitgevoerd - Risicoscore: Laag
- 2024-07-15 14:30:05 - Fraudecontrole uitgevoerd - Risicoscore: Laag (duplicaat van afstemming)
- 2024-07-15 14:30:10 - Autorisatie goedgekeurd - Auth Code: A789
- 2024-07-15 14:30:10 - Autorisatie goedgekeurd - Auth Code: A789 (duplicaat van afstemming)
- 2024-07-15 14:30:15 - Transactie voltooid - Status: Succes
Na verrijking:
- 2024-07-15 14:30:00 - Transactie gestart - Bedrag: $5,000 - Rekening: 12345
- 2024-07-15 14:30:05 - Fraudecontrole uitgevoerd - Risicoscore: Laag
- 2024-07-15 14:30:10 - Autorisatie goedgekeurd - Auth Code: A789
- 2024-07-15 14:30:15 - Transactie voltooid - Status: Succes
Inzichten: De bank kan nu transactieverwerkingstijden nauwkeurig meten en echte vertragingen in hun systeem identificeren. Compliance-rapportages tonen daadwerkelijke activiteitenaantallen in plaats van opgeblazen cijfers door dubbele records.
Voorbeeld 5: IT Servicemanagement
Scenario: Een IT servicedesk importeert ticketgegevens uit meerdere monitoringsystemen. Wanneer incidenten worden geëscaleerd tussen systemen, verschijnen dezelfde statuswijzigingen soms meerdere keren, waardoor incidentoplossingstijden langer lijken dan ze werkelijk zijn.
Instellingen:
- Geen configuratie vereist
Resultaat: Incidentcase voor verrijking:
- 2024-08-22 10:00:00 - Incident aangemaakt - Ticket: INC0012345 - Prioriteit: Hoog
- 2024-08-22 10:15:00 - Toegewezen aan L1 Support - Agent: John Smith
- 2024-08-22 10:30:00 - Geëscaleerd naar L2 - Reden: Complex Probleem
- 2024-08-22 10:30:00 - Geëscaleerd naar L2 - Reden: Complex Probleem (duplicaat van escalatiesysteem)
- 2024-08-22 11:45:00 - Probleem opgelost - Oplossing: Netwerkconfiguratie Fix
- 2024-08-22 11:45:00 - Probleem opgelost - Oplossing: Netwerkconfiguratie Fix (duplicaat van escalatiesysteem)
- 2024-08-22 12:00:00 - Incident gesloten - Tevredenheid: 5/5
Na verrijking:
- 2024-08-22 10:00:00 - Incident aangemaakt - Ticket: INC0012345 - Prioriteit: Hoog
- 2024-08-22 10:15:00 - Toegewezen aan L1 Support - Agent: John Smith
- 2024-08-22 10:30:00 - Geëscaleerd naar L2 - Reden: Complex Probleem
- 2024-08-22 11:45:00 - Probleem opgelost - Oplossing: Netwerkconfiguratie Fix
- 2024-08-22 12:00:00 - Incident gesloten - Tevredenheid: 5/5
Inzichten: De IT-afdeling kan nu nauwkeurig de gemiddelde oplostijd (MTTR) meten en echte prestatieknelpunten in hun incidentmanagementproces identificeren zonder dat dubbele gebeurtenissen de tijdslijnanalyse vertekenen.
Resultaat
De verrijking Dubbele Gebeurtenissen Verwijderen wijzigt je event log door dubbele gebeurtenisrecords fysiek te verwijderen. In tegenstelling tot verrijkingen die nieuwe attributen toevoegen aan je dataset, vermindert deze verrijking het totale aantal gebeurtenissen in je log.
Wat Wordt Verwijderd:
- Elke gebeurtenis die identieke waarden heeft voor alle oorspronkelijke brongegevensattributen (activiteitnaam, tijdstempel, case-ID en alle andere gebeurtenisattributen) vergeleken met een eerdere gebeurtenis in dezelfde case
- Alleen de duplicaat voorvallen worden verwijderd; het eerste voorval van elke unieke gebeurtenis wordt altijd behouden
Wat Blijft:
- Het eerste voorval van elke unieke gebeurtenis
- Gebeurtenissen die in één of meer attribuutwaarden verschillen (ook als tijdstempels of activiteitnamen overeenkomen)
- Alle berekende attributen en verrijkingsresultaten van eerdere verrijkingen
Impact op Je Dataset:
- Aantal Gebeurtenissen: Het totale aantal gebeurtenissen in je log neemt af afhankelijk van hoeveel duplicaten zijn gevonden
- Aantal Cases: Het aantal cases blijft ongewijzigd
- Activiteitsstatistieken: Activiteitsfrequentietellingen worden nauwkeuriger en weerspiegelen daadwerkelijke procesuitvoering
- Cyclustijden: Duurmetingen tussen activiteiten worden preciezer zonder duplicaten die nul-duur intervallen creëren
- Processtromen: Proceskaarten en variantenanalyse tonen schonere, accuratere processtromen
Belangrijke Notities:
- Deze verrijking verwijdert duplicaatgebeurtenissen permanent uit je werkdataset. Als je de originele data met duplicaten wilt behouden, maak dan een backup of gebruik een dataset snapshot voordat je deze verrijking toepast.
- De verrijking vergelijkt alleen kolommen van de originele brondata, niet berekende of afgeleide attributen toegevoegd door eerdere verrijkingen
- Gebeurtenissen worden alleen als duplicaten beschouwd als ALLE oorspronkelijke attribuutwaarden exact overeenkomen
- De verrijking verwerkt gebeurtenissen in chronologische volgorde en behoudt altijd het eerste voorval
Gebruik van de Opgekuiste Data: Na het uitvoeren van deze verrijking kun je:
- Nauwkeurige procesontdekking uitvoeren zonder ruis van dubbele gebeurtenissen
- Betrouwbare prestatiewaardes en KPI's berekenen
- Conformance checking doen op schone data
- Nauwkeurige procesvisualisaties en dashboards maken
- Combineren met andere verrijkingen terwijl je weet dat je basisdata schoon is
Zie ook
Gerelateerde datakwaliteit verrijkingen:
- Remove Repeated Activities - Verwijdert opeenvolgende voorvallen van dezelfde activiteit (anders dan deze verrijking die exacte dubbele gebeurtenissen verwijdert)
- Sort Log on Start Time - Zorgt ervoor dat gebeurtenissen in juiste chronologische volgorde staan vóór analyse
- Hide Attribute - Verwijdert onnodige attributen uit je analyseweergave
- Filter Process Log - Verwijdert specifieke cases of gebeurtenissen op basis van criteria
- Anonymize - Verwijdert of verbergt gevoelige informatie in gebeurtenisattributen
Voor meer informatie over beste praktijken voor datakwaliteit:
- Data Quality Best Practices - Richtlijnen voor het voorbereiden van schone procesdata
- Log Enrichment Overview - Inzicht in de verrijkingsworkflow in mindzieStudio
Deze documentatie maakt deel uit van het mindzie Studio process mining platform.