Dubbele Gebeurtenissen Verwijderen

Overzicht

De verrijking Dubbele Gebeurtenissen Verwijderen is een krachtig hulpmiddel voor datakwaliteit dat automatisch dubbele gebeurtenissen in je procescases identificeert en verwijdert. Wanneer dezelfde gebeurtenis meerdere keren binnen een case voorkomt met identieke attribuutwaarden (activiteitnaam, tijdstempel en alle andere gebeurtenisattributen), verwijdert deze verrijking de overbodige kopieën en behoudt alleen de eerste keer dat de gebeurtenis voorkomt.

Deze verrijking is vooral waardevol bij het werken met gegevens uit meerdere bronsystemen, data-integratieprocessen of legacy-systemen waar per ongeluk dubbele gebeurtenissen kunnen ontstaan. Door deze duplicaten te verwijderen, zorg je ervoor dat je procesanalyse de daadwerkelijke procesuitvoering weerspiegelt in plaats van datakwaliteitsproblemen, wat leidt tot nauwkeurige cyclustijden, activiteitsfrequenties en processtroomvisualisaties.

In tegenstelling tot andere activiteitsgerelateerde verrijkingen die gebeurtenissen wijzigen of categoriseren, verwijdert deze verrijking de dubbele gebeurtenisrecords fysiek uit je logboek, waardoor je dataset permanent wordt opgeschoond. De verrijking vergelijkt alle gebeurtenisattributen van de originele databron (niet berekende of afgeleide attributen) om te bepalen of twee gebeurtenissen echt identiek zijn.

Veelvoorkomende Toepassingen

  • Opschonen van datasets geïmporteerd uit meerdere bronsystemen die dubbele gebeurtenisrecords kunnen bevatten
  • Verwijderen van overbodige gebeurtenissen die ontstaan door data-integratieprocessen of ETL-pijplijnen
  • Elimineren van dubbele activiteitsregistraties veroorzaakt door systeemfouten of gegevenssynchronisatieproblemen
  • Verbeteren van datakwaliteit voordat proces mining analyses worden uitgevoerd voor nauwkeurige meetwaarden
  • Voorbereiden van datasets voor conformance checking door ruis van dubbele gebeurtenissen te verwijderen
  • Opschonen van historische data waarin door legacy-systemen na verloop van tijd duplicaten zijn ontstaan
  • Zorgen voor accurate activiteitsfrequenties en cyclustijdmetingen door dubbele gebeurtenissen te elimineren

Instellingen

Deze verrijking vereist geen configuratie-instellingen. Het is een één-klikbewerking die automatisch alle gebeurtenissen binnen elke case scant en eventuele duplicaten verwijdert.

De verrijking gebruikt een intelligent vergelijkingsalgoritme dat:

  • Alle oorspronkelijke brongegevensattributen voor elke gebeurtenis vergelijkt (activiteitnaam, tijdstempel, case-ID en eventuele andere gebeurtenisniveau-attributen)
  • Berekenings- of afgeleide attributen toegevoegd door eerdere verrijkingen negeert
  • De eerste gebeurtenis van elke unieke gebeurtenis behoudt
  • Vervolgens duplicaatgebeurtenissen verwijdert die alle attribuutwaarden exact matchen

Zo gebruik je deze verrijking:

  1. Navigeer naar 'Log Enrichment' vanuit een willekeurige analyse door op 'Log Enrichment' rechtsboven te klikken
  2. Klik op 'Add New' om een nieuwe verrijking te maken
  3. Selecteer 'Remove Duplicate Events' in de sectie Activities
  4. Klik op 'Create' - verdere configuratie is niet nodig
  5. Klik op 'Calculate Enrichment' om je dataset te verwerken

Voorbeelden

Voorbeeld 1: Multi-Systeem Orderverwerking

Scenario: Een e-commercebedrijf importeert ordergegevens uit drie verschillende systemen: de webwinkel, het magazijnbeheersysteem en het boekhoudsysteem. Door data-integratieproblemen verschijnen sommige ordergebeurtenissen meerdere keren wanneer dezelfde order vanuit meerdere systemen met identieke tijdstempels en waarden is vastgelegd.

Instellingen:

  • Geen configuratie vereist - de verrijking detecteert en verwijdert automatisch alle dubbele gebeurtenissen

Resultaat: Voor de verrijking kan een voorbeeldcase deze gebeurtenissen bevatten:

  • 2024-03-15 09:00:00 - Order ontvangen - Order#12345 - Klant: ABC Corp - Bedrag: $1,500
  • 2024-03-15 09:00:00 - Order ontvangen - Order#12345 - Klant: ABC Corp - Bedrag: $1,500 (duplicaat)
  • 2024-03-15 10:30:00 - Betaling verwerkt - Order#12345 - Bedrag: $1,500
  • 2024-03-15 10:30:00 - Betaling verwerkt - Order#12345 - Bedrag: $1,500 (duplicaat)
  • 2024-03-15 14:00:00 - Order verzonden - Order#12345

Na de verrijking zijn de dubbele gebeurtenissen verwijderd:

  • 2024-03-15 09:00:00 - Order ontvangen - Order#12345 - Klant: ABC Corp - Bedrag: $1,500
  • 2024-03-15 10:30:00 - Betaling verwerkt - Order#12345 - Bedrag: $1,500
  • 2024-03-15 14:00:00 - Order verzonden - Order#12345

Inzichten: Het bedrijf kan nu de procesprestaties nauwkeurig meten. De cyclustijd van order tot verzending wordt correct berekend als 5 uur in plaats van dat deze wordt vertekend door dubbele gebeurtenisrecords. Activiteitsfrequenties geven nu de daadwerkelijke procesuitvoering weer in plaats van datakwaliteitsproblemen.

Voorbeeld 2: Zorgtraject Patiënt

Scenario: Een ziekenhuis verzamelt patiëntgegevens uit hun EPD-systeem, radiologiesysteem en apotheeksysteem. Tijdens migratie vanuit een legacy-systeem werden sommige patiëntgebeurtenissen gedupliceerd, waardoor de patiënttrajecttijdlijnen dezelfde procedure meerdere keren tonen en de activiteitsaantallen worden opgeblazen.

Instellingen:

  • Geen configuratie vereist

Resultaat: Een patiëntcase voor de verrijking:

  • 2024-06-20 08:00:00 - Patiëntopname - Patiënt-ID: P9876 - Afdeling: Cardiologie
  • 2024-06-20 09:15:00 - Bloedonderzoek besteld - Testtype: CBC
  • 2024-06-20 09:15:00 - Bloedonderzoek besteld - Testtype: CBC (duplicaat van laboratoriumsysteem)
  • 2024-06-20 11:30:00 - ECG uitgevoerd - Resultaat: Normaal
  • 2024-06-20 11:30:00 - ECG uitgevoerd - Resultaat: Normaal (duplicaat van radiologiesysteem)
  • 2024-06-20 15:00:00 - Medicatie voorgeschreven - Medicijn: Aspirine
  • 2024-06-20 15:00:00 - Medicatie voorgeschreven - Medicijn: Aspirine (duplicaat van apotheeksysteem)
  • 2024-06-21 10:00:00 - Patiënt ontslagen

Na verrijking zijn de duplicaten verwijderd:

  • 2024-06-20 08:00:00 - Patiëntopname - Patiënt-ID: P9876 - Afdeling: Cardiologie
  • 2024-06-20 09:15:00 - Bloedonderzoek besteld - Testtype: CBC
  • 2024-06-20 11:30:00 - ECG uitgevoerd - Resultaat: Normaal
  • 2024-06-20 15:00:00 - Medicatie voorgeschreven - Medicijn: Aspirine
  • 2024-06-21 10:00:00 - Patiënt ontslagen

Inzichten: Het ziekenhuis kan nu patiënttrajecten nauwkeurig volgen en echte wachttijden tussen procedures berekenen. Resource-gebruikstatistieken weerspiegelen daadwerkelijke activiteitvolumes in plaats van opgeblazen aantallen door dubbele records.

Voorbeeld 3: Productielijn Fabricage

Scenario: Een fabriek gebruikt SCADA-systemen die soms door netwerk-synchronisatieproblemen dezelfde machinehandeling dubbel registreren. Deze dubbele gebeurtenissen vertekenen productieanalyses en doen activiteiten langer lijken dan ze zijn.

Instellingen:

  • Geen configuratie vereist

Resultaat: Productiecase voor verrijking:

  • 2024-05-10 06:00:00 - Materiaal geladen - Batch: B1234 - Machine: Press-01
  • 2024-05-10 06:05:00 - Persbediening gestart - Batch: B1234
  • 2024-05-10 06:05:00 - Persbediening gestart - Batch: B1234 (netwerkduplicaat)
  • 2024-05-10 06:45:00 - Persbediening voltooid - Batch: B1234
  • 2024-05-10 06:45:00 - Persbediening voltooid - Batch: B1234 (netwerkduplicaat)
  • 2024-05-10 07:00:00 - Kwaliteitsinspectie - Resultaat: Geslaagd
  • 2024-05-10 07:15:00 - Materiaal uitgeladen - Batch: B1234

Na verrijking:

  • 2024-05-10 06:00:00 - Materiaal geladen - Batch: B1234 - Machine: Press-01
  • 2024-05-10 06:05:00 - Persbediening gestart - Batch: B1234
  • 2024-05-10 06:45:00 - Persbediening voltooid - Batch: B1234
  • 2024-05-10 07:00:00 - Kwaliteitsinspectie - Resultaat: Geslaagd
  • 2024-05-10 07:15:00 - Materiaal uitgeladen - Batch: B1234

Inzichten: Cyclustijdberekeningen voor productie zijn nu nauwkeurig. De fabriek kan betrouwbaar het machinegebruik meten en echte knelpunten ontdekken zonder ruis van dubbele gebeurtenisrecords.

Voorbeeld 4: Financiële Transactie Verwerking

Scenario: Het transactieverwerkingssysteem van een bank maakt soms dubbele logboekvermeldingen wanneer transacties zowel via het realtime systeem als het batch-afstemmingssysteem worden verwerkt. Deze duplicaten moeten worden verwijderd voordat transactiepaden en compliance worden geanalyseerd.

Instellingen:

  • Geen configuratie vereist

Resultaat: Transactiecase voor verrijking:

  • 2024-07-15 14:30:00 - Transactie gestart - Bedrag: $5,000 - Rekening: 12345
  • 2024-07-15 14:30:05 - Fraudecontrole uitgevoerd - Risicoscore: Laag
  • 2024-07-15 14:30:05 - Fraudecontrole uitgevoerd - Risicoscore: Laag (duplicaat van afstemming)
  • 2024-07-15 14:30:10 - Autorisatie goedgekeurd - Auth Code: A789
  • 2024-07-15 14:30:10 - Autorisatie goedgekeurd - Auth Code: A789 (duplicaat van afstemming)
  • 2024-07-15 14:30:15 - Transactie voltooid - Status: Succes

Na verrijking:

  • 2024-07-15 14:30:00 - Transactie gestart - Bedrag: $5,000 - Rekening: 12345
  • 2024-07-15 14:30:05 - Fraudecontrole uitgevoerd - Risicoscore: Laag
  • 2024-07-15 14:30:10 - Autorisatie goedgekeurd - Auth Code: A789
  • 2024-07-15 14:30:15 - Transactie voltooid - Status: Succes

Inzichten: De bank kan nu transactieverwerkingstijden nauwkeurig meten en echte vertragingen in hun systeem identificeren. Compliance-rapportages tonen daadwerkelijke activiteitenaantallen in plaats van opgeblazen cijfers door dubbele records.

Voorbeeld 5: IT Servicemanagement

Scenario: Een IT servicedesk importeert ticketgegevens uit meerdere monitoringsystemen. Wanneer incidenten worden geëscaleerd tussen systemen, verschijnen dezelfde statuswijzigingen soms meerdere keren, waardoor incidentoplossingstijden langer lijken dan ze werkelijk zijn.

Instellingen:

  • Geen configuratie vereist

Resultaat: Incidentcase voor verrijking:

  • 2024-08-22 10:00:00 - Incident aangemaakt - Ticket: INC0012345 - Prioriteit: Hoog
  • 2024-08-22 10:15:00 - Toegewezen aan L1 Support - Agent: John Smith
  • 2024-08-22 10:30:00 - Geëscaleerd naar L2 - Reden: Complex Probleem
  • 2024-08-22 10:30:00 - Geëscaleerd naar L2 - Reden: Complex Probleem (duplicaat van escalatiesysteem)
  • 2024-08-22 11:45:00 - Probleem opgelost - Oplossing: Netwerkconfiguratie Fix
  • 2024-08-22 11:45:00 - Probleem opgelost - Oplossing: Netwerkconfiguratie Fix (duplicaat van escalatiesysteem)
  • 2024-08-22 12:00:00 - Incident gesloten - Tevredenheid: 5/5

Na verrijking:

  • 2024-08-22 10:00:00 - Incident aangemaakt - Ticket: INC0012345 - Prioriteit: Hoog
  • 2024-08-22 10:15:00 - Toegewezen aan L1 Support - Agent: John Smith
  • 2024-08-22 10:30:00 - Geëscaleerd naar L2 - Reden: Complex Probleem
  • 2024-08-22 11:45:00 - Probleem opgelost - Oplossing: Netwerkconfiguratie Fix
  • 2024-08-22 12:00:00 - Incident gesloten - Tevredenheid: 5/5

Inzichten: De IT-afdeling kan nu nauwkeurig de gemiddelde oplostijd (MTTR) meten en echte prestatieknelpunten in hun incidentmanagementproces identificeren zonder dat dubbele gebeurtenissen de tijdslijnanalyse vertekenen.

Resultaat

De verrijking Dubbele Gebeurtenissen Verwijderen wijzigt je event log door dubbele gebeurtenisrecords fysiek te verwijderen. In tegenstelling tot verrijkingen die nieuwe attributen toevoegen aan je dataset, vermindert deze verrijking het totale aantal gebeurtenissen in je log.

Wat Wordt Verwijderd:

  • Elke gebeurtenis die identieke waarden heeft voor alle oorspronkelijke brongegevensattributen (activiteitnaam, tijdstempel, case-ID en alle andere gebeurtenisattributen) vergeleken met een eerdere gebeurtenis in dezelfde case
  • Alleen de duplicaat voorvallen worden verwijderd; het eerste voorval van elke unieke gebeurtenis wordt altijd behouden

Wat Blijft:

  • Het eerste voorval van elke unieke gebeurtenis
  • Gebeurtenissen die in één of meer attribuutwaarden verschillen (ook als tijdstempels of activiteitnamen overeenkomen)
  • Alle berekende attributen en verrijkingsresultaten van eerdere verrijkingen

Impact op Je Dataset:

  • Aantal Gebeurtenissen: Het totale aantal gebeurtenissen in je log neemt af afhankelijk van hoeveel duplicaten zijn gevonden
  • Aantal Cases: Het aantal cases blijft ongewijzigd
  • Activiteitsstatistieken: Activiteitsfrequentietellingen worden nauwkeuriger en weerspiegelen daadwerkelijke procesuitvoering
  • Cyclustijden: Duurmetingen tussen activiteiten worden preciezer zonder duplicaten die nul-duur intervallen creëren
  • Processtromen: Proceskaarten en variantenanalyse tonen schonere, accuratere processtromen

Belangrijke Notities:

  • Deze verrijking verwijdert duplicaatgebeurtenissen permanent uit je werkdataset. Als je de originele data met duplicaten wilt behouden, maak dan een backup of gebruik een dataset snapshot voordat je deze verrijking toepast.
  • De verrijking vergelijkt alleen kolommen van de originele brondata, niet berekende of afgeleide attributen toegevoegd door eerdere verrijkingen
  • Gebeurtenissen worden alleen als duplicaten beschouwd als ALLE oorspronkelijke attribuutwaarden exact overeenkomen
  • De verrijking verwerkt gebeurtenissen in chronologische volgorde en behoudt altijd het eerste voorval

Gebruik van de Opgekuiste Data: Na het uitvoeren van deze verrijking kun je:

  • Nauwkeurige procesontdekking uitvoeren zonder ruis van dubbele gebeurtenissen
  • Betrouwbare prestatiewaardes en KPI's berekenen
  • Conformance checking doen op schone data
  • Nauwkeurige procesvisualisaties en dashboards maken
  • Combineren met andere verrijkingen terwijl je weet dat je basisdata schoon is

Zie ook

Gerelateerde datakwaliteit verrijkingen:

  • Remove Repeated Activities - Verwijdert opeenvolgende voorvallen van dezelfde activiteit (anders dan deze verrijking die exacte dubbele gebeurtenissen verwijdert)
  • Sort Log on Start Time - Zorgt ervoor dat gebeurtenissen in juiste chronologische volgorde staan vóór analyse
  • Hide Attribute - Verwijdert onnodige attributen uit je analyseweergave
  • Filter Process Log - Verwijdert specifieke cases of gebeurtenissen op basis van criteria
  • Anonymize - Verwijdert of verbergt gevoelige informatie in gebeurtenisattributen

Voor meer informatie over beste praktijken voor datakwaliteit:

  • Data Quality Best Practices - Richtlijnen voor het voorbereiden van schone procesdata
  • Log Enrichment Overview - Inzicht in de verrijkingsworkflow in mindzieStudio

Deze documentatie maakt deel uit van het mindzie Studio process mining platform.