Dubbele Cases in Log

Overzicht

De Duplicate Cases in Log verrijking maakt fysieke kopieën van bestaande cases binnen je event log. Dit is een gespecialiseerde tool die alleen voor beheerders beschikbaar is en bedoeld is voor testdoeleinden, waarmee je snel je dataset kunt uitbreiden door cases te dupliceren met gewijzigde case-ID's. Elke gedupliceerde case behoudt alle originele events en attributen, maar krijgt een nieuwe unieke identifier om het te onderscheiden van de broncase.

Deze verrijking is vooral nuttig als je wilt testen hoe je process mining analyse, filters of dashboards presteren met grotere datasets, of als je synthetische data wilt creëren voor training en demonstratiedoeleinden.

Let op: Deze verrijking is alleen beschikbaar voor beheerders vanwege de aanzienlijke impact op datavolume en het beoogde gebruik voor test- en ontwikkelscenario's in plaats van productieanalyse.

Veelvoorkomende toepassingen

Kleine testdatasets uitbreiden om productie-achtige datavolumes te simuleren
Stress-test scenario's creëren voor prestatie-evaluatie van dashboards en calculators
Dubbele data genereren om filtergedrag te testen bij grotere aantallen cases
Demonstratiedatasets voorbereiden met voldoende volume voor trainingsdoeleinden
Systeem prestaties en reactietijden testen met verhoogde dataloads
Valideren dat verrijkingen en berekeningen grote datasets correct verwerken

Instellingen

Aantal Kopieën: Specificeer hoeveel kopieën van elke case gemaakt moeten worden. Wanneer je dit instelt op 5, wordt elke originele case 5 keer gedupliceerd, waarmee je het totale aantal cases effectief met 6 vermenigvuldigt (origineel plus 5 kopieën). De standaardwaarde is 1, wat je dataset verdubbelt.

Voorbeeld

Datasetuitbreiding voor prestatietests

Scenario: Je hebt een proceslog met 100 cases en moet testen hoe je dashboard presteert met 1.000 cases voordat je naar productie gaat.

Instellingen:

Aantal Kopieën: 9

Voor: | Case ID | Activiteit | Tijdstip | |---------|------------|----------| | PO-001 | Order aanmaken | 2024-01-15 09:00 | | PO-001 | Order goedkeuren | 2024-01-15 10:00 | | PO-002 | Order aanmaken | 2024-01-15 11:00 | | PO-002 | Order goedkeuren | 2024-01-15 12:00 |

Na (kopieën voor PO-001 getoond): | Case ID | Activiteit | Tijdstip | |---------|------------|----------| | PO-001 | Order aanmaken | 2024-01-15 09:00 | | PO-001 | Order goedkeuren | 2024-01-15 10:00 | | PO-001_2 | Order aanmaken | 2024-01-15 09:00 | | PO-001_2 | Order goedkeuren | 2024-01-15 10:00 | | PO-001_3 | Order aanmaken | 2024-01-15 09:00 | | ... | ... | ... | | PO-001_10 | Order aanmaken | 2024-01-15 09:00 | | PO-001_10 | Order goedkeuren | 2024-01-15 10:00 |

Resultaat: Je dataset met 100 cases bevat nu 1.000 cases, waardoor je prestatiekenmerken op schaal kunt testen.

Inzichten: Na duplicatie van cases kun je prestatieknelpunten in calculators identificeren en bepalen welke visualisaties geoptimaliseerd moeten worden voordat je met productiedata werkt.

Hoe het werkt

Case Iteratie: De verrijking doorloopt alle bestaande cases in je event log
Case Duplicatie: Voor elke originele case worden het opgegeven aantal kopieën gemaakt
ID Generatie: Elke kopie krijgt een unieke case-ID door "_n" toe te voegen aan de originele ID (waarbij n het kopie-nummer is, beginnend bij 2)
Event Kopiëren: Alle events van de originele case worden gedupliceerd naar de nieuwe case, met behoud van tijdstempels en alle eventattributen
Attribuutbehoud: Alle case-niveau attributen (behalve berekende kolommen) worden gekopieerd naar de nieuwe cases
Log Finalisatie: Het event log wordt afgerond met de uitgebreide case- en eventtabellen

Output

De verrijking wijzigt het event log door:

Nieuwe Cases: (NumberOfCopies * origineel aantal cases) extra cases aan te maken
Case ID's: Nieuwe cases hebben ID's in het formaat "OriginalCaseId_n", waarbij n de kopie-index is (2, 3, 4, enz.)
Events: Elke nieuwe case bevat exacte kopieën van alle events van de originele case
Attributen: Alle case- en eventattributen blijven behouden op gedupliceerde cases en events

Belangrijke opmerkingen:

Deze verrijking maakt geen nieuwe attributen aan
De originele cases blijven ongewijzigd
Berekende kolommen worden niet gekopieerd (ze worden opnieuw berekend op basis van de data)
Verborgen kolommen worden niet gekopieerd naar nieuwe events

Beste praktijk

Gebruik deze verrijking alleen in ontwikkel- of testomgevingen
Let op het datavolume – het dupliceren van grote datasets kan de verwerkingstijd aanzienlijk verlengen
Verwijder de verrijking of sla een aparte kopie van je notebook op na het testen
Houd rekening met de impact op berekende metrics die beïnvloed kunnen worden door dubbele datapatronen

Deze documentatie is onderdeel van het mindzie Studio process mining platform.