Supprimer les événements dupliqués
Vue d'ensemble
L'enrichissement Supprimer les événements dupliqués est un outil puissant de qualité des données qui identifie automatiquement et supprime les événements dupliqués dans vos cas de processus. Lorsque le même événement apparaît plusieurs fois dans un cas avec des valeurs d'attributs identiques (nom de l'activité, horodatage et tous les autres attributs d'événement), cet enrichissement élimine les copies redondantes en ne conservant que la première occurrence.
Cet enrichissement est particulièrement utile lorsque vous travaillez avec des données provenant de plusieurs systèmes sources, des processus d'intégration de données ou des systèmes hérités où des événements dupliqués peuvent être créés de manière involontaire. En supprimant ces duplicatas, vous assurez que votre analyse de processus reflète l'exécution réelle du processus plutôt que des problèmes de qualité de données, ce qui conduit à des temps de cycle, fréquences d'activité et visualisations de flux de processus précises.
Contrairement à d'autres enrichissements liés aux activités qui modifient ou catégorisent les événements, cet enrichissement supprime physiquement les enregistrements d'événements dupliqués de votre journal d'événements, nettoyant ainsi définitivement votre jeu de données. L'enrichissement compare tous les attributs d'événements provenant de la source de données originale (et non les attributs calculés ou dérivés) pour déterminer si deux événements sont véritablement identiques.
Utilisations courantes
- Nettoyer des jeux de données importés de plusieurs systèmes sources pouvant contenir des enregistrements d'événements dupliqués
- Supprimer les événements redondants créés par des processus d'intégration de données ou des pipelines ETL
- Éliminer les enregistrements d'activités dupliqués causés par des erreurs système ou des problèmes de synchronisation des données
- Améliorer la qualité des données avant d'effectuer une analyse de fouille de processus pour garantir des métriques exactes
- Préparer les jeux de données pour la vérification de conformité en supprimant le bruit des événements dupliqués
- Nettoyer les données historiques qui ont accumulé des duplicatas au fil du temps en raison de problèmes de systèmes hérités
- Assurer des comptes de fréquence d'activités et des mesures de temps de cycle exacts en éliminant le bruit des événements dupliqués
Paramètres
Cet enrichissement ne nécessite aucun paramètre de configuration. C'est une opération en un clic qui analyse automatiquement tous les événements de chaque cas et supprime les doublons détectés.
L'enrichissement utilise un algorithme de comparaison intelligent qui :
- Compare tous les attributs des données sources originales pour chaque événement (nom de l'activité, horodatage, ID de cas, et tous les autres attributs au niveau de l'événement)
- Ignore les attributs calculés ou dérivés ajoutés par les enrichissements précédents
- Conserve la première occurrence de chaque événement unique
- Supprime les événements dupliqués suivants qui correspondent à toutes les valeurs d'attributs
Pour utiliser cet enrichissement :
- Naviguez vers 'Log Enrichment' depuis n’importe quelle analyse en cliquant sur 'Log Enrichment' en haut à droite
- Cliquez sur 'Add New' pour créer un nouvel enrichissement
- Sélectionnez 'Remove Duplicate Events' dans la section Activités
- Cliquez sur 'Create' - aucune configuration supplémentaire n’est nécessaire
- Cliquez sur 'Calculate Enrichment' pour traiter votre jeu de données
Exemples
Exemple 1 : Traitement multi-systèmes des commandes
Scénario : Une société de commerce électronique importe les données de commandes de trois systèmes différents : la boutique en ligne, le système de gestion d’entrepôt et le système comptable. En raison de problèmes d’intégration des données, certains événements de commande apparaissent plusieurs fois lorsqu’une même commande est enregistrée par plusieurs systèmes avec des horodatages et valeurs identiques.
Paramètres :
- Aucune configuration requise - l'enrichissement détecte et supprime automatiquement tous les événements dupliqués
Résultat :
Avant enrichissement, un cas d'exemple peut contenir ces événements :
- 2024-03-15 09:00:00 - Commande reçue - Order#12345 - Client : ABC Corp - Montant : 1 500 $
- 2024-03-15 09:00:00 - Commande reçue - Order#12345 - Client : ABC Corp - Montant : 1 500 $ (dupliqué)
- 2024-03-15 10:30:00 - Paiement traité - Order#12345 - Montant : 1 500 $
- 2024-03-15 10:30:00 - Paiement traité - Order#12345 - Montant : 1 500 $ (dupliqué)
- 2024-03-15 14:00:00 - Commande expédiée - Order#12345
Après enrichissement, les événements dupliqués sont supprimés :
- 2024-03-15 09:00:00 - Commande reçue - Order#12345 - Client : ABC Corp - Montant : 1 500 $
- 2024-03-15 10:30:00 - Paiement traité - Order#12345 - Montant : 1 500 $
- 2024-03-15 14:00:00 - Commande expédiée - Order#12345
Conclusions : La société peut désormais mesurer précisément la performance du processus. Le temps de cycle entre la commande et l’expédition est correctement calculé à 5 heures, sans être faussé par les doublons. Les comptes de fréquence d’activité reflètent désormais l’exécution réelle du processus plutôt que des problèmes de qualité des données.
Exemple 2 : Parcours patient en santé
Scénario : Un hôpital consolide les données patients de leur système DSE, du système de radiologie et du système de pharmacie. Lors de la migration à partir d’un système hérité, certains événements patients ont été dupliqués, entraînant des chronologies de parcours patients affichant plusieurs fois la même procédure et gonflant les comptes d'activités.
Paramètres :
- Aucune configuration requise
Résultat :
Un cas patient avant enrichissement :
- 2024-06-20 08:00:00 - Admission patient - ID patient : P9876 - Service : Cardiologie
- 2024-06-20 09:15:00 - Test sanguin commandé - Type de test : NFS
- 2024-06-20 09:15:00 - Test sanguin commandé - Type de test : NFS (doublon du système de laboratoire)
- 2024-06-20 11:30:00 - ECG réalisé - Résultat : Normal
- 2024-06-20 11:30:00 - ECG réalisé - Résultat : Normal (doublon du système de radiologie)
- 2024-06-20 15:00:00 - Médication prescrite - Médicament : Aspirine
- 2024-06-20 15:00:00 - Médication prescrite - Médicament : Aspirine (doublon du système de pharmacie)
- 2024-06-21 10:00:00 - Sortie patient
Après enrichissement, les doublons sont supprimés :
- 2024-06-20 08:00:00 - Admission patient - ID patient : P9876 - Service : Cardiologie
- 2024-06-20 09:15:00 - Test sanguin commandé - Type de test : NFS
- 2024-06-20 11:30:00 - ECG réalisé - Résultat : Normal
- 2024-06-20 15:00:00 - Médication prescrite - Médicament : Aspirine
- 2024-06-21 10:00:00 - Sortie patient
Conclusions : L’hôpital peut désormais suivre précisément les parcours patients et calculer les temps d'attente réels entre les procédures. Les indicateurs d'utilisation des ressources reflètent les volumes d’activité effectifs, sans gonflement dû à des enregistrements dupliqués.
Exemple 3 : Ligne de production en fabrication
Scénario : Une usine utilise des systèmes SCADA qui enregistrent parfois deux fois la même opération machine à cause de problèmes de synchronisation réseau. Ces événements dupliqués faussent l’analyse de la production et donnent l’impression que les opérations durent plus longtemps qu’en réalité.
Paramètres :
- Aucune configuration requise
Résultat :
Cas de production avant enrichissement :
- 2024-05-10 06:00:00 - Chargement matériau - Lot : B1234 - Machine : Presse-01
- 2024-05-10 06:05:00 - Démarrage opération presse - Lot : B1234
- 2024-05-10 06:05:00 - Démarrage opération presse - Lot : B1234 (dupliqué réseau)
- 2024-05-10 06:45:00 - Fin opération presse - Lot : B1234
- 2024-05-10 06:45:00 - Fin opération presse - Lot : B1234 (dupliqué réseau)
- 2024-05-10 07:00:00 - Contrôle qualité - Résultat : Conforme
- 2024-05-10 07:15:00 - Déchargement matériau - Lot : B1234
Après enrichissement :
- 2024-05-10 06:00:00 - Chargement matériau - Lot : B1234 - Machine : Presse-01
- 2024-05-10 06:05:00 - Démarrage opération presse - Lot : B1234
- 2024-05-10 06:45:00 - Fin opération presse - Lot : B1234
- 2024-05-10 07:00:00 - Contrôle qualité - Résultat : Conforme
- 2024-05-10 07:15:00 - Déchargement matériau - Lot : B1234
Conclusions : Le calcul des temps de cycle de production est désormais précis. L’usine peut mesurer de façon fiable l’utilisation des machines et identifier les véritables goulets d’étranglement, sans bruit lié aux événements dupliqués.
Exemple 4 : Traitement des transactions financières
Scénario : Le système de traitement des transactions d’une banque crée parfois des entrées dupliquées lorsque les transactions sont traitées à la fois par le système en temps réel et le système de rapprochement batch. Ces duplicatas doivent être supprimés avant d’analyser les modèles de transactions et la conformité.
Paramètres :
- Aucune configuration requise
Résultat :
Cas transaction avant enrichissement :
- 2024-07-15 14:30:00 - Transaction initiée - Montant : 5 000 $ - Compte : 12345
- 2024-07-15 14:30:05 - Contrôle fraude effectué - Score risque : Faible
- 2024-07-15 14:30:05 - Contrôle fraude effectué - Score risque : Faible (dupliqué du rapprochement)
- 2024-07-15 14:30:10 - Autorisation approuvée - Code Auth : A789
- 2024-07-15 14:30:10 - Autorisation approuvée - Code Auth : A789 (dupliqué du rapprochement)
- 2024-07-15 14:30:15 - Transaction terminée - Statut : Succès
Après enrichissement :
- 2024-07-15 14:30:00 - Transaction initiée - Montant : 5 000 $ - Compte : 12345
- 2024-07-15 14:30:05 - Contrôle fraude effectué - Score risque : Faible
- 2024-07-15 14:30:10 - Autorisation approuvée - Code Auth : A789
- 2024-07-15 14:30:15 - Transaction terminée - Statut : Succès
Conclusions : La banque peut désormais mesurer précisément les temps de traitement des transactions et identifier les véritables retards dans son système. Les rapports de conformité affichent des comptes d’activités réels sans gonflement dû aux duplicatas.
Exemple 5 : Gestion des services informatiques
Scénario : Un centre de support informatique importe les données de tickets provenant de plusieurs systèmes de surveillance. Lors de l’escalade d'incidents entre systèmes, les mêmes changements de statut apparaissent parfois plusieurs fois, ce qui donne une fausse impression d’allongement des temps de résolution.
Paramètres :
- Aucune configuration requise
Résultat :
Cas incident avant enrichissement :
- 2024-08-22 10:00:00 - Incident créé - Ticket : INC0012345 - Priorité : élevée
- 2024-08-22 10:15:00 - Affecté au support L1 - Agent : John Smith
- 2024-08-22 10:30:00 - Escalade au L2 - Raison : problème complexe
- 2024-08-22 10:30:00 - Escalade au L2 - Raison : problème complexe (dupliqué du système d’escalade)
- 2024-08-22 11:45:00 - Problème résolu - Résolution : correction config réseau
- 2024-08-22 11:45:00 - Problème résolu - Résolution : correction config réseau (dupliqué du système d’escalade)
- 2024-08-22 12:00:00 - Incident fermé - Satisfaction : 5/5
Après enrichissement :
- 2024-08-22 10:00:00 - Incident créé - Ticket : INC0012345 - Priorité : élevée
- 2024-08-22 10:15:00 - Affecté au support L1 - Agent : John Smith
- 2024-08-22 10:30:00 - Escalade au L2 - Raison : problème complexe
- 2024-08-22 11:45:00 - Problème résolu - Résolution : correction config réseau
- 2024-08-22 12:00:00 - Incident fermé - Satisfaction : 5/5
Conclusions : Le service informatique peut désormais mesurer précisément le temps moyen de résolution (MTTR) et identifier les véritables goulets d’étranglement de performance dans leur gestion des incidents, sans que des événements dupliqués faussent l’analyse des chronologies.
Résultat
L'enrichissement Remove Duplicate Events modifie votre journal d'événements en supprimant physiquement les enregistrements d'événements dupliqués. Contrairement aux enrichissements qui ajoutent de nouveaux attributs à votre jeu de données, cet enrichissement réduit le nombre total d’événements dans votre journal.
Ce qui est supprimé :
- Tout événement ayant des valeurs identiques pour l’ensemble des attributs originaux de la source de données (nom de l'activité, horodatage, ID de cas et tous les autres attributs d'événement) par rapport à un événement antérieur du même cas
- Seules les occurrences dupliquées sont supprimées ; la première occurrence de chaque événement unique est toujours conservée
Ce qui reste :
- La première occurrence de chaque événement unique
- Les événements qui diffèrent par au moins une valeur d’attribut (même si les horodatages ou noms d’activité correspondent)
- Tous les attributs calculés et les résultats d’enrichissements précédents
Impact sur votre jeu de données :
- Nombre d'événements : Le nombre total d’événements dans votre journal diminue en fonction du nombre de doublons détectés
- Nombre de cas : Le nombre de cas reste inchangé
- Statistiques d’activité : Les comptes de fréquence d’activités deviennent plus précis, reflétant l’exécution réelle du processus
- Temps de cycle : Les calculs de durée entre activités sont plus précis, sans événements dupliqués créant des intervalles de durée nulle
- Flux de processus : Les cartes de processus et l'analyse des variantes affichent des flux plus propres et exacts
Notes importantes :
- Cet enrichissement supprime définitivement les événements dupliqués de votre jeu de données actif. Si vous devez conserver les données originales contenant des doublons, créez une sauvegarde ou utilisez un instantané du jeu de données avant d’appliquer cet enrichissement.
- L'enrichissement compare uniquement les colonnes de données sources originales, pas les attributs calculés ou dérivés ajoutés par des enrichissements précédents
- Les événements sont considérés comme dupliqués uniquement si TOUS les attributs originaux correspondent exactement
- L'enrichissement traite les événements dans l'ordre chronologique, en conservant toujours la première occurrence
Utilisation des données nettoyées :
Après avoir exécuté cet enrichissement, vous pouvez :
- Effectuer une découverte de processus précise sans bruit dû aux événements dupliqués
- Calculer des métriques de performance et des indicateurs clés fiables
- Réaliser des vérifications de conformité sur des données nettoyées
- Créer des visualisations et tableaux de bord de processus exacts
- Combiner avec d'autres enrichissements en sachant que vos données de base sont propres
Voir aussi
Enrichissements liés à la qualité des données :
- Supprimer les activités répétées - Supprime les occurrences consécutives de la même activité (différent de cet enrichissement qui supprime les événements dupliqués exacts)
- Trier le journal par heure de début - Assure que les événements sont dans l'ordre chronologique correct avant analyse
- Masquer un attribut - Supprimer les attributs inutiles de votre vue d’analyse
- Filtrer le journal de processus - Supprimer des cas ou événements spécifiques selon des critères
- Anonymiser - Supprimer ou masquer les informations sensibles dans les attributs d'événement
Pour plus d’informations sur les bonnes pratiques de qualité des données :
- Bonnes pratiques de qualité des données - Guide pour préparer des données de processus propres
- Présentation de l’enrichissement de journaux - Comprendre le workflow d’enrichissement dans mindzieStudio
Cette documentation fait partie de la plateforme de fouille de processus mindzie Studio.