Journal de processus filtré

Vue d'ensemble

L'enrichissement Journal de processus filtré est un opérateur puissant de nettoyage des données qui supprime définitivement les cas et événements indésirables de votre jeu de données de processus selon des critères de filtrage spécifiés. Contrairement au filtrage temporaire qui ne fait que masquer les données durant l'analyse, cet enrichissement retire physiquement les données filtrées du journal, créant ainsi un jeu de données plus petit et plus ciblé. Ce filtrage permanent est essentiel pour la gestion de la qualité des données, la conformité à la vie privée et l'optimisation des performances dans les projets de process mining.

Cet enrichissement opère au niveau le plus fondamental du process mining en modifiant la structure réelle du journal d'événements. Lorsque vous appliquez des filtres via cet enrichissement, il évalue chaque cas par rapport à vos critères définis et supprime tous les cas (et leurs événements associés) qui ne répondent pas aux exigences. Le résultat est un jeu de données épuré ne contenant que les instances de processus pertinentes, rendant toutes les analyses ultérieures plus rapides et plus précises. Cela est particulièrement précieux lorsqu'on travaille avec de grands jeux de données où les données non pertinentes peuvent masquer des tendances importantes ou lorsqu'il est nécessaire de créer des vues spécialisées de votre processus pour différents groupes de parties prenantes.

L'enrichissement Journal de processus filtré est unique par sa nature permanente - une fois exécuté, les données filtrées sont supprimées du jeu de données en cours. Cela le rend idéal pour créer des jeux de données prêts pour la production, supprimer les données de test, éliminer les valeurs aberrantes ou se concentrer sur des périodes temporelles ou segments métier spécifiques. L'enrichissement exploite le même moteur de filtrage puissant utilisé dans tout mindzieStudio, vous permettant de combiner plusieurs conditions de filtrage avec une logique complexe pour définir précisément les données à conserver.

Utilisations courantes

Supprimer les cas de test et données fictives avant l'analyse en production
Extraire des périodes spécifiques pour des comparaisons périodiques
Éliminer les cas incomplets qui fausseraient les métriques de processus
Créer des jeux de données spécifiques à un département ou une région depuis des journaux d'entreprise
Supprimer les valeurs aberrantes et anomalies qui déforment les modèles standards de processus
Assurer la confidentialité des données en filtrant certaines catégories sensibles de cas
Optimiser les performances en réduisant la taille des jeux de données pour des analyses complexes

Paramètres

Liste de filtres : Le composant central de configuration qui définit quels cas conserver ou supprimer du journal de processus. Accédez à la configuration des filtres via le menu à 3 points, où vous pouvez ajouter plusieurs conditions de filtrage. Chaque filtre peut cibler différents aspects de vos données – attributs de cas, attributs d'événement, horodatages ou noms d'activités. Les filtres peuvent être combinés en logique AND/OR pour créer des critères de sélection sophistiqués. L'interface de filtre offre un constructeur visuel qui vous aide à construire une logique de filtrage complexe sans coder. Les types de filtres courants incluent :

Filtres d'attributs : Basés sur les valeurs d'attributs de cas ou d'événements
Filtres temporels : Sélectionnent des plages de dates ou périodes spécifiques
Filtres d'activités : Incluent ou excluent les cas contenant certaines activités
Filtres de performance : Basés sur la durée, le débit ou d'autres métriques
Filtres de conformité : Cas respectant ou violant des règles processuelles

La liste de filtres prend en charge la sauvegarde et le chargement de configurations de filtres, vous permettant de réutiliser des modèles de filtrage courants entre différents jeux de données ou projets.

Exemples

Exemple 1 : Suppression des données de test du jeu de données de production

Scénario : Une mise en œuvre SAP contient des transactions de test marquées par des préfixes spécifiques qu’il faut supprimer avant d’analyser les processus métier réels. Les données de test créées lors de la validation du système fausseraient les indicateurs clés si elles étaient incluses.

Paramètres :

Configuration de la liste de filtres :
- Filtre 1 : Order_Number NOT STARTS WITH "TEST"
- Filtre 2 : Customer_Name NOT EQUALS "Dummy Customer"
- Filtre 3 : Created_Date AFTER "2024-01-01"
- Logique : Filtre 1 ET Filtre 2 ET Filtre 3

Résultat : L’enrichissement supprime tous les cas où :

Les numéros de commande commencent par "TEST" (ex. "TEST_001", "TEST_PO_2024")
Le nom du client est exactement "Dummy Customer"
Cas créés avant le 1er janvier 2024

Jeu de données original : 150 000 cas avec 2,3 millions d’événements
Jeu de données filtré : 142 000 cas avec 2,18 millions d’événements
Supprimés : 8 000 cas de test et leurs 120 000 événements associés

Informations : Le jeu de données nettoyé représente désormais avec précision les opérations métier réelles, améliorant la fiabilité des métriques de processus et de l’analyse de conformité. Les calculs de performances, temps de cycle et analyses des goulets d’étranglement reflètent désormais les défis opérationnels réels au lieu des scénarios de test artificiels.

Exemple 2 : Extraction des bons de commande à haute valeur

Scénario : Dans un processus d’approvisionnement couvrant plusieurs catégories, la direction souhaite se concentrer exclusivement sur les bons de commande de grande valeur supérieurs à 50 000 $ afin d’optimiser les flux d’approbation et identifier des opportunités d’économies.

Paramètres :

Configuration de la liste de filtres :
- Filtre 1 : Total_Order_Value GREATER THAN 50000
- Filtre 2 : Order_Status NOT EQUALS "Cancelled"
- Filtre 3 : Order_Type IN ["Standard PO", "Contract PO", "Planned PO"]
- Logique : Filtre 1 ET Filtre 2 ET Filtre 3

Résultat : Crée un jeu de données focalisé contenant uniquement :

Les bons de commande dont la valeur totale dépasse 50 000 $
Les commandes actives (excluant celles annulées)
Les types de commandes standards (excluant achats d’urgence ou ponctuels)

Avant filtrage : 45 000 bons de commande
Après filtrage : 3 200 commandes haute valeur représentant 72% des dépenses totales
Événements réduits de 890 000 à 95 000

Informations : Le jeu de données filtré montre que les commandes à haute valeur suivent des schémas d’approbation différents, ont des temps de cycle plus longs et impliquent davantage de parties prenantes. Cette vue ciblée permet une optimisation précise des processus pour les commandes ayant le plus grand impact financier.

Exemple 3 : Création d’un jeu de données spécifique à une région

Scénario : Une multinationale doit créer des analyses de processus distinctes pour les opérations européennes en raison des exigences de conformité au RGPD et des variations régionales de processus.

Paramètres :

Configuration de la liste de filtres :
- Filtre 1 : Region EQUALS "Europe"
- Filtre 2 : Country IN ["Germany", "France", "Italy", "Spain", "Netherlands", "Belgium"]
- Filtre 3 : Process_Start_Date BETWEEN "2024-01-01" AND "2024-12-31"
- Logique : (Filtre 1 OU Filtre 2) ET Filtre 3

Résultat : Extrait tous les cas européens pour l’année civile 2024 :

Jeu de données global initial : 500 000 cas dans 35 pays
Jeu de données européen filtré : 185 000 cas issus de 6 pays
Événements réduits de 8,5 millions à 3,1 millions
Toutes les données non européennes supprimées définitivement du jeu de données actif

Informations : Le jeu de données spécifique à la région permet de respecter les réglementations locales sur les données, révèle des schémas propres à l’Europe et fournit une taille de jeu de données gérable pour des analyses régionales détaillées et des initiatives d’optimisation.

Exemple 4 : Focalisation sur les épisodes de soins complétés

Scénario : Un hôpital souhaite analyser uniquement les épisodes de traitement patient entièrement complétés, en excluant les traitements en cours et visites uniquement administratives, pour mesurer précisément l’efficacité des traitements et l’utilisation des ressources.

Paramètres :

Configuration de la liste de filtres :
- Filtre 1 : Episode_Status EQUALS "Completed"
- Filtre 2 : Treatment_Type NOT EQUALS "Administrative"
- Filtre 3 : Has_Clinical_Outcome EQUALS "Yes"
- Filtre 4 : Duration_Days BETWEEN 1 AND 365
- Logique : Filtre 1 ET Filtre 2 ET Filtre 3 ET Filtre 4

Résultat : Le jeu de données filtré inclut uniquement :

Les épisodes de traitement complétés avec résultats cliniques documentés
Les traitements cliniques (excluant les visites administratives)
Une durée réaliste entre 1 et 365 jours

Jeu de données original : 120 000 épisodes patients
Jeu de données filtré : 78 000 épisodes cliniques complétés
Supprimés : 42 000 cas incomplets, administratifs ou aberrants

Informations : Le jeu de données nettoyé fournit des métriques précises sur la durée du traitement, l’utilisation des ressources et les parcours cliniques sans le bruit des données incomplètes, permettant des indicateurs qualité fiables et des initiatives d’amélioration des processus.

Exemple 5 : Élimination des valeurs aberrantes pour analyse standard

Scénario : Une entreprise manufacturière souhaite analyser son processus de production standard en supprimant les valeurs aberrantes extrêmes représentant des défaillances d’équipement ou circonstances exceptionnelles, en se concentrant sur les 95 % de cas typiques.

Paramètres :

Configuration de la liste de filtres :
- Filtre 1 : Cycle_Time_Hours BETWEEN 2 AND 48
- Filtre 2 : Number_of_Rework_Loops LESS THAN 3
- Filtre 3 : Production_Status NOT IN ["Emergency", "Experimental", "Failed"]
- Filtre 4 : Defect_Rate LESS THAN 0.05
- Logique : Filtre 1 ET Filtre 2 ET Filtre 3 ET Filtre 4

Résultat : Supprime les cas aberrants :

Cas avec temps de cycle extrême (< 2 heures ou > 48 heures)
Reprise excessive (3 boucles ou plus)
Séries de production non standard
Taux de défauts élevé (> 5 %)

Avant : 25 000 séries de production avec forte variance
Après : 23 750 séries standards
Supprimés : 1 250 cas aberrants (5 % du total)

Informations : Le jeu de données filtré représente des conditions normales d’exploitation, permettant des métriques de référence précises, des objectifs d’amélioration réalistes et l’identification des variations standards versus événements exceptionnels.

Résultat

L’enrichissement Journal de processus filtré produit un jeu de données modifié de façon permanente avec les caractéristiques suivantes :

Journal de processus modifié : L’enrichissement retourne un nouvel objet SuperLog contenant uniquement les cas qui correspondent à vos critères de filtrage. Tous les cas filtrés et leurs événements associés sont définitivement supprimés du jeu de données actif. Cette opération est irréversible dans la session d’analyse en cours.

Réduction du nombre de cas : Le nombre de cas dans votre jeu de données diminuera en fonction des critères de filtrage. Vous pouvez suivre cette réduction dans les statistiques du jeu de données pour vous assurer que le filtrage a produit les résultats attendus.

Impact sur le nombre d'événements : Lorsqu’un cas est supprimé, tous les événements liés à ce cas sont également supprimés. Cela peut significativement réduire le nombre total d'événements, en particulier pour les cas comportant beaucoup d’événements.

Structure des données préservée : Tous les attributs existants, tant au niveau du cas qu’au niveau de l’événement, restent intacts pour les cas conservés. L’enrichissement supprime uniquement des cas entiers ; il ne modifie pas la structure ni le contenu des cas restants.

Bénéfices en termes de performance : La taille réduite du jeu de données conduit à une exécution plus rapide de tous les enrichissements, filtrages et calculs ultérieurs. Ce gain est particulièrement sensible lors d’opérations complexes de process mining.

Impact en aval : Toutes les analyses, visualisations et exportations refléteront le jeu de données filtré. Assurez-vous de sauvegarder une copie du jeu de données original si vous devez consulter les données complètes ultérieurement.

Considérations importantes

Opération permanente : Contrairement aux filtres de visualisation qui masquent temporairement les données, cet enrichissement supprime définitivement les données de votre jeu de données actif. Sauvegardez toujours une copie de vos données originales avant d’appliquer cet enrichissement.

Ordre d’exécution : Appliquez cet enrichissement tôt dans votre workflow d’analyse si vous savez que certaines données sont non pertinentes. Cela améliore les performances des opérations suivantes.

Validation des filtres : Testez vos filtres avec la fonction de prévisualisation avant d’exécuter l’enrichissement pour garantir que vous conservez les données souhaitées.

Effets en cascade : La suppression de cas peut impacter des calculs reposant sur l’intégralité du jeu de données, tels que les calculs de percentiles ou les métriques de performance relatives.

Cette documentation fait partie de la plateforme de process mining mindzie Studio.