Trouver les valeurs aberrantes de date

Aperçu

Le calculateur Trouver les valeurs aberrantes de date identifie les valeurs de date et de timestamp dans votre journal d’événements qui se situent en dehors des plages normales attendues, vous aidant à détecter les problèmes de qualité des données avant qu’ils n’impactent votre analyse de processus. Ce calculateur spécialisé en qualité des données analyse automatiquement tous les attributs de date et de timestamp dans l’ensemble de votre journal d’événements pour trouver des valeurs clairement invalides, telles que des dates dans un passé lointain, un futur éloigné, ou des valeurs nulles.

Contrairement à une inspection manuelle des données, ce calculateur examine systématiquement chaque champ de date dans vos données de processus afin de mettre en évidence des problèmes potentiels pouvant fausser votre analyse de process mining, tels que des timestamps d’activité incorrects, des importations de données mal formées ou des valeurs par défaut qui n’ont jamais été mises à jour.

Utilisations courantes

  • Valider la qualité des données après l’importation de journaux d’événements depuis des systèmes hérités ou de nouvelles sources de données
  • Détecter les dates de remplacement ou les valeurs par défaut indiquant une saisie de données incomplète
  • Identifier les erreurs d’horloge système ou les problèmes de conversion de fuseaux horaires qui créent des timestamps impossibles
  • Trouver des dates issues de données de test entrées accidentellement dans des journaux d’événements de production
  • Vérifier que les données de timestamp correspondent aux périodes d’opération métier attendues
  • Évaluer rapidement la qualité globale des champs de date sur tous les attributs avant une analyse détaillée

Paramètres

Ce calculateur ne requiert aucune configuration. Il examine automatiquement tous les attributs de date et de timestamp dans votre journal d’événements et identifie les valeurs aberrantes sur la base de règles prédéfinies concernant ce qui constitue des dates irréalistes ou problématiques.

Champs standards :

  • Title : Titre personnalisé facultatif pour la sortie du calculateur
  • Description : Description facultative à des fins de documentation

Règles de détection :

Le calculateur identifie les valeurs aberrantes de date en vérifiant :

  • Dates antérieures à 1990 : Valeurs antérieures au 1er janvier 1990 signalées comme des erreurs de données ou des valeurs de remplacement probables
  • Dates postérieures à 2040 : Valeurs postérieures au 1er janvier 2040 considérées comme irréalistes pour les processus métier actuels
  • Dates nulles ou à zéro : Valeurs de timestamp manquantes, nulles ou à zéro indiquant des données incomplètes
  • Formats de date invalides : Valeurs de date mal formées ne pouvant pas être analysées correctement

Exemples

Exemple 1 : Validation de migration système hérité

Scénario : Votre organisation a récemment migré les données de traitement des factures d’un système ERP hérité vieux de 20 ans vers une plateforme moderne. Avant de réaliser une analyse de process mining, vous souhaitez vérifier que tous les champs de date ont été correctement convertis et qu'aucune date de remplacement ou par défaut ne subsiste dans le jeu de données.

Paramètres :

  • Title : "Validation de migration des données de facturation"
  • Description : "Vérification des problèmes de conversion de dates du système hérité"

Sortie :

Le calculateur produit un tableau montrant les valeurs de date problématiques regroupées par attribut. Chaque ligne représente un attribut spécifique où des valeurs aberrantes ont été trouvées :

Nom de l'attribut Nombre d'aberrations Valeur aberrante exemple Type de problème
Invoice_Date 847 1900-01-01 Avant 1990
Payment_Due_Date 847 1900-01-01 Avant 1990
Last_Modified_Date 23 2099-12-31 Après 2040
Approval_Timestamp 156 NULL Zéro/Nul

Analyse :

La sortie révèle des problèmes importants de qualité de données liés à la migration. Les 847 factures avec des dates au 1er janvier 1900 sont clairement des valeurs de remplacement du système hérité qui n’ont pas été converties correctement – cette date était couramment utilisée comme valeur par défaut « vide » dans les anciens systèmes. Les 23 enregistrements avec une date en 2099 sur Last_Modified_Date suggèrent qu’il s’agissait de données de test migrées par erreur en production. Les 156 valeurs nulles pour Approval_Timestamp indiquent des enregistrements incomplets manquant des informations temporelles critiques du processus.

Avant toute analyse de processus, vous devriez :

  1. Collaborer avec l’équipe data pour corriger ou supprimer les 847 enregistrements avec dates de remplacement
  2. Filtrer les 23 enregistrements de test contenant des dates en 2099
  3. Investiguer pourquoi 156 factures manquent de timestamps d’approbation

Cette validation vous a évité de tirer des conclusions erronées sur les temps de traitement des factures et les modèles d’approbation basés sur des données de dates corrompues.

Exemple 2 : Détection de problèmes d’horloge système

Scénario : Des utilisateurs ont signalé que certains timestamps dans votre processus de traitement des commandes « n’ont pas de sens », avec des activités apparaissant dans un ordre erroné. Vous soupçonnez un problème de synchronisation d’horloge serveur ou de conversion des fuseaux horaires affectant les timestamps d’événements.

Paramètres :

  • Title : "Validation des timestamps du traitement des commandes"
  • Description : "Identification des problèmes de synchronisation d’horloge ou de fuseau horaire"

Sortie :

Le calculateur affiche des valeurs aberrantes dans les champs de timestamp d’activité :

Nom de l'attribut Nombre d'aberrations Valeur aberrante exemple Type de problème
Activity_Timestamp 1 247 2043-08-15 14:23:00 Après 2040
Event_Start_Time 1 247 2043-08-15 14:23:00 Après 2040

Analyse :

Les 1 247 événements ont tous des timestamps en août 2043 – exactement 20 ans dans le futur. C’est un signe classique d’une erreur d’horloge système sur l’un de vos serveurs applicatifs ou d’un bug de conversion de fuseau horaire qui a ajouté des décennies au lieu d’heures. Le fait que Activity_Timestamp et Event_Start_Time présentent les mêmes valeurs aberrantes confirme qu’il s’agit des mêmes événements capturés dans plusieurs champs.

L’enquête révèle qu’un serveur du système de gestion d’entrepôt avait son horloge réglée incorrectement après une fenêtre de maintenance, et que tous les événements traités par ce serveur pendant une période de 6 heures ont reçu des timestamps 20 ans dans le futur. Ces 1 247 événements représentent des activités critiques de traitement de commande (préparation, emballage, expédition) qui doivent être corrigées pour restaurer une analyse correcte du flux de processus.

Sans ce calculateur, ces erreurs de timestamp auraient provoqué des cartes de processus montrant des activités complètement hors séquence, rendant impossible une analyse précise des performances du traitement des commandes pour la période concernée.

Exemple 3 : Contrôle qualité des données avant analyse

Scénario : Vous vous apprêtez à réaliser une analyse complète de process mining sur votre processus achat-à-paiement couvrant trois ans de données. En bonne pratique, vous lancez d’abord le calculateur Trouver les valeurs aberrantes de date pour vous assurer que votre jeu de données est propre avant d'investir du temps dans une analyse détaillée.

Paramètres :

  • Title : "Scan qualité des données achat-à-paiement"
  • Description : "Contrôle de validation pré-analyse"

Sortie :

Le calculateur retourne un tableau montrant que tous les attributs ont des plages de dates valides sans aucune valeur aberrante détectée.

Résultat : Aucune valeur aberrante détectée dans les attributs de date.

Analyse :

C’est le meilleur résultat possible – une parfaite santé de vos données de date. Le calculateur a examiné tous les champs de timestamp et de date sur l’ensemble de votre journal événementiel achat-à-paiement de trois ans et n’a trouvé aucune valeur avant 1990, après 2040, ni nulle ou à zéro. Cela vous donne la confiance nécessaire pour poursuivre votre analyse de process mining en sachant que :

  • Tous les timestamps reflètent fidèlement le moment où les activités ont eu lieu
  • Aucune date par défaut ne viendra fausser vos mesures temporelles
  • Aucun test n’a contaminé accidentellement votre jeu de données de production
  • Les horloges système ont été correctement synchronisées durant toute la période de collecte des données

Vous pouvez désormais faire confiance à l’ordre temporel des activités dans les cartes de processus, à l’exactitude des calculs de durée, et à la fiabilité des insights basés sur le temps. Cette validation initiale vous fait gagner d’innombrables heures de résolution de problèmes liés à des résultats confus causés par des données de date corrompues.

Exemple 4 : Identification des saisies de données incomplètes

Scénario : Votre système de ticketing du service client permet aux agents support d’entrer manuellement certaines dates, et vous suspectez que de nombreux tickets ont des informations de timestamp manquantes ou incomplètes pouvant affecter votre analyse du temps de résolution des cas.

Paramètres :

  • Title : "Vérification de la complétude des dates dans les tickets support"
  • Description : "Identification des tickets avec informations de date manquantes"

Sortie :

Nom de l'attribut Nombre d'aberrations Valeur aberrante exemple Type de problème
First_Response_Date 3 456 NULL Zéro/Nul
Resolution_Date 892 NULL Zéro/Nul
Escalation_Date 12 034 NULL Zéro/Nul
Follow_Up_Date 8 721 1970-01-01 Avant 1990

Analyse :

L’analyse révèle d’importantes lacunes de saisie de données. Le grand nombre de valeurs nulles indique que les agents ne renseignent pas systématiquement des dates critiques :

  • 3 456 tickets sans First_Response_Date : Ces cas ne peuvent pas être inclus dans l’analyse des SLA de temps de réponse
  • 892 tickets sans Resolution_Date : Il est impossible de calculer le temps de résolution pour ces cas
  • 12 034 tickets sans Escalation_Date : Ceci est en réalité acceptable – la plupart des tickets ne doivent pas être escaladés, donc la nullité est attendue ici
  • 8 721 tickets avec Follow_Up_Date au 01-01-1970 : Cette date d’époque Unix (1er janvier 1970) est une valeur par défaut classique indiquant que le champ n’a jamais été correctement rempli

Le problème le plus préoccupant est les 3 456 tickets sans date de première réponse, représentant 15 % du volume total de tickets, impactant directement votre capacité à mesurer la réactivité du service client. Vous devez :

  1. Mettre à jour votre système de ticketing pour rendre First_Response_Date obligatoire
  2. Former les agents à l’importance d’une saisie complète des dates
  3. Envisager une capture automatique des timestamps plutôt que manuelle lorsque c’est possible
  4. Exclure les 892 tickets non résolus de l’analyse des cas terminés

Cette validation vous a aidé à comprendre que vos métriques de résolution de cas ont été sous-estimées car elles excluaient les tickets à données manquantes, donnant aux managers une vision faussement optimiste de la performance des équipes support.

Sortie

Le calculateur produit un tableau de données listant tous les attributs de date et timestamp contenant des valeurs aberrantes. Le tableau est conçu pour vous aider à identifier rapidement et à prioriser les problèmes de qualité des données :

Nom de l'attribut (Texte) : Le nom du champ attribut de cas ou d’événement contenant des dates aberrantes. Cela vous permet d’identifier précisément quels champs posent problème.

Nombre d’aberrations (Numérique) : Le nombre de cas ou événements ayant des valeurs de date problématiques dans cet attribut. Des nombres élevés indiquent des problèmes de qualité des données plus graves nécessitant une attention urgente.

Valeur aberrante exemple (DateHeure) : Un exemple de valeur de date problématique trouvée dans l’attribut, vous aidant à comprendre la nature du problème (par exemple, "1900-01-01" suggère des dates de remplacement, tandis que "2050-01-15" indique des erreurs d’horloge).

Type de problème (Catégorie) : Le type de valeur aberrante détectée - "Avant 1990", "Après 2040", ou "Zéro/Nul" - vous aidant à comprendre si le problème concerne des dates de remplacement, des dates futures ou des valeurs manquantes.

Analyse interactive :

Le tableau de sortie est entièrement interactif – vous pouvez :

  • Cliquer sur n’importe quelle ligne pour approfondir les cas spécifiques contenant ces valeurs aberrantes
  • Trier par nombre d’aberrations pour prioriser les attributs à corriger en premier
  • Filtrer les résultats pour vous concentrer sur des types spécifiques de problèmes
  • Exporter la liste des valeurs aberrantes pour la partager avec les équipes de qualité des données

Bonnes pratiques :

  • Exécutez ce calculateur en premier lors de tout nouveau projet de process mining
  • Relancez-le après toute importation de données ou migration système
  • Traitez les valeurs aberrantes avant de créer les cartes de processus ou de calculer les indicateurs de performance
  • Utilisez-le régulièrement sur les flux de données en continu pour détecter rapidement toute dégradation de qualité

Remarque : Le calculateur n’analyse que les attributs de type date ou timestamp. Les champs texte contenant des dates ne sont pas analysés. En l’absence de valeurs aberrantes, le calculateur affichera "No date outliers detected" - cela indique que votre qualité de données est excellente.


Cette documentation fait partie de la plateforme de process mining mindzie Studio.