Informations sur les Colonnes
Vue d'ensemble
Le calculateur Column Info fournit des métadonnées détaillées et des statistiques sur toutes les attributs (colonnes) de votre jeu de données de journal d'événements. Cet outil administratif affiche des informations complètes sur chaque attribut, incluant les types de données, les distributions des valeurs, le nombre de valeurs nulles, et des valeurs d'exemple.
IMPORTANT : Ceci est un calculateur réservé aux administrateurs, conçu pour l'analyse technique et la recherche. Il n'est pas optimisé pour une utilisation en production et peut prendre un temps important pour traiter de grands ensembles de données. Les utilisateurs réguliers doivent utiliser le calculateur Dataset Information pour des besoins généraux de vue d'ensemble du jeu de données.
Ce calculateur est principalement utilisé par les administrateurs système, les analystes de données et les utilisateurs techniques qui ont besoin d'informations approfondies sur la structure et la qualité des données pour le dépannage, la validation des données ou l'optimisation des jeux de données.
Usages courants
- Réaliser des audits complets de qualité des données sur tous les attributs du journal d'événements
- Identifier les attributs avec un pourcentage élevé de valeurs nulles ou manquantes
- Analyser la cohérence des types de données et détecter d’éventuels problèmes de conversion de type
- Examiner la cardinalité des attributs (nombre de valeurs uniques) pour identifier les candidats à l'analyse catégorielle
- Valider les résultats d’extraction de données en examinant les statistiques au niveau des attributs
- Diagnostiquer les problèmes de performance en identifiant les attributs ayant des distributions de valeurs inattendues
- Documenter le schéma et les caractéristiques du jeu de données pour les spécifications techniques
Paramètres
Ce calculateur ne requiert aucune configuration spécifique. Lors de son exécution, il analyse automatiquement tous les attributs du jeu de données actuel (à la fois au niveau des cas et des événements) et génère des statistiques complètes pour chacun.
Remarque : Le temps de traitement dépend de la taille du jeu de données et du nombre d’attributs. Pour des jeux de données très volumineux, ce calculateur peut prendre plusieurs minutes à s’exécuter.
Exemples
Exemple 1 : Audit de Qualité des Données après ETL
Contexte : Vous venez de terminer un processus ETL pour extraire des données order-to-cash depuis votre système ERP. Avant de diffuser le jeu de données aux utilisateurs métier, vous devez vérifier que tous les attributs ont été extraits correctement et évaluer la complétude des données.
Paramètres :
- Titre : "Validation de la Qualité des Données Post-ETL"
- Description : "Jeu de données O2C - Extraction janvier 2025"
Sortie :
Le calculateur affiche un tableau complet avec les informations suivantes pour chaque attribut :
| Nom de l'Attribut | Type | Nombre total de valeurs | Nombre de null | % Null | Valeurs uniques | Valeurs d'exemple |
|---|---|---|---|---|---|---|
| CaseID | Case | 2 456 | 0 | 0% | 2 456 | ORD-001, ORD-002, ORD-003 |
| CustomerName | Case | 2 456 | 12 | 0,5% | 847 | Acme Corp, TechStart Inc, Global... |
| OrderAmount | Case | 2 456 | 0 | 0% | 1 823 | 1250.00, 3400.50, 875.25 |
| Region | Case | 2 456 | 156 | 6,4% | 4 | North, South, East, West |
| ActivityName | Event | 18 945 | 0 | 0% | 15 | Create Order, Approve Order, Ship... |
| Timestamp | Event | 18 945 | 0 | 0% | 18 893 | 2025-01-15 08:23:00, 2025-01-15... |
| ApprovalLevel | Event | 18 945 | 8 234 | 43,5% | 3 | L1, L2, L3 |
| Department | Event | 18 945 | 3 456 | 18,2% | 8 | Sales, Finance, Operations... |
Analyses : L’audit révèle plusieurs préoccupations en matière de qualité des données. L’attribut Region compte 6,4 % de valeurs nulles affectant 156 cas - ces cas nécessitent une revue manuelle ou une correction des données. Plus critique, l’attribut ApprovalLevel présente 43,5 % de valeurs nulles, ce qui peut indiquer que toutes les activités ne nécessitent pas d’approbation (ce qui est attendu), ou que des données d’approbation manquent pour des activités qui devraient en avoir (requiert une enquête). Le faible nombre de valeurs nulles sur CustomerName (0,5 %) est acceptable et peut représenter des commandes tests. Tous les identifiants critiques (CaseID, Timestamp) n’ont aucune valeur nulle, confirmant l’intégrité des données.
Exemple 2 : Dépannage de Performance
Contexte : Les utilisateurs signalent une lenteur lors du filtrage sur certains attributs. Vous devez identifier les attributs ayant une cardinalité élevée (beaucoup de valeurs uniques) qui pourraient causer une inefficacité du filtrage.
Paramètres :
- Titre : "Analyse de la Cardinalité des Attributs"
- Description : "Investigation des problèmes de performance du filtrage"
Sortie :
| Nom de l'Attribut | Type | Nombre total de valeurs | Valeurs uniques | Ratio de cardinalité | Type de données |
|---|---|---|---|---|---|
| CaseID | Case | 45 678 | 45 678 | 100% | String |
| TransactionID | Event | 367 824 | 367 824 | 100% | String |
| UserComments | Event | 367 824 | 89 234 | 24,3% | String |
| ProductSKU | Event | 367 824 | 12 456 | 3,4% | String |
| Status | Case | 45 678 | 8 | 0,02% | String |
| Priority | Case | 45 678 | 3 | 0,007% | String |
Analyses : L’analyse révèle une large variation de cardinalité entre les attributs. CaseID et TransactionID ont une cardinalité de 100 % (chaque valeur est unique), ce qui en fait d’excellents identifiants de cas mais de mauvais candidats pour le filtrage catégoriel. UserComments a une cardinalité très élevée (24,3 %), suggérant qu’il contient du texte libre plutôt que des valeurs standardisées - le filtrage sur cet attribut sera lent et pourrait bénéficier d’une optimisation par recherche en texte intégral. En revanche, Status (8 valeurs) et Priority (3 valeurs) sont idéaux pour un filtrage efficace. Cette analyse aide à optimiser la conception des filtres et oriente les utilisateurs vers des sélections d’attributs performantes.
Exemple 3 : Documentation du Schéma pour l’Intégration
Contexte : Vous devez fournir une documentation technique à un fournisseur tiers qui intégrera votre environnement de process mining. Il a besoin d’informations détaillées sur les attributs disponibles, les types de données et les plages de valeurs attendues.
Paramètres :
- Titre : "Documentation du Schéma Purchase-to-Pay"
- Description : "Spécification technique pour intégration API"
Sortie :
| Nom de l'Attribut | Type d'Attribut | Type de Données | Nombre total de valeurs | Valeurs uniques | Nombre de null | Valeurs d'exemple |
|---|---|---|---|---|---|---|
| PO_Number | Case | String | 8 945 | 8 945 | 0 | PO-2025-00001, PO-2025-00002 |
| Vendor_ID | Case | String | 8 945 | 234 | 0 | V12345, V67890, V45678 |
| Total_Amount | Case | Decimal | 8 945 | 7 823 | 0 | 15750.50, 2340.00, 987.25 |
| Currency | Case | String | 8 945 | 3 | 12 | USD, EUR, GBP |
| RequestDate | Case | DateTime | 8 945 | 2 456 | 0 | 2025-01-15, 2025-01-16 |
| Activity | Event | String | 71 560 | 12 | 0 | Create PO, Approve PO, Send... |
| Resource | Event | String | 71 560 | 145 | 234 | john.smith, sarah.jones... |
| Cost_Center | Event | String | 71 560 | 67 | 1 234 | CC-1001, CC-2045, CC-3012 |
Analyses : La documentation du schéma montre que PO_Number est l’identifiant principal du cas, avec une unicité garantie et aucune valeur nulle. Toutes les valeurs monétaires utilisent le champ Total_Amount (type décimal), la devise étant spécifiée séparément. Le processus supporte trois devises (USD, EUR, GBP) avec 12 cas manquant la donnée devises qui nécessite correction. L’information sur Resource est disponible pour 145 utilisateurs uniques mais présente 234 valeurs nulles au niveau événement, indiquant certaines activités automatisées. L’attribut Cost_Center a 1,7 % de valeurs nulles, suggérant une entrée de données incomplète pour certaines activités. Cette vue globale permet une planification d’intégration précise.
Exemple 4 : Détection des Incohérences de Type de Données
Contexte : Après la fusion de données provenant de plusieurs systèmes sources, vous suspectez des incohérences de type de données qui pourraient causer des erreurs de calcul ou un comportement inattendu dans les analyses.
Paramètres :
- Titre : "Contrôle de Cohérence des Types de Données"
- Description : "Validation multi-source des données"
Sortie :
| Nom de l'Attribut | Type Détecté | Nombre total de valeurs | Conflits de type | Exemples de valeurs incohérentes |
|---|---|---|---|---|
| OrderDate | DateTime | 5 678 | 0 | - |
| OrderValue | Mixed | 5 678 | 23 | "1250.50", "$1,250.50", "1250,50" |
| QuantityOrdered | Integer | 5 678 | 8 | "100", "100.0", "100 units" |
| CustomerID | String | 5 678 | 0 | - |
| IsRush | Mixed | 5 678 | 145 | "Yes", "Y", "1", "true", "TRUE" |
Analyses : L’analyse a mis au jour des incohérences critiques de type de données. L’attribut OrderValue contient un format mixte - certaines valeurs incluent des symboles monétaires et différents séparateurs décimaux (virgule vs point), nécessitant un nettoyage des données avant les calculs. QuantityOrdered montre 8 cas où du texte était ajouté ("100 units"), ce qui provoquera des erreurs dans les agrégations numériques. Le drapeau IsRush a cinq représentations différentes de valeurs booléennes, nécessitant une standardisation en "true/false" ou "1/0" pour un filtrage fiable. Ces problèmes doivent être résolus dans le processus ETL avant que les données puissent être utilisées de manière fiable.
Exemple 5 : Identification des Opportunités d’Enrichissement
Contexte : Vous souhaitez identifier les attributs à faible cardinalité qui pourraient bénéficier d’un enrichissement par des informations descriptives supplémentaires afin de rendre les analyses plus conviviales.
Paramètres :
- Titre : "Analyse des Opportunités d’Enrichissement"
- Description : "Identification des candidats à l’enrichissement par lookup"
Sortie :
| Nom de l'Attribut | Type | Valeurs uniques | % Null | Valeurs d'exemple | Potentiel d’enrichissement |
|---|---|---|---|---|---|
| ProductCode | Event | 45 | 0% | P001, P002, P003 | ÉLEVÉ - Ajouter noms des produits |
| StatusCode | Case | 8 | 0% | ST-01, ST-02, ST-03 | ÉLEVÉ - Ajouter descriptions des statuts |
| RegionCode | Case | 4 | 0% | R1, R2, R3, R4 | ÉLEVÉ - Ajouter noms des régions |
| CurrencyCode | Case | 3 | 0% | USD, EUR, GBP | MOYEN - Généralement compréhensible |
| EmployeeID | Event | 234 | 2,1% | E12345, E67890 | ÉLEVÉ - Ajouter noms des employés |
Analyses : Plusieurs attributs contiennent des codes qui bénéficieraient d’un enrichissement. Avec seulement 45 codes produit uniques, ajouter les noms des produits rendrait les analyses beaucoup plus lisibles pour les utilisateurs métier. Les 8 codes statut devraient être enrichis avec des descriptions en langage clair afin d’éviter aux utilisateurs de se référer aux feuilles de codes. Les identifiants employés devraient être enrichis avec les noms tout en respectant la conformité à la confidentialité. Ces enrichissements amélioreront significativement l’expérience utilisateur sans augmenter considérablement le volume de données.
Exemple 6 : Suivi des Tendances de Complétude des Données
Contexte : Vous effectuez des extractions de données régulières et souhaitez suivre si la complétude des données s’améliore ou se dégrade dans le temps en comparant les statistiques d’extraction actuelles avec des baselines précédentes.
Paramètres :
- Titre : "Suivi de la Complétude des Données - Février 2025"
- Description : "Comparaison avec la baseline de janvier"
Sortie :
| Nom de l'Attribut | Type | % Null Jan | % Null Fév | Variation | Tendance |
|---|---|---|---|---|---|
| ApproverName | Event | 5,2% | 3,1% | -2,1% | AMÉLIORÉ |
| Department | Case | 8,4% | 8,9% | +0,5% | DÉGRADÉ |
| CostCenter | Event | 12,3% | 18,7% | +6,4% | DÉGRADÉ |
| Priority | Case | 1,2% | 1,1% | -0,1% | STABLE |
| DueDate | Case | 15,6% | 9,2% | -6,4% | AMÉLIORÉ |
Analyses : La comparaison révèle des tendances mixtes en matière de qualité des données. Le pourcentage de valeurs nulles pour ApproverName a diminué de 5,2 % à 3,1 %, indiquant une meilleure capture des données au stade de l’approbation - possiblement dû à des changements récents de processus exigeant une sélection explicite de l’approbateur. Toutefois, le pourcentage de valeurs nulles de CostCenter a augmenté significativement de 12,3 % à 18,7 %, suggérant une dégradation de l’affectation des centres de coût nécessitant une attention immédiate. L’amélioration spectaculaire de la complétude de DueDate (de 15,6 % à 9,2 %) reflète la mise en œuvre réussie de la saisie obligatoire de la date d’échéance. Ces tendances orientent les initiatives continues de qualité des données.
Sortie
Le calculateur Column Info affiche un tableau complet avec des statistiques détaillées pour chaque attribut de votre journal d’événements. Le tableau inclut des attributs au niveau des cas et des événements avec les informations suivantes :
Nom de l'Attribut : Le nom de l’attribut tel qu’il apparaît dans le jeu de données.
Type d'Attribut : Indique s’il s’agit d’un attribut au niveau Cas (une valeur par cas) ou au niveau Événement (une valeur par événement/activité).
Type de Données : Le type de données détecté pour l’attribut (String, Integer, Decimal, DateTime, Boolean, etc.).
Nombre Total de Valeurs : Le nombre total de valeurs présentes pour cet attribut (nombre total de cas pour les attributs cas, nombre total d’événements pour les attributs événements).
Nombre de Null : Le nombre de valeurs nulles ou manquantes pour cet attribut.
Pourcentage de Null : Le pourcentage de valeurs nulles ou manquantes, calculé comme (Nombre de Null / Nombre Total de Valeurs) * 100.
Valeurs Uniques : Le nombre de valeurs distinctes uniques dans cet attribut.
Ratio de Cardinalité : Le ratio des valeurs uniques au nombre total de valeurs, exprimé en pourcentage. Une cardinalité élevée (proche de 100 %) indique des valeurs majoritairement uniques ; une faible cardinalité indique beaucoup de valeurs répétées.
Valeurs d'Exemple : Un échantillon représentatif de valeurs réelles de l’attribut, montrant typiquement 3 à 5 valeurs distinctes pour illustrer le format et le contenu des données.
Valeur Minimale : Pour les attributs numériques et de date, la valeur minimale (la plus petite / la plus ancienne).
Valeur Maximale : Pour les attributs numériques et de date, la valeur maximale (la plus grande / la plus récente).
Fonctionnalités interactives
Tri et Filtrage : Cliquez sur les en-têtes de colonne pour trier selon n’importe quelle métrique. Utilisez la zone de recherche pour filtrer les attributs spécifiques d’intérêt.
Export des résultats : Exportez l’analyse complète des attributs au format Excel ou CSV pour documentation, comparaison ou partage avec des équipes techniques.
Analyse approfondie : Cliquez sur un nom d’attribut pour voir des statistiques supplémentaires détaillées incluant la distribution des fréquences de valeurs et des exemples plus complets.
Considérations de performance
- Grandes données : Pour des jeux de données de millions d’événements ou des centaines d’attributs, ce calculateur peut nécessiter plusieurs minutes pour terminer l’analyse
- Usage des ressources : Le calculateur effectue des analyses complètes de toutes les valeurs d’attribut, ce qui est intensif en mémoire et CPU
- Bonnes pratiques : Exécutez ce calculateur en heures creuses pour très grands jeux de données, ou utilisez des filtres pour réduire la taille du jeu avant l’exécution
Accès Administratif
Ce calculateur est réservé aux utilisateurs avec un rôle Administrateur. Les utilisateurs réguliers qui ont besoin d’informations générales sur les jeux de données doivent utiliser le calculateur Dataset Information, qui fournit des métriques clés sans la charge de performance d’une analyse de colonne complète.
Cette documentation fait partie de la plateforme mindzieStudio de process mining.