Informations sur les Colonnes

Vue d'ensemble

Le calculateur Column Info fournit des métadonnées détaillées et des statistiques sur toutes les attributs (colonnes) de votre jeu de données de journal d'événements. Cet outil administratif affiche des informations complètes sur chaque attribut, incluant les types de données, les distributions des valeurs, le nombre de valeurs nulles, et des valeurs d'exemple.

IMPORTANT : Ceci est un calculateur réservé aux administrateurs, conçu pour l'analyse technique et la recherche. Il n'est pas optimisé pour une utilisation en production et peut prendre un temps important pour traiter de grands ensembles de données. Les utilisateurs réguliers doivent utiliser le calculateur Dataset Information pour des besoins généraux de vue d'ensemble du jeu de données.

Ce calculateur est principalement utilisé par les administrateurs système, les analystes de données et les utilisateurs techniques qui ont besoin d'informations approfondies sur la structure et la qualité des données pour le dépannage, la validation des données ou l'optimisation des jeux de données.

Usages courants

Réaliser des audits complets de qualité des données sur tous les attributs du journal d'événements
Identifier les attributs avec un pourcentage élevé de valeurs nulles ou manquantes
Analyser la cohérence des types de données et détecter d’éventuels problèmes de conversion de type
Examiner la cardinalité des attributs (nombre de valeurs uniques) pour identifier les candidats à l'analyse catégorielle
Valider les résultats d’extraction de données en examinant les statistiques au niveau des attributs
Diagnostiquer les problèmes de performance en identifiant les attributs ayant des distributions de valeurs inattendues
Documenter le schéma et les caractéristiques du jeu de données pour les spécifications techniques

Paramètres

Ce calculateur ne requiert aucune configuration spécifique. Lors de son exécution, il analyse automatiquement tous les attributs du jeu de données actuel (à la fois au niveau des cas et des événements) et génère des statistiques complètes pour chacun.

Remarque : Le temps de traitement dépend de la taille du jeu de données et du nombre d’attributs. Pour des jeux de données très volumineux, ce calculateur peut prendre plusieurs minutes à s’exécuter.

Exemples

Exemple 1 : Audit de Qualité des Données après ETL

Contexte : Vous venez de terminer un processus ETL pour extraire des données order-to-cash depuis votre système ERP. Avant de diffuser le jeu de données aux utilisateurs métier, vous devez vérifier que tous les attributs ont été extraits correctement et évaluer la complétude des données.

Paramètres :

Titre : "Validation de la Qualité des Données Post-ETL"
Description : "Jeu de données O2C - Extraction janvier 2025"

Sortie :

Le calculateur affiche un tableau complet avec les informations suivantes pour chaque attribut :

Nom de l'Attribut	Type	Nombre total de valeurs	Nombre de null	% Null	Valeurs uniques	Valeurs d'exemple
CaseID	Case	2 456	0	0%	2 456	ORD-001, ORD-002, ORD-003
CustomerName	Case	2 456	12	0,5%	847	Acme Corp, TechStart Inc, Global...
OrderAmount	Case	2 456	0	0%	1 823	1250.00, 3400.50, 875.25
Region	Case	2 456	156	6,4%	4	North, South, East, West
ActivityName	Event	18 945	0	0%	15	Create Order, Approve Order, Ship...
Timestamp	Event	18 945	0	0%	18 893	2025-01-15 08:23:00, 2025-01-15...
ApprovalLevel	Event	18 945	8 234	43,5%	3	L1, L2, L3
Department	Event	18 945	3 456	18,2%	8	Sales, Finance, Operations...

Analyses : L’audit révèle plusieurs préoccupations en matière de qualité des données. L’attribut Region compte 6,4 % de valeurs nulles affectant 156 cas - ces cas nécessitent une revue manuelle ou une correction des données. Plus critique, l’attribut ApprovalLevel présente 43,5 % de valeurs nulles, ce qui peut indiquer que toutes les activités ne nécessitent pas d’approbation (ce qui est attendu), ou que des données d’approbation manquent pour des activités qui devraient en avoir (requiert une enquête). Le faible nombre de valeurs nulles sur CustomerName (0,5 %) est acceptable et peut représenter des commandes tests. Tous les identifiants critiques (CaseID, Timestamp) n’ont aucune valeur nulle, confirmant l’intégrité des données.

Exemple 2 : Dépannage de Performance

Contexte : Les utilisateurs signalent une lenteur lors du filtrage sur certains attributs. Vous devez identifier les attributs ayant une cardinalité élevée (beaucoup de valeurs uniques) qui pourraient causer une inefficacité du filtrage.

Paramètres :

Titre : "Analyse de la Cardinalité des Attributs"
Description : "Investigation des problèmes de performance du filtrage"

Sortie :

Nom de l'Attribut	Type	Nombre total de valeurs	Valeurs uniques	Ratio de cardinalité	Type de données
CaseID	Case	45 678	45 678	100%	String
TransactionID	Event	367 824	367 824	100%	String
UserComments	Event	367 824	89 234	24,3%	String
ProductSKU	Event	367 824	12 456	3,4%	String
Status	Case	45 678	8	0,02%	String
Priority	Case	45 678	3	0,007%	String

Analyses : L’analyse révèle une large variation de cardinalité entre les attributs. CaseID et TransactionID ont une cardinalité de 100 % (chaque valeur est unique), ce qui en fait d’excellents identifiants de cas mais de mauvais candidats pour le filtrage catégoriel. UserComments a une cardinalité très élevée (24,3 %), suggérant qu’il contient du texte libre plutôt que des valeurs standardisées - le filtrage sur cet attribut sera lent et pourrait bénéficier d’une optimisation par recherche en texte intégral. En revanche, Status (8 valeurs) et Priority (3 valeurs) sont idéaux pour un filtrage efficace. Cette analyse aide à optimiser la conception des filtres et oriente les utilisateurs vers des sélections d’attributs performantes.

Exemple 3 : Documentation du Schéma pour l’Intégration

Contexte : Vous devez fournir une documentation technique à un fournisseur tiers qui intégrera votre environnement de process mining. Il a besoin d’informations détaillées sur les attributs disponibles, les types de données et les plages de valeurs attendues.

Paramètres :

Titre : "Documentation du Schéma Purchase-to-Pay"
Description : "Spécification technique pour intégration API"

Sortie :

Nom de l'Attribut	Type d'Attribut	Type de Données	Nombre total de valeurs	Valeurs uniques	Nombre de null	Valeurs d'exemple
PO_Number	Case	String	8 945	8 945	0	PO-2025-00001, PO-2025-00002
Vendor_ID	Case	String	8 945	234	0	V12345, V67890, V45678
Total_Amount	Case	Decimal	8 945	7 823	0	15750.50, 2340.00, 987.25
Currency	Case	String	8 945	3	12	USD, EUR, GBP
RequestDate	Case	DateTime	8 945	2 456	0	2025-01-15, 2025-01-16
Activity	Event	String	71 560	12	0	Create PO, Approve PO, Send...
Resource	Event	String	71 560	145	234	john.smith, sarah.jones...
Cost_Center	Event	String	71 560	67	1 234	CC-1001, CC-2045, CC-3012

Analyses : La documentation du schéma montre que PO_Number est l’identifiant principal du cas, avec une unicité garantie et aucune valeur nulle. Toutes les valeurs monétaires utilisent le champ Total_Amount (type décimal), la devise étant spécifiée séparément. Le processus supporte trois devises (USD, EUR, GBP) avec 12 cas manquant la donnée devises qui nécessite correction. L’information sur Resource est disponible pour 145 utilisateurs uniques mais présente 234 valeurs nulles au niveau événement, indiquant certaines activités automatisées. L’attribut Cost_Center a 1,7 % de valeurs nulles, suggérant une entrée de données incomplète pour certaines activités. Cette vue globale permet une planification d’intégration précise.

Exemple 4 : Détection des Incohérences de Type de Données

Contexte : Après la fusion de données provenant de plusieurs systèmes sources, vous suspectez des incohérences de type de données qui pourraient causer des erreurs de calcul ou un comportement inattendu dans les analyses.

Paramètres :

Titre : "Contrôle de Cohérence des Types de Données"
Description : "Validation multi-source des données"

Sortie :

Nom de l'Attribut	Type Détecté	Nombre total de valeurs	Conflits de type	Exemples de valeurs incohérentes
OrderDate	DateTime	5 678	0	-
OrderValue	Mixed	5 678	23	"1250.50", "$1,250.50", "1250,50"
QuantityOrdered	Integer	5 678	8	"100", "100.0", "100 units"
CustomerID	String	5 678	0	-
IsRush	Mixed	5 678	145	"Yes", "Y", "1", "true", "TRUE"

Analyses : L’analyse a mis au jour des incohérences critiques de type de données. L’attribut OrderValue contient un format mixte - certaines valeurs incluent des symboles monétaires et différents séparateurs décimaux (virgule vs point), nécessitant un nettoyage des données avant les calculs. QuantityOrdered montre 8 cas où du texte était ajouté ("100 units"), ce qui provoquera des erreurs dans les agrégations numériques. Le drapeau IsRush a cinq représentations différentes de valeurs booléennes, nécessitant une standardisation en "true/false" ou "1/0" pour un filtrage fiable. Ces problèmes doivent être résolus dans le processus ETL avant que les données puissent être utilisées de manière fiable.

Exemple 5 : Identification des Opportunités d’Enrichissement

Contexte : Vous souhaitez identifier les attributs à faible cardinalité qui pourraient bénéficier d’un enrichissement par des informations descriptives supplémentaires afin de rendre les analyses plus conviviales.

Paramètres :

Titre : "Analyse des Opportunités d’Enrichissement"
Description : "Identification des candidats à l’enrichissement par lookup"

Sortie :

Nom de l'Attribut	Type	Valeurs uniques	% Null	Valeurs d'exemple	Potentiel d’enrichissement
ProductCode	Event	45	0%	P001, P002, P003	ÉLEVÉ - Ajouter noms des produits
StatusCode	Case	8	0%	ST-01, ST-02, ST-03	ÉLEVÉ - Ajouter descriptions des statuts
RegionCode	Case	4	0%	R1, R2, R3, R4	ÉLEVÉ - Ajouter noms des régions
CurrencyCode	Case	3	0%	USD, EUR, GBP	MOYEN - Généralement compréhensible
EmployeeID	Event	234	2,1%	E12345, E67890	ÉLEVÉ - Ajouter noms des employés

Analyses : Plusieurs attributs contiennent des codes qui bénéficieraient d’un enrichissement. Avec seulement 45 codes produit uniques, ajouter les noms des produits rendrait les analyses beaucoup plus lisibles pour les utilisateurs métier. Les 8 codes statut devraient être enrichis avec des descriptions en langage clair afin d’éviter aux utilisateurs de se référer aux feuilles de codes. Les identifiants employés devraient être enrichis avec les noms tout en respectant la conformité à la confidentialité. Ces enrichissements amélioreront significativement l’expérience utilisateur sans augmenter considérablement le volume de données.

Exemple 6 : Suivi des Tendances de Complétude des Données

Contexte : Vous effectuez des extractions de données régulières et souhaitez suivre si la complétude des données s’améliore ou se dégrade dans le temps en comparant les statistiques d’extraction actuelles avec des baselines précédentes.

Paramètres :

Titre : "Suivi de la Complétude des Données - Février 2025"
Description : "Comparaison avec la baseline de janvier"

Sortie :

Nom de l'Attribut	Type	% Null Jan	% Null Fév	Variation	Tendance
ApproverName	Event	5,2%	3,1%	-2,1%	AMÉLIORÉ
Department	Case	8,4%	8,9%	+0,5%	DÉGRADÉ
CostCenter	Event	12,3%	18,7%	+6,4%	DÉGRADÉ
Priority	Case	1,2%	1,1%	-0,1%	STABLE
DueDate	Case	15,6%	9,2%	-6,4%	AMÉLIORÉ

Analyses : La comparaison révèle des tendances mixtes en matière de qualité des données. Le pourcentage de valeurs nulles pour ApproverName a diminué de 5,2 % à 3,1 %, indiquant une meilleure capture des données au stade de l’approbation - possiblement dû à des changements récents de processus exigeant une sélection explicite de l’approbateur. Toutefois, le pourcentage de valeurs nulles de CostCenter a augmenté significativement de 12,3 % à 18,7 %, suggérant une dégradation de l’affectation des centres de coût nécessitant une attention immédiate. L’amélioration spectaculaire de la complétude de DueDate (de 15,6 % à 9,2 %) reflète la mise en œuvre réussie de la saisie obligatoire de la date d’échéance. Ces tendances orientent les initiatives continues de qualité des données.

Sortie

Le calculateur Column Info affiche un tableau complet avec des statistiques détaillées pour chaque attribut de votre journal d’événements. Le tableau inclut des attributs au niveau des cas et des événements avec les informations suivantes :

Nom de l'Attribut : Le nom de l’attribut tel qu’il apparaît dans le jeu de données.

Type d'Attribut : Indique s’il s’agit d’un attribut au niveau Cas (une valeur par cas) ou au niveau Événement (une valeur par événement/activité).

Type de Données : Le type de données détecté pour l’attribut (String, Integer, Decimal, DateTime, Boolean, etc.).

Nombre Total de Valeurs : Le nombre total de valeurs présentes pour cet attribut (nombre total de cas pour les attributs cas, nombre total d’événements pour les attributs événements).

Nombre de Null : Le nombre de valeurs nulles ou manquantes pour cet attribut.

Pourcentage de Null : Le pourcentage de valeurs nulles ou manquantes, calculé comme (Nombre de Null / Nombre Total de Valeurs) * 100.

Valeurs Uniques : Le nombre de valeurs distinctes uniques dans cet attribut.

Ratio de Cardinalité : Le ratio des valeurs uniques au nombre total de valeurs, exprimé en pourcentage. Une cardinalité élevée (proche de 100 %) indique des valeurs majoritairement uniques ; une faible cardinalité indique beaucoup de valeurs répétées.

Valeurs d'Exemple : Un échantillon représentatif de valeurs réelles de l’attribut, montrant typiquement 3 à 5 valeurs distinctes pour illustrer le format et le contenu des données.

Valeur Minimale : Pour les attributs numériques et de date, la valeur minimale (la plus petite / la plus ancienne).

Valeur Maximale : Pour les attributs numériques et de date, la valeur maximale (la plus grande / la plus récente).

Fonctionnalités interactives

Tri et Filtrage : Cliquez sur les en-têtes de colonne pour trier selon n’importe quelle métrique. Utilisez la zone de recherche pour filtrer les attributs spécifiques d’intérêt.

Export des résultats : Exportez l’analyse complète des attributs au format Excel ou CSV pour documentation, comparaison ou partage avec des équipes techniques.

Analyse approfondie : Cliquez sur un nom d’attribut pour voir des statistiques supplémentaires détaillées incluant la distribution des fréquences de valeurs et des exemples plus complets.

Considérations de performance

Grandes données : Pour des jeux de données de millions d’événements ou des centaines d’attributs, ce calculateur peut nécessiter plusieurs minutes pour terminer l’analyse
Usage des ressources : Le calculateur effectue des analyses complètes de toutes les valeurs d’attribut, ce qui est intensif en mémoire et CPU
Bonnes pratiques : Exécutez ce calculateur en heures creuses pour très grands jeux de données, ou utilisez des filtres pour réduire la taille du jeu avant l’exécution

Accès Administratif

Ce calculateur est réservé aux utilisateurs avec un rôle Administrateur. Les utilisateurs réguliers qui ont besoin d’informations générales sur les jeux de données doivent utiliser le calculateur Dataset Information, qui fournit des métriques clés sans la charge de performance d’une analyse de colonne complète.

Cette documentation fait partie de la plateforme mindzieStudio de process mining.