Métadonnées
Aperçu
Le calculateur de métadonnées affiche des informations techniques complètes sur la façon dont votre jeu de données a été généré, extrait et configuré. Ce calculateur sans configuration fournit des métadonnées essentielles, y compris les détails de version, la configuration ETL, les paramètres de fuseau horaire et les mappages des colonnes principales.
Contrairement aux calculateurs qui analysent les données de processus, Métadonnées révèle la base technique de votre jeu de données - quand il a été extrait, quelles versions du pipeline ETL ont été utilisées, comment les horodatages sont interprétés, et quels noms de colonnes correspondent aux concepts fondamentaux de la fouille de processus tels que l'identifiant de cas et l'activité.
Usages courants
- Vérifier la fraîcheur des données en contrôlant la date d'extraction et les heures écoulées depuis la dernière mise à jour
- Résoudre les problèmes de fuseau horaire en examinant la configuration du fuseau horaire et les paramètres d'heure locale
- Documenter la traçabilité des données pour la conformité et les audits
- Valider la configuration ETL en confirmant la version et les paramètres du transformeur
- Soutenir le dépannage technique en identifiant les noms des colonnes principales pour les scripts personnalisés
- Suivre la gestion des versions du jeu de données à travers plusieurs environnements (développement, test, production)
Paramètres
Ce calculateur ne nécessite aucune configuration. Il récupère automatiquement toutes les métadonnées de votre jeu de données et les affiche dans un tableau complet.
Les seuls champs standards disponibles sont :
Title : Titre personnalisé facultatif pour la sortie (par défaut "Metadata")
Description : Description facultative pour fournir un contexte sur cette vue des métadonnées
Exemples
Exemple 1 : Vérification de la fraîcheur des données pour la prise de décision
Scénario : Votre équipe financière prépare une réunion mensuelle de revue d'activité et doit confirmer qu'elle analyse les données des comptes fournisseurs les plus récentes. Des données périmées pourraient conduire à des conclusions erronées sur les performances de paiement.
Paramètres :
- Title : "Vérification de la fraîcheur des données"
- Description : "Processus AP - Revue mensuelle"
Sortie :
Le calculateur affiche un tableau à deux colonnes montrant toutes les métadonnées du jeu de données. Les indicateurs clés de fraîcheur des données incluent :
- Dernière extraction réussie des données : 2025-10-19 06:00:00
- Heures depuis la dernière extraction : 2.5
- Version d'extraction : 3.2.1
- Heure actuelle : 2025-10-19 08:30:00
- TimeZoneName : Heure normale de l’Est
- ProcessDisplayName : Processus comptes fournisseurs
Perspectives : Les données ont été extraites il y a seulement 2.5 heures ce matin à 6h00, ce qui confirme qu'elles reflètent les travaux terminés la veille. L'équipe peut procéder en toute confiance à son analyse en sachant qu’elle travaille avec des données actuelles. Si "Heures depuis la dernière extraction" avait indiqué plusieurs jours, ils auraient dû demander une actualisation des données avant la réunion.
Exemple 2 : Résolution des incohérences de fuseau horaire
Scénario : Les utilisateurs signalent que les horodatages des processus ne correspondent pas aux heures affichées dans le système ERP source. Certains cas semblent démarrer à 4h00 alors que l’entreprise n’ouvre qu’à 8h00. Vous soupçonnez un problème de configuration de fuseau horaire.
Paramètres :
- Title : "Revue de la configuration du fuseau horaire"
- Description : "Enquête sur les problèmes d’interprétation des horodatages"
Sortie :
Le calculateur de métadonnées révèle la configuration du fuseau horaire :
- TimeZoneName : UTC
- IsLocalTime : False
- Heure actuelle : 2025-10-19 12:30:00
- Start Time : StartTime
- End Time : EndTime
- UseDateOnlySorting : False
Perspectives : Le jeu de données est configuré pour utiliser l’heure UTC, pas l’heure locale (IsLocalTime : False), ce qui explique le décalage de 4 heures. L’entreprise opère en heure de l’Est (UTC-4), donc ce qui apparaît comme 4h00 dans les données correspond en réalité à 8h00 heure locale. L’équipe doit soit reconfigurer l’ETL pour utiliser l’heure de l’Est, soit informer les utilisateurs que toutes les heures sont affichées en UTC. Cela évite une mauvaise interprétation du timing et des performances du processus.
Exemple 3 : Documentation de la traçabilité des données pour la conformité d’audit
Scénario : L’équipe d’audit interne de votre entreprise exige une documentation des sources de données, des méthodes d’extraction et des versions pour toutes les analyses de fouille de processus utilisées dans les rapports de conformité. Ils doivent vérifier la traçabilité et la fiabilité de votre analyse du traitement des factures.
Paramètres :
- Title : "Traçabilité des données - Rapport de conformité T4 2025"
- Description : "Métadonnées de l’analyse du traitement des factures"
Sortie :
Le tableau de métadonnées fournit des informations complètes de traçabilité :
- ProcessDisplayName : Traitement des factures
- TransformerFilename : InvoiceProcessing_SAP_Config.json
- TransformerVersion : 2.1.0
- Extraction Version : 1.8.3
- EngineAttributeVersion : 8.0.2
- ProcessAttributeVersion : 3.4.1
- Dernière extraction réussie des données : 2025-10-15 23:45:00
- Etl Notes : Extraction complète depuis SAP ECC Production
- Description : Traitement des factures T4 2025 pour rapport de conformité
- BaseCurrency : USD
Perspectives : L’équipe d’audit peut maintenant tracer précisément comment les données ont été générées : extraites de SAP ECC Production le 15 octobre avec la configuration du transformeur version 2.1.0 et la version pipeline d’extraction 1.8.3. Les versions documentées leur permettent de vérifier que les processus ETL validés et approuvés ont été utilisés. Les "Etl Notes" confirment que la source de données était l’environnement de production, pas un système de test. Cette traçabilité complète satisfait les exigences d’audit sur l’origine des données.
Exemple 4 : Support au développement de scripts Python personnalisés
Scénario : Un analyste de données développe un script Python personnalisé pour exporter des attributs spécifiques des cas en vue d’une analyse complémentaire dans R. Il a besoin de connaître les noms exacts des colonnes utilisées dans le jeu de données pour écrire des requêtes correctes.
Paramètres :
- Title : "Référence des mappages de colonnes"
- Description : "Noms des colonnes principales pour scripts personnalisés"
Sortie :
Le calculateur de métadonnées affiche les mappages de colonnes principaux :
- CaseId : PurchaseOrderNumber
- Activity : ProcessStep
- Start Time : EventTimestamp
- End Time : EventTimestamp
- Resource : PerformedBy
- ExpectedOrder : StepSequence
Perspectives : L’analyste découvre que ce jeu de données utilise des noms de colonnes personnalisés plutôt que les valeurs par défaut. L’identifiant de cas est stocké dans "PurchaseOrderNumber" (pas dans "CaseId"), les activités dans "ProcessStep" (pas dans "Activity"), et les ressources dans "PerformedBy" (pas dans "Resource"). Munie de ces noms exacts, l’analyste peut écrire des requêtes SQL et des scripts Python précis qui référencent les bons champs. Sans ces informations, le script aurait échoué avec des erreurs de colonne introuvable.
Exemple 5 : Vérification de la compatibilité des versions entre environnements
Scénario : Votre organisation maintient trois environnements de fouille de processus : développement, test, production. Avant de promouvoir un nouveau tableau de bord en production, vous devez vérifier que tous les environnements utilisent des versions compatibles du pipeline d’extraction des données pour assurer un comportement cohérent.
Paramètres :
- Title : "Compatibilité des versions - Environnement production"
- Description : "Vérification pré-déploiement"
Sortie :
Les métadonnées de l’environnement de production montrent :
- Derived Attribute Version : 2.3.1
- Extraction Version : 1.9.0
- ProcessAttributeVersion : 3.5.0
- EngineAttributeVersion : 8.1.0
- TransformerVersion : 2.2.0
Comparé à l’environnement de test (depuis un autre calculateur Métadonnées) :
- Derived Attribute Version : 2.3.1 (CORRESPONDANCE)
- Extraction Version : 1.9.0 (CORRESPONDANCE)
- ProcessAttributeVersion : 3.4.1 (DIFFÉRENCE - Production plus récente)
- EngineAttributeVersion : 8.1.0 (CORRESPONDANCE)
- TransformerVersion : 2.2.0 (CORRESPONDANCE)
Perspectives : Les environnements sont majoritairement compatibles, avec quatre versions sur cinq qui correspondent exactement. Cependant, la production a une ProcessAttributeVersion plus récente (3.5.0 vs 3.4.1), indiquant que la production comporte des attributs spécifiques au processus supplémentaires ou modifiés. Avant de déployer le tableau de bord du test vers la production, l’équipe doit vérifier si celui-ci dépend d’attributs présents dans le test mais susceptibles d’avoir changé en production. Cette vérification proactive évite les échecs de déploiement et garantit une analyse cohérente entre environnements.
Exemple 6 : Surveillance de la santé du pipeline ETL automatisé
Scénario : Votre équipe d’ingénierie des données exécute un job ETL nocturne censé actualiser les données de fouille de processus avant 6h00 chaque matin. L’équipe des opérations a besoin d’un moyen simple pour vérifier rapidement si le pipeline a fonctionné correctement sans consulter les fichiers journaux.
Paramètres :
- Title : "Statut du pipeline ETL"
- Description : "Surveillance de l’extraction nocturne - Order-to-Cash"
Sortie :
Le calculateur de métadonnées affiche :
- Dernière extraction réussie des données : 2025-10-18 05:45:00
- Heures depuis la dernière extraction : 26.5
- Version d’extraction : 1.9.0
- Etl Notes : Extraction incrémentale terminée avec succès
- Heure actuelle : 2025-10-19 08:15:00
Perspectives : "Heures depuis la dernière extraction" indique 26.5 heures, ce qui signifie que la dernière extraction réussie date d’hier matin, pas de ce matin. Le job nocturne a échoué. L’équipe des opérations enquête immédiatement et découvre un problème de timeout de connexion à la base de données qui a empêché l’extraction de se terminer. En détectant ce problème tôt le matin, ils peuvent relancer l’extraction avant que les utilisateurs métiers ne découvrent qu’ils travaillent sur des données anciennes. Sans cette surveillance, les utilisateurs auraient pu prendre des décisions opérationnelles basées sur des informations périmées sans le savoir.
Sortie
Le calculateur de métadonnées produit un tableau unique à deux colonnes affichant toutes les métadonnées disponibles du jeu de données.
Structure du tableau :
Name : Le nom de chaque propriété de métadonnée ou paramètre de configuration
Value : La valeur correspondante de cette propriété
Catégories d’informations
Les métadonnées sont organisées en plusieurs groupes logiques :
Informations de version :
- Derived Attribute Version : Version du schéma des attributs dérivés
- Extraction Version : Identifiant de version de l’extraction ETL
- ProcessAttributeVersion : Version du schéma des attributs spécifiques au processus
- EngineAttributeVersion : Version du schéma des attributs du moteur
- TransformerVersion : Version du transformeur de données utilisé
Configuration du processus :
- ProcessName : Identifiant interne du processus
- ProcessDisplayName : Nom lisible du processus
- BaseCurrency : Devise utilisée pour les calculs monétaires
Configuration temporelle :
- TimeZoneName : Fuseau horaire configuré pour le jeu de données
- IsLocalTime : Indique si les horodatages sont en heure locale (par opposition à UTC)
- Heure actuelle : Heure actuelle basée sur les paramètres du fuseau horaire
- UseDateOnlySorting : Indique si les événements sont triés uniquement par date (ignorant l’heure)
Mappage des colonnes principales :
- CaseId : Nom de la colonne identifiant le cas
- Activity : Nom de la colonne de l’activité
- Start Time : Nom de la colonne de l’heure de début
- End Time : Nom de la colonne de l’heure de fin
- Resource : Nom de la colonne de la ressource
- ExpectedOrder : Nom de la colonne de l’ordre attendu
Configuration ETL :
- TransformerFilename : Nom du fichier de transformeur/configuration
- Order Event Algorithm : Algorithme utilisé pour le tri des événements
- Dernière extraction réussie des données : Horodatage de la dernière exécution ETL réussie
- Heures depuis la dernière extraction : Âge calculé des données
- Etl Notes : Notes du processus ETL
- Notes : Notes générales du jeu de données
- Description : Description du jeu de données
Comprendre la sortie
Fraîcheur des données : Vérifiez "Heures depuis la dernière extraction" pour déterminer si vos données sont à jour. Des valeurs supérieures à 24-48 heures peuvent indiquer des problèmes dans le pipeline ETL qui nécessitent une investigation.
Interprétation du fuseau horaire : La combinaison de "TimeZoneName" et "IsLocalTime" détermine comment les horodatages sont affichés. Si IsLocalTime est False, toutes les heures sont affichées en UTC quel que soit le paramètre TimeZoneName.
Gestion des versions : Tous les champs de version (Extraction Version, TransformerVersion, etc.) permettent de suivre quelle version du pipeline ETL et du schéma a généré les données. Ceci est crucial pour le dépannage en cas de déploiement multi-environnements.
Noms de colonnes : Les mappages des colonnes principales indiquent les noms réels des colonnes utilisées dans votre jeu de données, qui peuvent différer des valeurs par défaut si un mappage personnalisé a été configuré lors de l’extraction.
Valeurs nulles : Certaines propriétés peuvent afficher des valeurs vides ou "Unknown" si cette information n’était pas disponible lors de l’extraction ou n’a pas été configurée.
Cette documentation fait partie de la plateforme de fouille de processus mindzie Studio.