Metadatos

Visión General

El calculador de Metadatos muestra información técnica completa sobre cómo se generó, extrajo y configuró su conjunto de datos. Este calculador sin necesidad de configuración proporciona metadatos esenciales que incluyen detalles de versiones, configuración ETL, ajustes de zona horaria y mapeos de columnas principales.

A diferencia de los calculadores que analizan datos de proceso, Metadatos revela la base técnica de su conjunto de datos: cuándo fue extraído, qué versiones de la canalización ETL se usaron, cómo se interpretan las marcas de tiempo y qué nombres de columnas corresponden a conceptos clave de minería de procesos como ID de caso y actividad.

Usos Comunes

  • Verificar la frescura de los datos comprobando la marca de tiempo de extracción y las horas desde la última actualización
  • Solucionar problemas de zonas horarias revisando la configuración de zona horaria y ajustes de hora local
  • Documentar la procedencia de los datos para requisitos de cumplimiento y auditoría
  • Validar la configuración ETL confirmando la versión y ajustes del transformador
  • Apoyar la solución técnica de problemas identificando los nombres de columnas principales para scripts personalizados
  • Rastrear el versionado del conjunto de datos en múltiples entornos (desarrollo, prueba, producción)

Configuración

Este calculador no requiere configuración. Recupera automáticamente todos los metadatos de su conjunto de datos y los muestra en una tabla completa.

Los únicos campos estándar disponibles son:

Title: Título personalizado opcional para la salida (por defecto "Metadata")

Description: Descripción opcional para proporcionar contexto sobre esta vista de metadatos

Ejemplos

Ejemplo 1: Verificación de Frescura de Datos para la Toma de Decisiones

Escenario: Su equipo financiero se está preparando para una reunión mensual de revisión del negocio y necesita confirmar que están analizando los datos más actuales de cuentas por pagar. Datos obsoletos podrían conducir a conclusiones incorrectas sobre el desempeño de pagos.

Configuración:

  • Title: "Data Currency Check"
  • Description: "AP Process - Monthly Review"

Salida:

El calculador muestra una tabla de dos columnas con todos los metadatos del conjunto de datos. Las métricas clave para frescura son:

  • Última extracción de datos exitosa: 2025-10-19 6:00:00 AM
  • Horas desde la última extracción: 2.5
  • Versión de extracción: 3.2.1
  • Hora actual: 2025-10-19 8:30:00 AM
  • TimeZoneName: Eastern Standard Time
  • ProcessDisplayName: Accounts Payable Process

Ideas: Los datos se extrajeron hace solo 2.5 horas a las 6:00 AM de esta mañana, confirmando que reflejan el trabajo completado ayer. El equipo puede proceder con confianza sabiendo que trabajan con datos actuales. Si "Horas desde la última extracción" mostrara varios días, deberían solicitar una actualización de datos antes de la reunión.

Ejemplo 2: Solución de Problemas con Discrepancias de Zona Horaria

Escenario: Los usuarios reportan que las marcas de tiempo de proceso no coinciden con los horarios que ven en el sistema ERP original. Algunos casos parecen comenzar a las 4:00 AM cuando el negocio abre a las 8:00 AM. Sospecha un problema de configuración de zona horaria.

Configuración:

  • Title: "Timezone Configuration Review"
  • Description: "Investigating timestamp interpretation issues"

Salida:

El calculador de Metadatos revela la configuración de zona horaria:

  • TimeZoneName: UTC
  • IsLocalTime: False
  • Hora actual: 2025-10-19 12:30:00 PM
  • Start Time: StartTime
  • End Time: EndTime
  • UseDateOnlySorting: False

Ideas: El conjunto de datos está configurado para usar hora UTC, no hora local (IsLocalTime: False), lo que explica la discrepancia de 4 horas. El negocio opera en Hora del Este (UTC-4), por lo que lo que aparece como 4:00 AM en los datos es en realidad 8:00 AM hora local. El equipo debe reconfigurar el ETL para usar la Hora del Este o informar a los usuarios que todos los horarios se muestran en UTC. Esto previene malinterpretaciones del tiempo y desempeño del proceso.

Ejemplo 3: Documentación de Procedencia para Auditoría de Cumplimiento

Escenario: El equipo interno de auditoría de su empresa requiere documentación de las fuentes de datos, métodos de extracción y versiones para todos los análisis de minería de procesos usados en informes de cumplimiento. Necesitan verificar la trazabilidad y confiabilidad de su análisis de procesamiento de facturas.

Configuración:

  • Title: "Data Lineage - Q4 2025 Compliance Report"
  • Description: "Invoice Processing Analysis Metadata"

Salida:

La tabla de Metadatos proporciona información completa de la procedencia:

  • ProcessDisplayName: Invoice Processing
  • TransformerFilename: InvoiceProcessing_SAP_Config.json
  • TransformerVersion: 2.1.0
  • Versión de extracción: 1.8.3
  • EngineAttributeVersion: 8.0.2
  • ProcessAttributeVersion: 3.4.1
  • Última extracción de datos exitosa: 2025-10-15 11:45:00 PM
  • Etl Notes: Full extraction from SAP ECC Production
  • Descripción: Q4 2025 invoice processing for compliance reporting
  • BaseCurrency: USD

Ideas: El equipo de auditoría ahora puede rastrear exactamente cómo se generaron los datos: extraídos de SAP ECC Producción el 15 de octubre usando la versión 2.1.0 de la configuración del transformador y versión 1.8.3 de la canalización de extracción. Las versiones documentadas les permiten verificar que se usaron procesos ETL aprobados y validados. Las "Etl Notes" confirman que la fuente fue el entorno productivo, no un sistema de prueba. Esta completa trazabilidad satisface los requisitos de auditoría para la procedencia de datos.

Ejemplo 4: Apoyo al Desarrollo de Scripts Python Personalizados

Escenario: Un analista de datos está desarrollando un script Python personalizado para exportar atributos específicos de casos para análisis adicional en R. Necesita conocer los nombres exactos de columnas usadas en el conjunto de datos para escribir consultas correctas.

Configuración:

  • Title: "Column Mapping Reference"
  • Description: "Core column names for custom scripts"

Salida:

El calculador de Metadatos muestra los mapeos de columnas principales:

  • CaseId: PurchaseOrderNumber
  • Activity: ProcessStep
  • Start Time: EventTimestamp
  • End Time: EventTimestamp
  • Resource: PerformedBy
  • ExpectedOrder: StepSequence

Ideas: El analista descubre que este conjunto de datos usa nombres de columnas personalizados en lugar de los predeterminados. El identificador de caso está almacenado en "PurchaseOrderNumber" (no en "CaseId"), las actividades están en "ProcessStep" (no en "Activity") y los recursos en "PerformedBy" (no en "Resource"). Con estos nombres exactos, el analista puede escribir consultas SQL y scripts Python precisos que referencien los campos correctos. Sin esta información, el script fallaría con errores de columna no encontrada.

Ejemplo 5: Verificación de Compatibilidad de Versiones entre Entornos

Escenario: Su organización mantiene tres entornos de minería de procesos: desarrollo, prueba y producción. Antes de promover un nuevo panel a producción, necesita verificar que todos los entornos usen versiones compatibles de la canalización de extracción para garantizar comportamiento consistente.

Configuración:

  • Title: "Version Compatibility - Production Environment"
  • Description: "Pre-deployment verification"

Salida:

Los metadatos del entorno de producción muestran:

  • Versión de atributo derivado: 2.3.1
  • Versión de extracción: 1.9.0
  • ProcessAttributeVersion: 3.5.0
  • EngineAttributeVersion: 8.1.0
  • TransformerVersion: 2.2.0

Comparado contra entorno de prueba (de un calculador de Metadatos separado):

  • Versión de atributo derivado: 2.3.1 (COINCIDE)
  • Versión de extracción: 1.9.0 (COINCIDE)
  • ProcessAttributeVersion: 3.4.1 (NO COINCIDE - Producción más reciente)
  • EngineAttributeVersion: 8.1.0 (COINCIDE)
  • TransformerVersion: 2.2.0 (COINCIDE)

Ideas: Los entornos son en su mayoría compatibles, con cuatro de cinco versiones coincidiendo exactamente. Sin embargo, producción tiene una ProcessAttributeVersion más nueva (3.5.0 vs 3.4.1), indicando que producción tiene atributos específicos de proceso adicionales o modificados. Antes de desplegar el panel de prueba a producción, el equipo debe verificar si depende de atributos que existen en prueba pero pueden haber cambiado en producción. Esta verificación proactiva previene fallos en el despliegue y asegura análisis consistentes.

Ejemplo 6: Monitoreo del Estado del Pipeline ETL Automatizado

Escenario: Su equipo de ingeniería de datos ejecuta un trabajo ETL nocturno que debería actualizar los datos de minería de procesos cada mañana antes de las 6:00 AM. El equipo de operaciones necesita una manera rápida de verificar si el pipeline se ejecutó exitosamente sin revisar archivos de registro.

Configuración:

  • Title: "ETL Pipeline Status"
  • Description: "Nightly extraction monitoring - Order-to-Cash"

Salida:

El calculador de Metadatos muestra:

  • Última extracción de datos exitosa: 2025-10-18 5:45:00 AM
  • Horas desde la última extracción: 26.5
  • Versión de extracción: 1.9.0
  • Etl Notes: Incremental extraction completed successfully
  • Hora actual: 2025-10-19 8:15:00 AM

Ideas: "Horas desde la última extracción" muestra 26.5 horas, lo que significa que la última extracción exitosa fue ayer por la mañana, no esta mañana. El trabajo nocturno ha fallado. El equipo de operaciones investiga inmediatamente y descubre un timeout de conexión a base de datos que impidió completar la extracción nocturna. Al detectar esto temprano en la mañana, pueden volver a ejecutar la extracción antes de que los usuarios noten que están viendo datos obsoletos. Sin este monitoreo, los usuarios podrían tomar decisiones operativas basadas en información antigua sin darse cuenta.

Salida

El calculador de Metadatos produce una tabla única con dos columnas que muestra todos los metadatos disponibles del conjunto de datos.

Estructura de la Tabla:

Name: El nombre de cada propiedad de metadatos o configuración

Value: El valor correspondiente para esa propiedad

Categorías de Información

Los metadatos están organizados en varios grupos lógicos:

Información de Versionado:

  • Derived Attribute Version: Versión del esquema de atributos derivados
  • Extraction Version: Identificador de versión de la extracción ETL
  • ProcessAttributeVersion: Versión del esquema de atributos específicos de proceso
  • EngineAttributeVersion: Versión del esquema de atributos del motor
  • TransformerVersion: Versión del transformador de datos usado

Configuración del Proceso:

  • ProcessName: Identificador interno del proceso
  • ProcessDisplayName: Nombre humano del proceso
  • BaseCurrency: Moneda usada para cálculos monetarios

Configuración de Tiempo:

  • TimeZoneName: Zona horaria configurada para el conjunto de datos
  • IsLocalTime: Si las marcas de tiempo están en hora local (vs UTC)
  • Hora actual: Hora actual basada en configuración de zona horaria
  • UseDateOnlySorting: Si los eventos se ordenan solo por fecha (ignorando tiempo)

Mapeo de Columnas Principales:

  • CaseId: Nombre de la columna identificadora de caso
  • Activity: Nombre de la columna de actividad
  • Start Time: Nombre de la columna de hora de inicio
  • End Time: Nombre de la columna de hora de fin
  • Resource: Nombre de la columna de recurso
  • ExpectedOrder: Nombre de la columna de orden esperado

Configuración ETL:

  • TransformerFilename: Nombre del archivo de configuración/transformador
  • Order Event Algorithm: Algoritmo usado para ordenar eventos
  • Última extracción de datos exitosa: Marca de tiempo de la última ejecución ETL exitosa
  • Horas desde la última extracción: Edad calculada de los datos
  • Etl Notes: Notas del proceso ETL
  • Notes: Notas generales del conjunto de datos
  • Descripción: Descripción del conjunto de datos

Entendiendo la Salida

Frescura de Datos: Revise "Horas desde la última extracción" para determinar si sus datos están actuales. Valores superiores a 24-48 horas pueden indicar problemas en el pipeline ETL que requieren investigación.

Interpretación de Zona Horaria: La combinación de "TimeZoneName" y "IsLocalTime" determina cómo se muestran las marcas de tiempo. Si IsLocalTime es False, todos los horarios se muestran en UTC independientemente del ajuste de zona horaria.

Seguimiento de Versiones: Todos los campos de versión (Extraction Version, TransformerVersion, etc.) ayudan a rastrear qué versión de pipeline ETL y esquema generó los datos. Esto es crítico para solucionar problemas entre despliegues en distintos entornos.

Nombres de Columnas: Los mapeos de columnas principales muestran los nombres reales usados en su conjunto de datos, que pueden diferir de los valores predeterminados si se configuró mapeo personalizado al extraer los datos.

Valores Nulos: Algunas propiedades pueden mostrar valores vacíos o "Unknown" si esa información no estuvo disponible durante la extracción o no fue configurada.


Esta documentación es parte de la plataforma de minería de procesos mindzie Studio.