Información de Columnas
Visión General
El calculador de Información de Columnas proporciona metadatos detallados y estadísticas sobre todos los atributos (columnas) en tu conjunto de datos de registros de eventos. Esta herramienta administrativa muestra información completa sobre cada atributo, incluyendo tipos de datos, distribuciones de valores, conteos de nulos y valores de muestra.
IMPORTANTE: Este calculador es solo para administradores y está diseñado para análisis técnicos y propósitos de investigación. No está optimizado para uso en producción y puede tardar un tiempo considerable en procesar conjuntos de datos grandes. Los usuarios regulares deben usar el calculador de Información del Conjunto de Datos para necesidades generales de visión general del conjunto de datos.
Este calculador es usado principalmente por administradores del sistema, analistas de datos y usuarios técnicos que necesitan conocimientos profundos sobre la estructura y calidad de los datos para solucionar problemas, validar datos u optimizar el conjunto de datos.
Usos Comunes
- Realizar auditorías exhaustivas de calidad de datos en todos los atributos del registro de eventos
- Identificar atributos con altos porcentajes de valores nulos o faltantes
- Analizar la consistencia del tipo de datos y detectar posibles problemas de conversión de tipo
- Revisar la cardinalidad de los atributos (número de valores únicos) para identificar candidatos para análisis categórico
- Validar resultados de extracción de datos examinando estadísticas a nivel de atributo
- Diagnosticar problemas de rendimiento identificando atributos con distribuciones de valor inesperadas
- Documentar el esquema y características del conjunto de datos para especificaciones técnicas
Configuración
Este calculador no requiere configuraciones específicas. Al ejecutarlo, escanea automáticamente todos los atributos en el conjunto de datos actual (tanto a nivel de caso como de evento) y genera estadísticas completas para cada uno.
Nota: El tiempo de procesamiento depende del tamaño del conjunto de datos y el número de atributos. Para conjuntos de datos muy grandes, este calculador puede tardar varios minutos en completarse.
Ejemplos
Ejemplo 1: Auditoría de Calidad de Datos Tras ETL
Escenario: Acabas de completar un proceso ETL para extraer datos de orden a cobro desde tu sistema ERP. Antes de entregar el conjunto de datos a los usuarios de negocio, necesitas verificar que todos los atributos fueron extraídos correctamente y evaluar la completitud de los datos.
Configuración:
- Título: "Validación de Calidad de Datos Post-ETL"
- Descripción: "Conjunto de datos O2C - extracción enero 2025"
Salida:
El calculador muestra una tabla completa con la siguiente información para cada atributo:
| Nombre del Atributo | Tipo | Total de Valores | Conteo Nulos | % Nulos | Valores Únicos | Valores de Muestra |
|---|---|---|---|---|---|---|
| CaseID | Caso | 2,456 | 0 | 0% | 2,456 | ORD-001, ORD-002, ORD-003 |
| CustomerName | Caso | 2,456 | 12 | 0.5% | 847 | Acme Corp, TechStart Inc, Global... |
| OrderAmount | Caso | 2,456 | 0 | 0% | 1,823 | 1250.00, 3400.50, 875.25 |
| Region | Caso | 2,456 | 156 | 6.4% | 4 | Norte, Sur, Este, Oeste |
| ActivityName | Evento | 18,945 | 0 | 0% | 15 | Crear Orden, Aprobar Orden, Enviar... |
| Timestamp | Evento | 18,945 | 0 | 0% | 18,893 | 2025-01-15 08:23:00, 2025-01-15... |
| ApprovalLevel | Evento | 18,945 | 8,234 | 43.5% | 3 | L1, L2, L3 |
| Department | Evento | 18,945 | 3,456 | 18.2% | 8 | Ventas, Finanzas, Operaciones... |
Conclusiones: La auditoría revela varias preocupaciones de calidad de datos. El atributo Region tiene un 6.4% de valores nulos que afectan 156 casos; estos casos requieren revisión manual o corrección de datos. Más críticamente, el atributo ApprovalLevel tiene un 43.5% de valores nulos, lo que puede indicar que no todas las actividades requieren aprobación (esperado) o que falta información de aprobación en actividades que deberían tenerla (requiere investigación). El bajo conteo de nulos en CustomerName (0.5%) es aceptable y puede representar órdenes de prueba. Todos los identificadores críticos (CaseID, Timestamp) no tienen nulos, confirmando la integridad de los datos.
Ejemplo 2: Diagnóstico de Rendimiento
Escenario: Los usuarios reportan lentitud al filtrar en ciertos atributos. Necesitas identificar qué atributos tienen alta cardinalidad (muchos valores únicos) que podrían causar filtrados ineficientes.
Configuración:
- Título: "Análisis de Cardinalidad de Atributos"
- Descripción: "Investigando problemas de rendimiento de filtros"
Salida:
| Nombre del Atributo | Tipo | Total de Valores | Valores Únicos | Ratio de Cardinalidad | Tipo de Dato |
|---|---|---|---|---|---|
| CaseID | Caso | 45,678 | 45,678 | 100% | Cadena |
| TransactionID | Evento | 367,824 | 367,824 | 100% | Cadena |
| UserComments | Evento | 367,824 | 89,234 | 24.3% | Cadena |
| ProductSKU | Evento | 367,824 | 12,456 | 3.4% | Cadena |
| Status | Caso | 45,678 | 8 | 0.02% | Cadena |
| Priority | Caso | 45,678 | 3 | 0.007% | Cadena |
Conclusiones: El análisis revela un amplio rango de cardinalidad entre atributos. CaseID y TransactionID tienen cardinalidad del 100% (cada valor es único), siendo excelentes para identificación de casos pero pobres para filtrado categórico. UserComments tiene una cardinalidad inesperadamente alta (24.3%), sugiriendo que contiene texto libre y no valores estandarizados; filtrar por este atributo será lento y podría beneficiarse de optimización de búsqueda de texto completo. En contraste, Status (8 valores) y Priority (3 valores) son ideales para filtrado eficiente. Este análisis ayuda a optimizar el diseño de filtros y guía a los usuarios hacia selecciones de atributos de alto rendimiento.
Ejemplo 3: Documentación del Esquema para Integración
Escenario: Necesitas proporcionar documentación técnica a un proveedor externo que integrará con tu entorno de minería de procesos. Requieren información detallada sobre los atributos disponibles, tipos de datos y rangos de valores esperados.
Configuración:
- Título: "Documentación del Esquema Compra a Pago"
- Descripción: "Especificación técnica para integración API"
Salida:
| Nombre del Atributo | Tipo de Atributo | Tipo de Dato | Total de Valores | Valores Únicos | Conteo Nulos | Valores de Muestra |
|---|---|---|---|---|---|---|
| PO_Number | Caso | Cadena | 8,945 | 8,945 | 0 | PO-2025-00001, PO-2025-00002 |
| Vendor_ID | Caso | Cadena | 8,945 | 234 | 0 | V12345, V67890, V45678 |
| Total_Amount | Caso | Decimal | 8,945 | 7,823 | 0 | 15750.50, 2340.00, 987.25 |
| Currency | Caso | Cadena | 8,945 | 3 | 12 | USD, EUR, GBP |
| RequestDate | Caso | DateTime | 8,945 | 2,456 | 0 | 2025-01-15, 2025-01-16 |
| Activity | Evento | Cadena | 71,560 | 12 | 0 | Crear PO, Aprobar PO, Enviar... |
| Resource | Evento | Cadena | 71,560 | 145 | 234 | john.smith, sarah.jones... |
| Cost_Center | Evento | Cadena | 71,560 | 67 | 1,234 | CC-1001, CC-2045, CC-3012 |
Conclusiones: La documentación del esquema muestra que PO_Number es el identificador principal del caso con unicidad garantizada y sin nulos. Todos los valores monetarios usan el campo Total_Amount (tipo decimal) con Currency especificado por separado. El proceso soporta tres monedas (USD, EUR, GBP) con 12 casos faltantes de datos de moneda que requieren corrección. La información de Resource está disponible para 145 usuarios únicos pero tiene 234 valores nulos a nivel de evento, indicando actividades automatizadas. El atributo Cost_Center tiene 1.7% de valores nulos, sugiriendo datos incompletos en ciertas actividades. Esta vista completa permite una planificación de integración precisa.
Ejemplo 4: Detección de Inconsistencias en Tipos de Datos
Escenario: Tras fusionar datos de múltiples sistemas fuente, sospechas que pueden existir inconsistencias en los tipos de datos que podrían causar errores en cálculos o comportamientos inesperados en análisis.
Configuración:
- Título: "Verificación de Consistencia de Tipos de Datos"
- Descripción: "Validación de datos de múltiples fuentes"
Salida:
| Nombre del Atributo | Tipo Detectado | Total de Valores | Conflictos de Tipo | Valores Inconsistentes de Muestra |
|---|---|---|---|---|
| OrderDate | DateTime | 5,678 | 0 | - |
| OrderValue | Mixto | 5,678 | 23 | "1250.50", "$1,250.50", "1250,50" |
| QuantityOrdered | Entero | 5,678 | 8 | "100", "100.0", "100 units" |
| CustomerID | Cadena | 5,678 | 0 | - |
| IsRush | Mixto | 5,678 | 145 | "Yes", "Y", "1", "true", "TRUE" |
Conclusiones: El análisis descubrió inconsistencias críticas en los tipos de datos. El atributo OrderValue contiene formatos mixtos: algunos valores incluyen símbolos de moneda y diferentes separadores decimales (coma vs punto), requiriendo limpieza antes de cálculos. QuantityOrdered muestra 8 instancias donde se añadió texto ("100 units"), lo que causará errores en agregaciones numéricas. La bandera IsRush tiene cinco representaciones diferentes de valores booleanos, requiriendo estandarización a "true/false" o "1/0" para filtrado confiable. Estos problemas deben corregirse en el proceso ETL antes de usar los datos con confianza.
Ejemplo 5: Identificación de Oportunidades de Enriquecimiento
Escenario: Deseas identificar atributos con baja cardinalidad que podrían beneficiarse de enriquecimiento con información descriptiva adicional para hacer los análisis más fáciles de usar.
Configuración:
- Título: "Análisis de Oportunidades de Enriquecimiento"
- Descripción: "Identificando candidatos para enriquecimiento con lookups"
Salida:
| Nombre del Atributo | Tipo | Valores Únicos | % Nulos | Valores de Muestra | Potencial de Enriquecimiento |
|---|---|---|---|---|---|
| ProductCode | Evento | 45 | 0% | P001, P002, P003 | ALTO - Agregar nombres de producto |
| StatusCode | Caso | 8 | 0% | ST-01, ST-02, ST-03 | ALTO - Agregar descripciones de estado |
| RegionCode | Caso | 4 | 0% | R1, R2, R3, R4 | ALTO - Agregar nombres de región |
| CurrencyCode | Caso | 3 | 0% | USD, EUR, GBP | MEDIO - Generalmente comprendido |
| EmployeeID | Evento | 234 | 2.1% | E12345, E67890 | ALTO - Agregar nombres de empleados |
Conclusiones: Varios atributos contienen códigos que se beneficiarían de enriquecimiento. Con solo 45 códigos únicos de producto, agregar nombres facilitaría mucho los análisis para usuarios de negocio. Los 8 códigos de estado deben enriquecerse con descripciones en lenguaje claro para evitar referencias a hojas de códigos. Los IDs de empleados deben enriquecerse con nombres manteniendo el cumplimiento de privacidad. Estos enriquecimientos mejorarán significativamente la experiencia del usuario sin añadir volumen sustancial de datos.
Ejemplo 6: Monitoreo de Tendencias en Compleción de Datos
Escenario: Realizas extracciones de datos regulares y quieres monitorear si la completitud de datos está mejorando o empeorando con el tiempo comparando estadísticas de extracción actuales con líneas base anteriores.
Configuración:
- Título: "Monitoreo de Compleción de Datos - Febrero 2025"
- Descripción: "Comparar con línea base de enero"
Salida:
| Nombre del Atributo | Tipo | % Nulos Ene | % Nulos Feb | Cambio | Tendencia |
|---|---|---|---|---|---|
| ApproverName | Evento | 5.2% | 3.1% | -2.1% | MEJORADA |
| Department | Caso | 8.4% | 8.9% | +0.5% | EMPEORADA |
| CostCenter | Evento | 12.3% | 18.7% | +6.4% | EMPEORADA |
| Priority | Caso | 1.2% | 1.1% | -0.1% | ESTABLE |
| DueDate | Caso | 15.6% | 9.2% | -6.4% | MEJORADA |
Conclusiones: La comparación revela tendencias mixtas en la calidad de datos. El porcentaje de nulos en ApproverName disminuyó de 5.2% a 3.1%, indicando mejor captura en la etapa de aprobación—posiblemente por cambios recientes de proceso que exigen selección explícita. Sin embargo, los nulos en CostCenter aumentaron significativamente de 12.3% a 18.7%, sugiriendo una degradación en asignación de centro de costos que requiere atención inmediata. La mejora dramática en completitud de DueDate (de 15.6% a 9.2%) refleja la implementación exitosa de entrada obligatoria de fecha de vencimiento. Estas tendencias guían iniciativas continuas de calidad de datos.
Salida
El calculador de Información de Columnas muestra una tabla completa con estadísticas detalladas para cada atributo en tu registro de eventos. La tabla incluye atributos a nivel de caso y evento con la siguiente información:
Nombre del Atributo: El nombre del atributo tal como aparece en el conjunto de datos.
Tipo de Atributo: Indica si es un atributo a nivel de Caso (un valor por caso) o a nivel de Evento (un valor por evento/actividad).
Tipo de Dato: Tipo de dato detectado para el atributo (Cadena, Entero, Decimal, DateTime, Booleano, etc.).
Total de Valores: El número total de valores presentes para este atributo (total de casos para atributos de caso, total de eventos para atributos de evento).
Conteo Nulo: El número de valores nulos o faltantes en este atributo.
Porcentaje Nulo: Porcentaje de valores nulos o faltantes, calculado como (Conteo Nulo / Total de Valores) * 100.
Valores Únicos: El número de valores únicos distintos en este atributo.
Ratio de Cardinalidad: La proporción de valores únicos respecto al total, expresada en porcentaje. Alta cardinalidad (cercana al 100%) indica valores en su mayoría únicos; baja cardinalidad indica muchos valores repetidos.
Valores de Muestra: Una muestra representativa de valores reales del atributo, típicamente mostrando de 3 a 5 valores distintos para ilustrar el formato y contenido de los datos.
Valor Mínimo: Para atributos numéricos y de fecha, el valor mínimo (el más pequeño o más temprano).
Valor Máximo: Para atributos numéricos y de fecha, el valor máximo (el más grande o más reciente).
Funcionalidades Interactivas
Ordenar y Filtrar: Haz clic en los encabezados de columna para ordenar por cualquier métrica. Usa la caja de búsqueda para filtrar a atributos específicos de interés.
Exportar Resultados: Exporta el análisis completo de atributos a Excel o CSV para documentación, comparación o compartir con equipos técnicos.
Análisis Detallado: Haz clic en el nombre de un atributo para ver estadísticas adicionales como distribución de frecuencias y valores de muestra más completos.
Consideraciones de Rendimiento
- Conjuntos de Datos Grandes: Para conjuntos con millones de eventos o cientos de atributos, este calculador puede requerir varios minutos para completar el análisis.
- Uso de Recursos: El calculador realiza escaneos exhaustivos de todos los valores de atributos, lo cual es intensivo en memoria y CPU.
- Mejores Prácticas: Ejecuta este calculador fuera de horas pico para conjuntos de datos muy grandes, o usa filtros para reducir tamaño antes de la ejecución.
Acceso Administrativo
Este calculador está restringido a usuarios con rol de Administrador. Los usuarios regulares que necesiten información general del conjunto de datos deben usar el calculador de Información del Conjunto de Datos, que ofrece métricas clave sin la carga de rendimiento del análisis exhaustivo de columnas.
Esta documentación es parte de la plataforma de minería de procesos mindzieStudio.