Información de Columnas

Visión General

El calculador de Información de Columnas proporciona metadatos detallados y estadísticas sobre todos los atributos (columnas) en tu conjunto de datos de registros de eventos. Esta herramienta administrativa muestra información completa sobre cada atributo, incluyendo tipos de datos, distribuciones de valores, conteos de nulos y valores de muestra.

IMPORTANTE: Este calculador es solo para administradores y está diseñado para análisis técnicos y propósitos de investigación. No está optimizado para uso en producción y puede tardar un tiempo considerable en procesar conjuntos de datos grandes. Los usuarios regulares deben usar el calculador de Información del Conjunto de Datos para necesidades generales de visión general del conjunto de datos.

Este calculador es usado principalmente por administradores del sistema, analistas de datos y usuarios técnicos que necesitan conocimientos profundos sobre la estructura y calidad de los datos para solucionar problemas, validar datos u optimizar el conjunto de datos.

Usos Comunes

  • Realizar auditorías exhaustivas de calidad de datos en todos los atributos del registro de eventos
  • Identificar atributos con altos porcentajes de valores nulos o faltantes
  • Analizar la consistencia del tipo de datos y detectar posibles problemas de conversión de tipo
  • Revisar la cardinalidad de los atributos (número de valores únicos) para identificar candidatos para análisis categórico
  • Validar resultados de extracción de datos examinando estadísticas a nivel de atributo
  • Diagnosticar problemas de rendimiento identificando atributos con distribuciones de valor inesperadas
  • Documentar el esquema y características del conjunto de datos para especificaciones técnicas

Configuración

Este calculador no requiere configuraciones específicas. Al ejecutarlo, escanea automáticamente todos los atributos en el conjunto de datos actual (tanto a nivel de caso como de evento) y genera estadísticas completas para cada uno.

Nota: El tiempo de procesamiento depende del tamaño del conjunto de datos y el número de atributos. Para conjuntos de datos muy grandes, este calculador puede tardar varios minutos en completarse.

Ejemplos

Ejemplo 1: Auditoría de Calidad de Datos Tras ETL

Escenario: Acabas de completar un proceso ETL para extraer datos de orden a cobro desde tu sistema ERP. Antes de entregar el conjunto de datos a los usuarios de negocio, necesitas verificar que todos los atributos fueron extraídos correctamente y evaluar la completitud de los datos.

Configuración:

  • Título: "Validación de Calidad de Datos Post-ETL"
  • Descripción: "Conjunto de datos O2C - extracción enero 2025"

Salida:

El calculador muestra una tabla completa con la siguiente información para cada atributo:

Nombre del Atributo Tipo Total de Valores Conteo Nulos % Nulos Valores Únicos Valores de Muestra
CaseID Caso 2,456 0 0% 2,456 ORD-001, ORD-002, ORD-003
CustomerName Caso 2,456 12 0.5% 847 Acme Corp, TechStart Inc, Global...
OrderAmount Caso 2,456 0 0% 1,823 1250.00, 3400.50, 875.25
Region Caso 2,456 156 6.4% 4 Norte, Sur, Este, Oeste
ActivityName Evento 18,945 0 0% 15 Crear Orden, Aprobar Orden, Enviar...
Timestamp Evento 18,945 0 0% 18,893 2025-01-15 08:23:00, 2025-01-15...
ApprovalLevel Evento 18,945 8,234 43.5% 3 L1, L2, L3
Department Evento 18,945 3,456 18.2% 8 Ventas, Finanzas, Operaciones...

Conclusiones: La auditoría revela varias preocupaciones de calidad de datos. El atributo Region tiene un 6.4% de valores nulos que afectan 156 casos; estos casos requieren revisión manual o corrección de datos. Más críticamente, el atributo ApprovalLevel tiene un 43.5% de valores nulos, lo que puede indicar que no todas las actividades requieren aprobación (esperado) o que falta información de aprobación en actividades que deberían tenerla (requiere investigación). El bajo conteo de nulos en CustomerName (0.5%) es aceptable y puede representar órdenes de prueba. Todos los identificadores críticos (CaseID, Timestamp) no tienen nulos, confirmando la integridad de los datos.

Ejemplo 2: Diagnóstico de Rendimiento

Escenario: Los usuarios reportan lentitud al filtrar en ciertos atributos. Necesitas identificar qué atributos tienen alta cardinalidad (muchos valores únicos) que podrían causar filtrados ineficientes.

Configuración:

  • Título: "Análisis de Cardinalidad de Atributos"
  • Descripción: "Investigando problemas de rendimiento de filtros"

Salida:

Nombre del Atributo Tipo Total de Valores Valores Únicos Ratio de Cardinalidad Tipo de Dato
CaseID Caso 45,678 45,678 100% Cadena
TransactionID Evento 367,824 367,824 100% Cadena
UserComments Evento 367,824 89,234 24.3% Cadena
ProductSKU Evento 367,824 12,456 3.4% Cadena
Status Caso 45,678 8 0.02% Cadena
Priority Caso 45,678 3 0.007% Cadena

Conclusiones: El análisis revela un amplio rango de cardinalidad entre atributos. CaseID y TransactionID tienen cardinalidad del 100% (cada valor es único), siendo excelentes para identificación de casos pero pobres para filtrado categórico. UserComments tiene una cardinalidad inesperadamente alta (24.3%), sugiriendo que contiene texto libre y no valores estandarizados; filtrar por este atributo será lento y podría beneficiarse de optimización de búsqueda de texto completo. En contraste, Status (8 valores) y Priority (3 valores) son ideales para filtrado eficiente. Este análisis ayuda a optimizar el diseño de filtros y guía a los usuarios hacia selecciones de atributos de alto rendimiento.

Ejemplo 3: Documentación del Esquema para Integración

Escenario: Necesitas proporcionar documentación técnica a un proveedor externo que integrará con tu entorno de minería de procesos. Requieren información detallada sobre los atributos disponibles, tipos de datos y rangos de valores esperados.

Configuración:

  • Título: "Documentación del Esquema Compra a Pago"
  • Descripción: "Especificación técnica para integración API"

Salida:

Nombre del Atributo Tipo de Atributo Tipo de Dato Total de Valores Valores Únicos Conteo Nulos Valores de Muestra
PO_Number Caso Cadena 8,945 8,945 0 PO-2025-00001, PO-2025-00002
Vendor_ID Caso Cadena 8,945 234 0 V12345, V67890, V45678
Total_Amount Caso Decimal 8,945 7,823 0 15750.50, 2340.00, 987.25
Currency Caso Cadena 8,945 3 12 USD, EUR, GBP
RequestDate Caso DateTime 8,945 2,456 0 2025-01-15, 2025-01-16
Activity Evento Cadena 71,560 12 0 Crear PO, Aprobar PO, Enviar...
Resource Evento Cadena 71,560 145 234 john.smith, sarah.jones...
Cost_Center Evento Cadena 71,560 67 1,234 CC-1001, CC-2045, CC-3012

Conclusiones: La documentación del esquema muestra que PO_Number es el identificador principal del caso con unicidad garantizada y sin nulos. Todos los valores monetarios usan el campo Total_Amount (tipo decimal) con Currency especificado por separado. El proceso soporta tres monedas (USD, EUR, GBP) con 12 casos faltantes de datos de moneda que requieren corrección. La información de Resource está disponible para 145 usuarios únicos pero tiene 234 valores nulos a nivel de evento, indicando actividades automatizadas. El atributo Cost_Center tiene 1.7% de valores nulos, sugiriendo datos incompletos en ciertas actividades. Esta vista completa permite una planificación de integración precisa.

Ejemplo 4: Detección de Inconsistencias en Tipos de Datos

Escenario: Tras fusionar datos de múltiples sistemas fuente, sospechas que pueden existir inconsistencias en los tipos de datos que podrían causar errores en cálculos o comportamientos inesperados en análisis.

Configuración:

  • Título: "Verificación de Consistencia de Tipos de Datos"
  • Descripción: "Validación de datos de múltiples fuentes"

Salida:

Nombre del Atributo Tipo Detectado Total de Valores Conflictos de Tipo Valores Inconsistentes de Muestra
OrderDate DateTime 5,678 0 -
OrderValue Mixto 5,678 23 "1250.50", "$1,250.50", "1250,50"
QuantityOrdered Entero 5,678 8 "100", "100.0", "100 units"
CustomerID Cadena 5,678 0 -
IsRush Mixto 5,678 145 "Yes", "Y", "1", "true", "TRUE"

Conclusiones: El análisis descubrió inconsistencias críticas en los tipos de datos. El atributo OrderValue contiene formatos mixtos: algunos valores incluyen símbolos de moneda y diferentes separadores decimales (coma vs punto), requiriendo limpieza antes de cálculos. QuantityOrdered muestra 8 instancias donde se añadió texto ("100 units"), lo que causará errores en agregaciones numéricas. La bandera IsRush tiene cinco representaciones diferentes de valores booleanos, requiriendo estandarización a "true/false" o "1/0" para filtrado confiable. Estos problemas deben corregirse en el proceso ETL antes de usar los datos con confianza.

Ejemplo 5: Identificación de Oportunidades de Enriquecimiento

Escenario: Deseas identificar atributos con baja cardinalidad que podrían beneficiarse de enriquecimiento con información descriptiva adicional para hacer los análisis más fáciles de usar.

Configuración:

  • Título: "Análisis de Oportunidades de Enriquecimiento"
  • Descripción: "Identificando candidatos para enriquecimiento con lookups"

Salida:

Nombre del Atributo Tipo Valores Únicos % Nulos Valores de Muestra Potencial de Enriquecimiento
ProductCode Evento 45 0% P001, P002, P003 ALTO - Agregar nombres de producto
StatusCode Caso 8 0% ST-01, ST-02, ST-03 ALTO - Agregar descripciones de estado
RegionCode Caso 4 0% R1, R2, R3, R4 ALTO - Agregar nombres de región
CurrencyCode Caso 3 0% USD, EUR, GBP MEDIO - Generalmente comprendido
EmployeeID Evento 234 2.1% E12345, E67890 ALTO - Agregar nombres de empleados

Conclusiones: Varios atributos contienen códigos que se beneficiarían de enriquecimiento. Con solo 45 códigos únicos de producto, agregar nombres facilitaría mucho los análisis para usuarios de negocio. Los 8 códigos de estado deben enriquecerse con descripciones en lenguaje claro para evitar referencias a hojas de códigos. Los IDs de empleados deben enriquecerse con nombres manteniendo el cumplimiento de privacidad. Estos enriquecimientos mejorarán significativamente la experiencia del usuario sin añadir volumen sustancial de datos.

Ejemplo 6: Monitoreo de Tendencias en Compleción de Datos

Escenario: Realizas extracciones de datos regulares y quieres monitorear si la completitud de datos está mejorando o empeorando con el tiempo comparando estadísticas de extracción actuales con líneas base anteriores.

Configuración:

  • Título: "Monitoreo de Compleción de Datos - Febrero 2025"
  • Descripción: "Comparar con línea base de enero"

Salida:

Nombre del Atributo Tipo % Nulos Ene % Nulos Feb Cambio Tendencia
ApproverName Evento 5.2% 3.1% -2.1% MEJORADA
Department Caso 8.4% 8.9% +0.5% EMPEORADA
CostCenter Evento 12.3% 18.7% +6.4% EMPEORADA
Priority Caso 1.2% 1.1% -0.1% ESTABLE
DueDate Caso 15.6% 9.2% -6.4% MEJORADA

Conclusiones: La comparación revela tendencias mixtas en la calidad de datos. El porcentaje de nulos en ApproverName disminuyó de 5.2% a 3.1%, indicando mejor captura en la etapa de aprobación—posiblemente por cambios recientes de proceso que exigen selección explícita. Sin embargo, los nulos en CostCenter aumentaron significativamente de 12.3% a 18.7%, sugiriendo una degradación en asignación de centro de costos que requiere atención inmediata. La mejora dramática en completitud de DueDate (de 15.6% a 9.2%) refleja la implementación exitosa de entrada obligatoria de fecha de vencimiento. Estas tendencias guían iniciativas continuas de calidad de datos.

Salida

El calculador de Información de Columnas muestra una tabla completa con estadísticas detalladas para cada atributo en tu registro de eventos. La tabla incluye atributos a nivel de caso y evento con la siguiente información:

Nombre del Atributo: El nombre del atributo tal como aparece en el conjunto de datos.

Tipo de Atributo: Indica si es un atributo a nivel de Caso (un valor por caso) o a nivel de Evento (un valor por evento/actividad).

Tipo de Dato: Tipo de dato detectado para el atributo (Cadena, Entero, Decimal, DateTime, Booleano, etc.).

Total de Valores: El número total de valores presentes para este atributo (total de casos para atributos de caso, total de eventos para atributos de evento).

Conteo Nulo: El número de valores nulos o faltantes en este atributo.

Porcentaje Nulo: Porcentaje de valores nulos o faltantes, calculado como (Conteo Nulo / Total de Valores) * 100.

Valores Únicos: El número de valores únicos distintos en este atributo.

Ratio de Cardinalidad: La proporción de valores únicos respecto al total, expresada en porcentaje. Alta cardinalidad (cercana al 100%) indica valores en su mayoría únicos; baja cardinalidad indica muchos valores repetidos.

Valores de Muestra: Una muestra representativa de valores reales del atributo, típicamente mostrando de 3 a 5 valores distintos para ilustrar el formato y contenido de los datos.

Valor Mínimo: Para atributos numéricos y de fecha, el valor mínimo (el más pequeño o más temprano).

Valor Máximo: Para atributos numéricos y de fecha, el valor máximo (el más grande o más reciente).

Funcionalidades Interactivas

Ordenar y Filtrar: Haz clic en los encabezados de columna para ordenar por cualquier métrica. Usa la caja de búsqueda para filtrar a atributos específicos de interés.

Exportar Resultados: Exporta el análisis completo de atributos a Excel o CSV para documentación, comparación o compartir con equipos técnicos.

Análisis Detallado: Haz clic en el nombre de un atributo para ver estadísticas adicionales como distribución de frecuencias y valores de muestra más completos.

Consideraciones de Rendimiento

  • Conjuntos de Datos Grandes: Para conjuntos con millones de eventos o cientos de atributos, este calculador puede requerir varios minutos para completar el análisis.
  • Uso de Recursos: El calculador realiza escaneos exhaustivos de todos los valores de atributos, lo cual es intensivo en memoria y CPU.
  • Mejores Prácticas: Ejecuta este calculador fuera de horas pico para conjuntos de datos muy grandes, o usa filtros para reducir tamaño antes de la ejecución.

Acceso Administrativo

Este calculador está restringido a usuarios con rol de Administrador. Los usuarios regulares que necesiten información general del conjunto de datos deben usar el calculador de Información del Conjunto de Datos, que ofrece métricas clave sin la carga de rendimiento del análisis exhaustivo de columnas.


Esta documentación es parte de la plataforma de minería de procesos mindzieStudio.