Información de Columnas

Visión General

El calculador de Información de Columnas proporciona metadatos detallados y estadísticas sobre todos los atributos (columnas) en tu conjunto de datos de registros de eventos. Esta herramienta administrativa muestra información completa sobre cada atributo, incluyendo tipos de datos, distribuciones de valores, conteos de nulos y valores de muestra.

IMPORTANTE: Este calculador es solo para administradores y está diseñado para análisis técnicos y propósitos de investigación. No está optimizado para uso en producción y puede tardar un tiempo considerable en procesar conjuntos de datos grandes. Los usuarios regulares deben usar el calculador de Información del Conjunto de Datos para necesidades generales de visión general del conjunto de datos.

Este calculador es usado principalmente por administradores del sistema, analistas de datos y usuarios técnicos que necesitan conocimientos profundos sobre la estructura y calidad de los datos para solucionar problemas, validar datos u optimizar el conjunto de datos.

Usos Comunes

Realizar auditorías exhaustivas de calidad de datos en todos los atributos del registro de eventos
Identificar atributos con altos porcentajes de valores nulos o faltantes
Analizar la consistencia del tipo de datos y detectar posibles problemas de conversión de tipo
Revisar la cardinalidad de los atributos (número de valores únicos) para identificar candidatos para análisis categórico
Validar resultados de extracción de datos examinando estadísticas a nivel de atributo
Diagnosticar problemas de rendimiento identificando atributos con distribuciones de valor inesperadas
Documentar el esquema y características del conjunto de datos para especificaciones técnicas

Configuración

Este calculador no requiere configuraciones específicas. Al ejecutarlo, escanea automáticamente todos los atributos en el conjunto de datos actual (tanto a nivel de caso como de evento) y genera estadísticas completas para cada uno.

Nota: El tiempo de procesamiento depende del tamaño del conjunto de datos y el número de atributos. Para conjuntos de datos muy grandes, este calculador puede tardar varios minutos en completarse.

Ejemplos

Ejemplo 1: Auditoría de Calidad de Datos Tras ETL

Escenario: Acabas de completar un proceso ETL para extraer datos de orden a cobro desde tu sistema ERP. Antes de entregar el conjunto de datos a los usuarios de negocio, necesitas verificar que todos los atributos fueron extraídos correctamente y evaluar la completitud de los datos.

Configuración:

Título: "Validación de Calidad de Datos Post-ETL"
Descripción: "Conjunto de datos O2C - extracción enero 2025"

Salida:

El calculador muestra una tabla completa con la siguiente información para cada atributo:

Nombre del Atributo	Tipo	Total de Valores	Conteo Nulos	% Nulos	Valores Únicos	Valores de Muestra
CaseID	Caso	2,456	0	0%	2,456	ORD-001, ORD-002, ORD-003
CustomerName	Caso	2,456	12	0.5%	847	Acme Corp, TechStart Inc, Global...
OrderAmount	Caso	2,456	0	0%	1,823	1250.00, 3400.50, 875.25
Region	Caso	2,456	156	6.4%	4	Norte, Sur, Este, Oeste
ActivityName	Evento	18,945	0	0%	15	Crear Orden, Aprobar Orden, Enviar...
Timestamp	Evento	18,945	0	0%	18,893	2025-01-15 08:23:00, 2025-01-15...
ApprovalLevel	Evento	18,945	8,234	43.5%	3	L1, L2, L3
Department	Evento	18,945	3,456	18.2%	8	Ventas, Finanzas, Operaciones...

Conclusiones: La auditoría revela varias preocupaciones de calidad de datos. El atributo Region tiene un 6.4% de valores nulos que afectan 156 casos; estos casos requieren revisión manual o corrección de datos. Más críticamente, el atributo ApprovalLevel tiene un 43.5% de valores nulos, lo que puede indicar que no todas las actividades requieren aprobación (esperado) o que falta información de aprobación en actividades que deberían tenerla (requiere investigación). El bajo conteo de nulos en CustomerName (0.5%) es aceptable y puede representar órdenes de prueba. Todos los identificadores críticos (CaseID, Timestamp) no tienen nulos, confirmando la integridad de los datos.

Ejemplo 2: Diagnóstico de Rendimiento

Escenario: Los usuarios reportan lentitud al filtrar en ciertos atributos. Necesitas identificar qué atributos tienen alta cardinalidad (muchos valores únicos) que podrían causar filtrados ineficientes.

Configuración:

Título: "Análisis de Cardinalidad de Atributos"
Descripción: "Investigando problemas de rendimiento de filtros"

Salida:

Nombre del Atributo	Tipo	Total de Valores	Valores Únicos	Ratio de Cardinalidad	Tipo de Dato
CaseID	Caso	45,678	45,678	100%	Cadena
TransactionID	Evento	367,824	367,824	100%	Cadena
UserComments	Evento	367,824	89,234	24.3%	Cadena
ProductSKU	Evento	367,824	12,456	3.4%	Cadena
Status	Caso	45,678	8	0.02%	Cadena
Priority	Caso	45,678	3	0.007%	Cadena

Conclusiones: El análisis revela un amplio rango de cardinalidad entre atributos. CaseID y TransactionID tienen cardinalidad del 100% (cada valor es único), siendo excelentes para identificación de casos pero pobres para filtrado categórico. UserComments tiene una cardinalidad inesperadamente alta (24.3%), sugiriendo que contiene texto libre y no valores estandarizados; filtrar por este atributo será lento y podría beneficiarse de optimización de búsqueda de texto completo. En contraste, Status (8 valores) y Priority (3 valores) son ideales para filtrado eficiente. Este análisis ayuda a optimizar el diseño de filtros y guía a los usuarios hacia selecciones de atributos de alto rendimiento.

Ejemplo 3: Documentación del Esquema para Integración

Escenario: Necesitas proporcionar documentación técnica a un proveedor externo que integrará con tu entorno de minería de procesos. Requieren información detallada sobre los atributos disponibles, tipos de datos y rangos de valores esperados.

Configuración:

Título: "Documentación del Esquema Compra a Pago"
Descripción: "Especificación técnica para integración API"

Salida:

Nombre del Atributo	Tipo de Atributo	Tipo de Dato	Total de Valores	Valores Únicos	Conteo Nulos	Valores de Muestra
PO_Number	Caso	Cadena	8,945	8,945	0	PO-2025-00001, PO-2025-00002
Vendor_ID	Caso	Cadena	8,945	234	0	V12345, V67890, V45678
Total_Amount	Caso	Decimal	8,945	7,823	0	15750.50, 2340.00, 987.25
Currency	Caso	Cadena	8,945	3	12	USD, EUR, GBP
RequestDate	Caso	DateTime	8,945	2,456	0	2025-01-15, 2025-01-16
Activity	Evento	Cadena	71,560	12	0	Crear PO, Aprobar PO, Enviar...
Resource	Evento	Cadena	71,560	145	234	john.smith, sarah.jones...
Cost_Center	Evento	Cadena	71,560	67	1,234	CC-1001, CC-2045, CC-3012

Conclusiones: La documentación del esquema muestra que PO_Number es el identificador principal del caso con unicidad garantizada y sin nulos. Todos los valores monetarios usan el campo Total_Amount (tipo decimal) con Currency especificado por separado. El proceso soporta tres monedas (USD, EUR, GBP) con 12 casos faltantes de datos de moneda que requieren corrección. La información de Resource está disponible para 145 usuarios únicos pero tiene 234 valores nulos a nivel de evento, indicando actividades automatizadas. El atributo Cost_Center tiene 1.7% de valores nulos, sugiriendo datos incompletos en ciertas actividades. Esta vista completa permite una planificación de integración precisa.

Ejemplo 4: Detección de Inconsistencias en Tipos de Datos

Escenario: Tras fusionar datos de múltiples sistemas fuente, sospechas que pueden existir inconsistencias en los tipos de datos que podrían causar errores en cálculos o comportamientos inesperados en análisis.

Configuración:

Título: "Verificación de Consistencia de Tipos de Datos"
Descripción: "Validación de datos de múltiples fuentes"

Salida:

Nombre del Atributo	Tipo Detectado	Total de Valores	Conflictos de Tipo	Valores Inconsistentes de Muestra
OrderDate	DateTime	5,678	0	-
OrderValue	Mixto	5,678	23	"1250.50", "$1,250.50", "1250,50"
QuantityOrdered	Entero	5,678	8	"100", "100.0", "100 units"
CustomerID	Cadena	5,678	0	-
IsRush	Mixto	5,678	145	"Yes", "Y", "1", "true", "TRUE"

Conclusiones: El análisis descubrió inconsistencias críticas en los tipos de datos. El atributo OrderValue contiene formatos mixtos: algunos valores incluyen símbolos de moneda y diferentes separadores decimales (coma vs punto), requiriendo limpieza antes de cálculos. QuantityOrdered muestra 8 instancias donde se añadió texto ("100 units"), lo que causará errores en agregaciones numéricas. La bandera IsRush tiene cinco representaciones diferentes de valores booleanos, requiriendo estandarización a "true/false" o "1/0" para filtrado confiable. Estos problemas deben corregirse en el proceso ETL antes de usar los datos con confianza.

Ejemplo 5: Identificación de Oportunidades de Enriquecimiento

Escenario: Deseas identificar atributos con baja cardinalidad que podrían beneficiarse de enriquecimiento con información descriptiva adicional para hacer los análisis más fáciles de usar.

Configuración:

Título: "Análisis de Oportunidades de Enriquecimiento"
Descripción: "Identificando candidatos para enriquecimiento con lookups"

Salida:

Nombre del Atributo	Tipo	Valores Únicos	% Nulos	Valores de Muestra	Potencial de Enriquecimiento
ProductCode	Evento	45	0%	P001, P002, P003	ALTO - Agregar nombres de producto
StatusCode	Caso	8	0%	ST-01, ST-02, ST-03	ALTO - Agregar descripciones de estado
RegionCode	Caso	4	0%	R1, R2, R3, R4	ALTO - Agregar nombres de región
CurrencyCode	Caso	3	0%	USD, EUR, GBP	MEDIO - Generalmente comprendido
EmployeeID	Evento	234	2.1%	E12345, E67890	ALTO - Agregar nombres de empleados

Conclusiones: Varios atributos contienen códigos que se beneficiarían de enriquecimiento. Con solo 45 códigos únicos de producto, agregar nombres facilitaría mucho los análisis para usuarios de negocio. Los 8 códigos de estado deben enriquecerse con descripciones en lenguaje claro para evitar referencias a hojas de códigos. Los IDs de empleados deben enriquecerse con nombres manteniendo el cumplimiento de privacidad. Estos enriquecimientos mejorarán significativamente la experiencia del usuario sin añadir volumen sustancial de datos.

Ejemplo 6: Monitoreo de Tendencias en Compleción de Datos

Escenario: Realizas extracciones de datos regulares y quieres monitorear si la completitud de datos está mejorando o empeorando con el tiempo comparando estadísticas de extracción actuales con líneas base anteriores.

Configuración:

Título: "Monitoreo de Compleción de Datos - Febrero 2025"
Descripción: "Comparar con línea base de enero"

Salida:

Nombre del Atributo	Tipo	% Nulos Ene	% Nulos Feb	Cambio	Tendencia
ApproverName	Evento	5.2%	3.1%	-2.1%	MEJORADA
Department	Caso	8.4%	8.9%	+0.5%	EMPEORADA
CostCenter	Evento	12.3%	18.7%	+6.4%	EMPEORADA
Priority	Caso	1.2%	1.1%	-0.1%	ESTABLE
DueDate	Caso	15.6%	9.2%	-6.4%	MEJORADA

Conclusiones: La comparación revela tendencias mixtas en la calidad de datos. El porcentaje de nulos en ApproverName disminuyó de 5.2% a 3.1%, indicando mejor captura en la etapa de aprobación—posiblemente por cambios recientes de proceso que exigen selección explícita. Sin embargo, los nulos en CostCenter aumentaron significativamente de 12.3% a 18.7%, sugiriendo una degradación en asignación de centro de costos que requiere atención inmediata. La mejora dramática en completitud de DueDate (de 15.6% a 9.2%) refleja la implementación exitosa de entrada obligatoria de fecha de vencimiento. Estas tendencias guían iniciativas continuas de calidad de datos.

Salida

El calculador de Información de Columnas muestra una tabla completa con estadísticas detalladas para cada atributo en tu registro de eventos. La tabla incluye atributos a nivel de caso y evento con la siguiente información:

Nombre del Atributo: El nombre del atributo tal como aparece en el conjunto de datos.

Tipo de Atributo: Indica si es un atributo a nivel de Caso (un valor por caso) o a nivel de Evento (un valor por evento/actividad).

Tipo de Dato: Tipo de dato detectado para el atributo (Cadena, Entero, Decimal, DateTime, Booleano, etc.).

Total de Valores: El número total de valores presentes para este atributo (total de casos para atributos de caso, total de eventos para atributos de evento).

Conteo Nulo: El número de valores nulos o faltantes en este atributo.

Porcentaje Nulo: Porcentaje de valores nulos o faltantes, calculado como (Conteo Nulo / Total de Valores) * 100.

Valores Únicos: El número de valores únicos distintos en este atributo.

Ratio de Cardinalidad: La proporción de valores únicos respecto al total, expresada en porcentaje. Alta cardinalidad (cercana al 100%) indica valores en su mayoría únicos; baja cardinalidad indica muchos valores repetidos.

Valores de Muestra: Una muestra representativa de valores reales del atributo, típicamente mostrando de 3 a 5 valores distintos para ilustrar el formato y contenido de los datos.

Valor Mínimo: Para atributos numéricos y de fecha, el valor mínimo (el más pequeño o más temprano).

Valor Máximo: Para atributos numéricos y de fecha, el valor máximo (el más grande o más reciente).

Funcionalidades Interactivas

Ordenar y Filtrar: Haz clic en los encabezados de columna para ordenar por cualquier métrica. Usa la caja de búsqueda para filtrar a atributos específicos de interés.

Exportar Resultados: Exporta el análisis completo de atributos a Excel o CSV para documentación, comparación o compartir con equipos técnicos.

Análisis Detallado: Haz clic en el nombre de un atributo para ver estadísticas adicionales como distribución de frecuencias y valores de muestra más completos.

Consideraciones de Rendimiento

Conjuntos de Datos Grandes: Para conjuntos con millones de eventos o cientos de atributos, este calculador puede requerir varios minutos para completar el análisis.
Uso de Recursos: El calculador realiza escaneos exhaustivos de todos los valores de atributos, lo cual es intensivo en memoria y CPU.
Mejores Prácticas: Ejecuta este calculador fuera de horas pico para conjuntos de datos muy grandes, o usa filtros para reducir tamaño antes de la ejecución.

Acceso Administrativo

Este calculador está restringido a usuarios con rol de Administrador. Los usuarios regulares que necesiten información general del conjunto de datos deben usar el calculador de Información del Conjunto de Datos, que ofrece métricas clave sin la carga de rendimiento del análisis exhaustivo de columnas.

Esta documentación es parte de la plataforma de minería de procesos mindzieStudio.