Grafos de Seguimiento
Nota: Este es un calculador exclusivo para administradores diseñado para pruebas y análisis de calidad de datos. La mayoría de los usuarios deberían usar el calculador de Mapa de Procesos para análisis visual de procesos.
Resumen
El calculador de Grafos de Seguimiento genera datos detallados sobre cómo se relacionan las actividades entre sí en su proceso. Calcula dos tipos de relaciones: relaciones de seguimiento directo donde una actividad sigue inmediatamente a otra, y relaciones de seguimiento eventual donde una actividad ocurre antes que otra en cualquier punto del caso independientemente de actividades intermedias.
A diferencia del calculador de Mapa de Procesos que proporciona visualizaciones interactivas, Grafos de Seguimiento realiza cálculos completos del grafo y produce tablas de datos estructuradas adecuadas para análisis detallados, pruebas, evaluación de rendimiento y validación de calidad de datos. Este calculador es principalmente utilizado por administradores y analistas de minería de procesos que necesitan acceso a datos brutos del grafo para análisis técnicos o exportación a herramientas externas.
Usos Comunes
- Probar y validar algoritmos de cálculo de grafos para precisión y rendimiento
- Medir el rendimiento del cálculo en diferentes tamaños y complejidades de conjuntos de datos
- Identificar problemas de calidad de datos donde los eventos tienen marcas de tiempo idénticas
- Exportar datos detallados del grafo para análisis externo en herramientas como R, Python o Gephi
- Analizar distribuciones de duración para pares específicos de actividades en detalle
- Validar algoritmos de minería de procesos durante desarrollo y pruebas de regresión
Configuraciones
Este calculador no tiene configuraciones configurables. Procesa todos los casos y eventos para generar datos completos del grafo cada vez que se ejecuta.
Ejemplos
Ejemplo 1: Identificación de Problemas de Calidad de Datos con Marcas de Tiempo Idénticas
Escenario: Sospecha que su registro de eventos tiene problemas de precisión en las marcas de tiempo donde múltiples actividades tienen marcas idénticas, haciendo imposible determinar su orden correcto. Desea identificar qué pares de actividades son afectados y con qué frecuencia ocurre esto.
Configuraciones:
No se requieren configuraciones.
Salida:
El calculador genera cinco tablas de datos. Las tablas 2 y 3 muestran pares indeterminados donde los eventos tienen marcas de tiempo idénticas:
Tabla DirectlyFollows-Indeterminate:
- Crear Factura y Enviar Factura: 127 ocurrencias
- Recibir Pago y Registrar Pago: 89 ocurrencias
- Aprobar Solicitud y Notificar Aprobador: 45 ocurrencias
La tabla EventuallyFollows-Indeterminate muestra los mismos pares más cualquier relación eventualmente sigue adicional con duración cero.
La tabla de estadísticas muestra:
- Tiempo de cálculo: 2,347 milisegundos
- Tiempo en llenar tablas: 156 milisegundos
- Total de cálculos: 1,247,893
Análisis: El alto número de pares indeterminados indica problemas significativos de precisión en las marcas de tiempo en su registro de eventos. El problema más común ocurre con Crear Factura y Enviar Factura que ocurren exactamente al mismo tiempo en 127 casos. Esto sugiere que estos eventos se están registrando con precisión solo de fecha o están siendo marcados con la misma hora por su sistema fuente. Debería investigar si estas actividades ocurren realmente simultáneamente o si su proceso de extracción de datos está perdiendo información de la hora del día. Este problema de calidad de datos podría afectar la precisión del análisis de procesos y debe ser resuelto mejorando la precisión de las marcas de tiempo en sus datos fuente.
Ejemplo 2: Evaluación de Rendimiento Según Tamaño del Conjunto de Datos
Escenario: Está optimizando su infraestructura de minería de procesos y necesita entender cómo escala el rendimiento del cálculo de grafos según el tamaño del conjunto de datos. Desea medir el tiempo de cálculo para diferentes volúmenes de datos para planificar la asignación de recursos.
Configuraciones:
No se requieren configuraciones.
Salida:
Ejecutando el calculador en conjuntos de datos progresivamente mayores y examinando la tabla de estadísticas:
Conjunto de datos de 10,000 casos:
- Tiempo de cálculo: 847 milisegundos
- Total de cálculos: 186,234
Conjunto de datos de 50,000 casos:
- Tiempo de cálculo: 4,521 milisegundos
- Total de cálculos: 931,170
Conjunto de datos de 100,000 casos:
- Tiempo de cálculo: 9,234 milisegundos
- Total de cálculos: 1,862,340
La tabla DirectlyFollows tiene 156 pares únicos de actividades, mientras que la tabla EventuallyFollows tiene 2,847 pares, mostrando la naturaleza exhaustiva de las relaciones eventualmente sigue.
Análisis: El tiempo de cálculo escala aproximadamente de forma lineal con el número de casos para este conjunto donde los casos tienen un número promedio consistente de eventos. Sin embargo, el total de cálculos muestra que el cómputo del grafo de eventualmente sigue es significativamente más costoso que el de directamente sigue, como se espera de la complejidad cuadrática del algoritmo para casos con muchos eventos. Para conjuntos que exceden 100,000 casos, debería considerar filtrar a los casos más relevantes antes de ejecutar este calculador, o asignar recursos computacionales adicionales. El tiempo para llenar las tablas se mantiene consistentemente bajo en todos los tamaños, indicando que la conversión a tablas no es un cuello de botella.
Ejemplo 3: Exportación de Datos de Procesos para Análisis de Investigación Externa
Escenario: Está colaborando con un equipo universitario que estudia algoritmos de optimización de procesos. Necesitan datos brutos del grafo del proceso en un formato estandarizado para probar su nuevo enfoque de análisis. Desea exportar sus relaciones de proceso con estadísticas completas de duración.
Configuraciones:
No se requieren configuraciones.
Salida:
El calculador genera la tabla DirectlyFollows con 243 pares únicos de actividades:
Filas de ejemplo de la tabla DirectlyFollows:
- Enviar Reclamo -> Validar Documentos: Cuenta=1,847, Media=2.3 días, Mediana=1.8 días, Desv. Estándar=3.2 días
- Validar Documentos -> Aprobar Reclamo: Cuenta=1,245, Media=4.7 días, Mediana=3.1 días, Desv. Estándar=6.8 días
- Validar Documentos -> Solicitar Info Adicional: Cuenta=602, Media=1.2 días, Mediana=0.9 días, Desv. Estándar=2.1 días
La tabla EventuallyFollows contiene 4,892 pares mostrando todas las posibles relaciones de actividades incluyendo las no consecutivas.
Análisis: Puede exportar la tabla DirectlyFollows en formato CSV y proporcionarla al equipo de investigación. La tabla incluye toda la información esencial para investigación en minería de procesos: nombres de actividades, frecuencias de relaciones, y estadísticas completas de duración incluyendo media, mediana, desviación estándar, valores mínimos y máximos. La tabla EventuallyFollows ofrece una imagen aún más completa de las relaciones de actividades para investigadores que estudian dependencias a largo plazo en procesos. El formato estructurado facilita la importación en herramientas de análisis como R o Python para modelado estadístico.
Ejemplo 4: Validación de Cambios en el Algoritmo de Minería de Procesos
Escenario: Su equipo de desarrollo ha modificado el algoritmo de cálculo de grafos para mejorar el rendimiento. Necesita verificar que los cambios producen resultados idénticos a la versión anterior para asegurar que no haya regresiones.
Configuraciones:
No se requieren configuraciones.
Salida:
Ejecutando ambas versiones del algoritmo en un conjunto de prueba conocido con 5 casos y 11 eventos:
Tabla DirectlyFollows (ambas versiones):
- 8 pares únicos de actividades
- Cuentes idénticos para cada par
- Estadísticas de duración idénticas
Tabla EventuallyFollows (ambas versiones):
- 28 pares únicos de actividades
- Todos los conteos coinciden exactamente
- Todas las estadísticas de duración coinciden dentro de la precisión de punto flotante
Comparación de tabla de estadísticas:
- Algoritmo antiguo: 89 milisegundos
- Algoritmo nuevo: 42 milisegundos
- Ambos: 138 cálculos totales
Análisis: La validación confirma que la optimización del algoritmo redujo el tiempo de cálculo en un 53% sin cambiar ningún valor de salida. Todos los pares de actividades, conteos y estadísticas de duración coinciden exactamente entre versiones, demostrando que no hubo regresión. La cantidad consistente de cálculos confirma que ambos algoritmos procesan los mismos pares de eventos. Este tipo de validación es esencial al hacer mejoras de rendimiento para asegurar que la precisión se mantenga. Ahora puede implementar con confianza el algoritmo optimizado en producción.
Ejemplo 5: Análisis de Variabilidad en la Duración para Pares Específicos de Actividades
Escenario: Su equipo de operaciones reporta tiempos de procesamiento inconsistentes entre las actividades de validación y aprobación de documentos. Desea estadísticas detalladas de duración para este par específico de actividades para entender la variabilidad e identificar si existen múltiples patrones distintos.
Configuraciones:
No se requieren configuraciones.
Salida:
Examinando la tabla DirectlyFollows para el par "Validar Documentos -> Aprobar":
Actividad1: Validar Documentos
Actividad2: Aprobar
Cuenta: 3,247 ocurrencias
Duración Media: 5.8 días
Duración Mediana: 2.3 días
Desviación Estándar: 12.4 días
Duración Mínima: 0.2 días
Duración Máxima: 87.3 días
La gran diferencia entre media y mediana sugiere una distribución sesgada hacia la derecha con algunos valores extremos. La alta desviación estándar indica una variabilidad significativa.
Análisis: La dramática diferencia entre la duración mediana (2.3 días) y la media (5.8 días) indica que, mientras la mayoría de los casos procesan relativamente rápido, un subconjunto toma mucho más tiempo y eleva el promedio. La duración máxima de 87.3 días muestra valores extremos que merecen investigación. El mínimo de 0.2 días sugiere que algunos casos son acelerados. Este patrón de variabilidad sugiere que debería segmentar los casos para identificar qué distingue los procesos rápidos, normales y lentos. Puede profundizar en los datos brutos de pares de eventos para identificar casos específicos con duraciones extremas e investigar sus características.
Salida
El calculador de Grafos de Seguimiento genera cinco tablas de datos estructuradas que contienen información comprensiva del grafo del proceso:
Tabla 0: DirectlyFollows
Muestra todas las relaciones directamente sigue donde una actividad sigue inmediatamente a otra sin actividades intermedias.
Columnas: Key (identificador del par de actividades), Activity1 (primera actividad), Activity2 (segunda actividad), Count (frecuencia), MeanDuration, MedianDuration, StdevDuration, MinDuration, MaxDuration
Esta tabla típicamente contiene menos relaciones que EventuallyFollows ya que solo incluye pares consecutivos de actividades.
Tabla 1: EventuallyFollows
Muestra todas las relaciones eventualmente sigue donde una actividad ocurre antes que otra en cualquier punto del caso.
Columnas: misma estructura que la tabla DirectlyFollows
Esta tabla es significativamente más grande ya que incluye todos los pares posibles de actividades independientemente de actividades intermedias. Para un caso con 10 eventos, captura 45 pares posibles comparado con solo 9 pares directamente sigue.
Tabla 2: DirectlyFollows-Indeterminate
Identifica pares directamente sigue donde eventos tienen marcas de tiempo idénticas, haciendo el ordenamiento indeterminado.
Columnas: Key (identificador no dirigido del par), Activity1, Activity2, Count
Un registro de eventos bien estructurado con marcas de tiempo precisas debería tener cero o muy pocos pares indeterminados. Altos conteos indican problemas de calidad de datos.
Tabla 3: EventuallyFollows-Indeterminate
Identifica pares eventualmente sigue con marcas de tiempo idénticas.
Columnas: misma estructura que la tabla DirectlyFollows-Indeterminate
Normalmente contiene los mismos pares que DirectlyFollows-Indeterminate ya que los problemas de marcas de tiempo afectan ambos tipos de relaciones.
Tabla 4: Stats
Contiene métricas de rendimiento para el cálculo.
Columnas: CalculationTime (milisegundos para calcular grafos), FillTablesTime (milisegundos para convertir a tablas), Calculations (total de comparaciones de pares de eventos)
Use esta tabla para monitorear rendimiento e identificar cuándo los conjuntos de datos son demasiado grandes para procesamiento eficiente.
Opciones de Exportación de Datos:
Todas las tablas pueden ser exportadas a formatos CSV o Excel para análisis adicional en herramientas externas. El formato estructurado facilita la importación en software estadístico, herramientas de visualización de grafos o scripts de análisis personalizados.
Esta documentación es parte de la plataforma de minería de procesos mindzieStudio.