Eliminar Eventos Duplicados

Visión General

El enriquecimiento Eliminar Eventos Duplicados es una poderosa herramienta de calidad de datos que identifica y elimina automáticamente eventos duplicados en tus casos de proceso. Cuando el mismo evento aparece varias veces dentro de un caso con valores de atributos idénticos (nombre de actividad, marca de tiempo y todos los demás atributos del evento), este enriquecimiento elimina las copias redundantes, conservando solo la primera aparición.

Este enriquecimiento es especialmente valioso cuando se trabaja con datos de múltiples sistemas fuente, procesos de integración de datos o sistemas heredados donde pueden crearse eventos duplicados inadvertidamente. Al eliminar estos duplicados, aseguras que tu análisis de procesos refleje la ejecución real del proceso en lugar de problemas de calidad de datos, lo que conduce a tiempos de ciclo, frecuencias de actividad y visualizaciones del flujo de proceso precisas.

A diferencia de otros enriquecimientos relacionados con actividades que modifican o categorizan eventos, este enriquecimiento elimina físicamente los registros de eventos duplicados de tu registro de eventos, limpiando permanentemente tu conjunto de datos. El enriquecimiento compara todos los atributos del evento provenientes de la fuente de datos original (no atributos calculados o derivados) para determinar si dos eventos son realmente idénticos.

Usos Comunes

  • Limpiar conjuntos de datos importados de múltiples sistemas fuente que pueden contener registros de eventos duplicados
  • Eliminar eventos redundantes creados por procesos de integración de datos o pipelines ETL
  • Eliminar grabaciones de actividades duplicadas causadas por errores del sistema o problemas de sincronización de datos
  • Mejorar la calidad de los datos antes de realizar análisis de minería de procesos para asegurar métricas precisas
  • Preparar conjuntos de datos para la verificación de conformidad eliminando ruido provocado por eventos duplicados
  • Limpiar datos históricos que han acumulado duplicados a lo largo del tiempo debido a problemas de sistemas heredados
  • Garantizar conteos precisos de frecuencia de actividades y mediciones de tiempos de ciclo eliminando el ruido de eventos duplicados

Configuración

Este enriquecimiento no requiere configuración. Es una operación de un solo clic que escanea automáticamente todos los eventos dentro de cada caso y elimina cualquier duplicado encontrado.

El enriquecimiento utiliza un algoritmo inteligente de comparación que:

  • Compara todos los atributos de datos fuente originales para cada evento (nombre de actividad, marca de tiempo, ID del caso y cualquier otro atributo a nivel de evento)
  • Ignora atributos calculados o derivados añadidos por enriquecimientos previos
  • Conserva la primera aparición de cada evento único
  • Elimina eventos duplicados posteriores que coincidan en todos los valores de atributos

Para usar este enriquecimiento:

  1. Navega a 'Log Enrichment' desde cualquier análisis haciendo clic en 'Log Enrichment' en la esquina superior derecha
  2. Haz clic en 'Add New' para crear un nuevo enriquecimiento
  3. Selecciona 'Remove Duplicate Events' en la sección de Actividades
  4. Haz clic en 'Create' — no se requiere configuración adicional
  5. Haz clic en 'Calculate Enrichment' para procesar tu conjunto de datos

Ejemplos

Ejemplo 1: Procesamiento de Pedidos Multi-Sistema

Escenario: Una empresa de comercio electrónico importa datos de pedidos de tres sistemas diferentes: la tienda web, el sistema de gestión de almacenes y el sistema contable. Debido a problemas de integración de datos, algunos eventos de pedidos aparecen varias veces cuando el mismo pedido fue registrado por múltiples sistemas con marcas de tiempo y valores idénticos.

Configuración:

  • No se requiere configuración — el enriquecimiento detecta y elimina automáticamente todos los eventos duplicados

Salida: Antes del enriquecimiento, un caso de ejemplo podría contener estos eventos:

  • 2024-03-15 09:00:00 - Order Received - Order#12345 - Customer: ABC Corp - Amount: $1,500
  • 2024-03-15 09:00:00 - Order Received - Order#12345 - Customer: ABC Corp - Amount: $1,500 (duplicado)
  • 2024-03-15 10:30:00 - Payment Processed - Order#12345 - Amount: $1,500
  • 2024-03-15 10:30:00 - Payment Processed - Order#12345 - Amount: $1,500 (duplicado)
  • 2024-03-15 14:00:00 - Order Shipped - Order#12345

Después del enriquecimiento, se eliminan los eventos duplicados:

  • 2024-03-15 09:00:00 - Order Received - Order#12345 - Customer: ABC Corp - Amount: $1,500
  • 2024-03-15 10:30:00 - Payment Processed - Order#12345 - Amount: $1,500
  • 2024-03-15 14:00:00 - Order Shipped - Order#12345

Perspectivas: La empresa puede ahora medir con precisión el desempeño del proceso. El tiempo de ciclo desde el pedido hasta el envío se calcula correctamente como 5 horas, en lugar de estar distorsionado por registros duplicados. Los conteos de frecuencia de actividad reflejan ahora la ejecución real del proceso en lugar de problemas de calidad de datos.

Ejemplo 2: Trayectoria del Paciente en Salud

Escenario: Un hospital consolida datos de pacientes de su sistema EHR, sistema de radiología y sistema de farmacia. Durante la migración desde un sistema heredado, algunos eventos de pacientes se duplicaron, haciendo que las líneas de tiempo de la trayectoria del paciente muestren el mismo procedimiento varias veces y aumenten los conteos de actividad.

Configuración:

  • No se requiere configuración

Salida: Un caso de paciente antes del enriquecimiento:

  • 2024-06-20 08:00:00 - Patient Admission - Patient ID: P9876 - Ward: Cardiology
  • 2024-06-20 09:15:00 - Blood Test Ordered - Test Type: CBC
  • 2024-06-20 09:15:00 - Blood Test Ordered - Test Type: CBC (duplicado del sistema de laboratorio)
  • 2024-06-20 11:30:00 - ECG Performed - Result: Normal
  • 2024-06-20 11:30:00 - ECG Performed - Result: Normal (duplicado del sistema de radiología)
  • 2024-06-20 15:00:00 - Medication Prescribed - Drug: Aspirin
  • 2024-06-20 15:00:00 - Medication Prescribed - Drug: Aspirin (duplicado del sistema de farmacia)
  • 2024-06-21 10:00:00 - Patient Discharge

Después del enriquecimiento, se eliminan duplicados:

  • 2024-06-20 08:00:00 - Patient Admission - Patient ID: P9876 - Ward: Cardiology
  • 2024-06-20 09:15:00 - Blood Test Ordered - Test Type: CBC
  • 2024-06-20 11:30:00 - ECG Performed - Result: Normal
  • 2024-06-20 15:00:00 - Medication Prescribed - Drug: Aspirin
  • 2024-06-21 10:00:00 - Patient Discharge

Perspectivas: El hospital puede ahora realizar un seguimiento preciso de los caminos de los pacientes y calcular los tiempos reales de espera entre procedimientos. Las métricas de uso de recursos reflejan el volumen real de actividades en lugar de números inflados por registros duplicados.

Ejemplo 3: Línea de Producción en Manufactura

Escenario: Una planta manufacturera usa sistemas SCADA que ocasionalmente registran la misma operación de máquina dos veces debido a problemas de sincronización en la red. Estos eventos duplicados distorsionan los análisis de producción y hacen parecer que las operaciones duran más de lo que realmente duran.

Configuración:

  • No se requiere configuración

Salida: Caso de producción antes del enriquecimiento:

  • 2024-05-10 06:00:00 - Material Loaded - Batch: B1234 - Machine: Press-01
  • 2024-05-10 06:05:00 - Press Operation Start - Batch: B1234
  • 2024-05-10 06:05:00 - Press Operation Start - Batch: B1234 (duplicado de red)
  • 2024-05-10 06:45:00 - Press Operation Complete - Batch: B1234
  • 2024-05-10 06:45:00 - Press Operation Complete - Batch: B1234 (duplicado de red)
  • 2024-05-10 07:00:00 - Quality Inspection - Result: Pass
  • 2024-05-10 07:15:00 - Material Unloaded - Batch: B1234

Después del enriquecimiento:

  • 2024-05-10 06:00:00 - Material Loaded - Batch: B1234 - Machine: Press-01
  • 2024-05-10 06:05:00 - Press Operation Start - Batch: B1234
  • 2024-05-10 06:45:00 - Press Operation Complete - Batch: B1234
  • 2024-05-10 07:00:00 - Quality Inspection - Result: Pass
  • 2024-05-10 07:15:00 - Material Unloaded - Batch: B1234

Perspectivas: Los cálculos de tiempo de ciclo de producción son ahora precisos. La planta puede medir confiablemente la utilización de máquinas e identificar cuellos de botella reales sin ruido de registros duplicados.

Ejemplo 4: Procesamiento de Transacciones Financieras

Escenario: El sistema de procesamiento de transacciones de un banco ocasionalmente crea registros duplicados cuando las transacciones se procesan tanto a través del sistema en tiempo real como del sistema de conciliación por lote. Estos duplicados deben eliminarse antes de analizar patrones de transacciones y cumplimiento.

Configuración:

  • No se requiere configuración

Salida: Caso de transacción antes del enriquecimiento:

  • 2024-07-15 14:30:00 - Transaction Initiated - Amount: $5,000 - Account: 12345
  • 2024-07-15 14:30:05 - Fraud Check Performed - Risk Score: Low
  • 2024-07-15 14:30:05 - Fraud Check Performed - Risk Score: Low (duplicado de conciliación)
  • 2024-07-15 14:30:10 - Authorization Approved - Auth Code: A789
  • 2024-07-15 14:30:10 - Authorization Approved - Auth Code: A789 (duplicado de conciliación)
  • 2024-07-15 14:30:15 - Transaction Completed - Status: Success

Después del enriquecimiento:

  • 2024-07-15 14:30:00 - Transaction Initiated - Amount: $5,000 - Account: 12345
  • 2024-07-15 14:30:05 - Fraud Check Performed - Risk Score: Low
  • 2024-07-15 14:30:10 - Authorization Approved - Auth Code: A789
  • 2024-07-15 14:30:15 - Transaction Completed - Status: Success

Perspectivas: El banco puede ahora medir con precisión los tiempos de procesamiento de transacciones e identificar retrasos reales en su sistema. Los informes de cumplimiento muestran conteos de actividad reales en lugar de números inflados por registros duplicados.

Ejemplo 5: Gestión de Servicios IT

Escenario: Un servicio de atención IT importa datos de tickets de múltiples sistemas de monitoreo. Cuando los incidentes se escalan entre sistemas, los mismos eventos de cambio de estado a veces aparecen múltiples veces, haciendo que los tiempos de resolución de incidentes parezcan más largos de lo que realmente son.

Configuración:

  • No se requiere configuración

Salida: Caso de incidente antes del enriquecimiento:

  • 2024-08-22 10:00:00 - Incident Created - Ticket: INC0012345 - Priority: High
  • 2024-08-22 10:15:00 - Assigned to L1 Support - Agent: John Smith
  • 2024-08-22 10:30:00 - Escalated to L2 - Reason: Complex Issue
  • 2024-08-22 10:30:00 - Escalated to L2 - Reason: Complex Issue (duplicado del sistema de escalamiento)
  • 2024-08-22 11:45:00 - Issue Resolved - Resolution: Network Config Fix
  • 2024-08-22 11:45:00 - Issue Resolved - Resolution: Network Config Fix (duplicado del sistema de escalamiento)
  • 2024-08-22 12:00:00 - Incident Closed - Satisfaction: 5/5

Después del enriquecimiento:

  • 2024-08-22 10:00:00 - Incident Created - Ticket: INC0012345 - Priority: High
  • 2024-08-22 10:15:00 - Assigned to L1 Support - Agent: John Smith
  • 2024-08-22 10:30:00 - Escalated to L2 - Reason: Complex Issue
  • 2024-08-22 11:45:00 - Issue Resolved - Resolution: Network Config Fix
  • 2024-08-22 12:00:00 - Incident Closed - Satisfaction: 5/5

Perspectivas: El departamento de IT puede ahora medir con precisión el tiempo medio de resolución (MTTR) e identificar los cuellos de botella de rendimiento reales en su proceso de gestión de incidentes sin que eventos duplicados distorsionen el análisis de la línea de tiempo.

Salida

El enriquecimiento Eliminar Eventos Duplicados modifica tu registro de eventos eliminando físicamente registros de eventos duplicados. A diferencia de otros enriquecimientos que añaden nuevos atributos a tu conjunto de datos, este enriquecimiento reduce el número total de eventos en tu registro.

Qué se elimina:

  • Cualquier evento que tenga valores idénticos en todos los atributos originales de la fuente de datos (nombre de actividad, marca de tiempo, ID de caso y todos los demás atributos del evento) en comparación con un evento previo en el mismo caso
  • Solo se eliminan las ocurrencias duplicadas; la primera aparición de cada evento único siempre se conserva

Qué se mantiene:

  • La primera ocurrencia de cada evento único
  • Eventos que difieran en algún valor de atributo (incluso si coinciden en marca de tiempo o nombre de actividad)
  • Todos los atributos calculados y resultados de enriquecimientos previos

Impacto en tu conjunto de datos:

  • Conteo de Eventos: El número total de eventos en tu registro disminuye según la cantidad de duplicados encontrados
  • Conteo de Casos: El número de casos permanece sin cambios
  • Estadísticas de Actividad: Los conteos de frecuencia de actividad son más precisos, reflejando la ejecución real del proceso
  • Tiempos de Ciclo: Los cálculos de duración entre actividades son más precisos sin intervalos de duración cero causados por eventos duplicados
  • Flujo de Proceso: Los mapas de procesos y análisis de variantes muestran flujos de proceso más limpios y precisos

Notas Importantes:

  • Este enriquecimiento elimina permanentemente eventos duplicados de tu conjunto de trabajo. Si necesitas conservar los datos originales con duplicados, crea una copia de seguridad o usa un snapshot del conjunto de datos antes de aplicar este enriquecimiento.
  • El enriquecimiento solo compara columnas originales de datos fuente, no atributos calculados o derivados añadidos por enriquecimientos anteriores
  • Los eventos se consideran duplicados solo si TODOS los valores originales de atributos coinciden exactamente
  • El enriquecimiento procesa eventos en orden cronológico, conservando siempre la primera ocurrencia

Uso de los Datos Limpios: Después de ejecutar este enriquecimiento, puedes:

  • Realizar descubrimiento de procesos preciso sin ruido de eventos duplicados
  • Calcular métricas de desempeño y KPIs confiables
  • Realizar verificación de conformidad sobre datos limpios
  • Crear visualizaciones y dashboards de proceso precisos
  • Combinar con otros enriquecimientos sabiendo que tu base de datos está limpia

Véase También

Enriquecimientos relacionados de calidad de datos:

Para más información sobre mejores prácticas de calidad de datos:

  • Mejores Prácticas de Calidad de Datos - Guías para preparar datos limpios de procesos
  • Visión General de Enriquecimiento de Registro - Entendiendo el flujo de trabajo del enriquecimiento en mindzieStudio

Esta documentación forma parte de la plataforma de minería de procesos mindzie Studio.