Rellenar espacios en blanco en atributos de eventos

Resumen

El enriquecimiento Rellenar espacios en blanco en atributos de eventos es un operador poderoso de calidad de datos que rellena inteligentemente valores nulos o en blanco en atributos a nivel de evento al propagar valores no nulos hacia adelante dentro de cada caso. Esta herramienta esencial de limpieza de datos aborda un problema común de calidad de datos, donde los atributos de eventos contienen información incompleta, como estados de pedidos, estados de aprobación o números de seguimiento que pueden no estar registrados en cada paso del proceso, pero deberían persistir lógicamente hasta que cambien. El enriquecimiento utiliza una estrategia de rellenado hacia adelante, llevando el último valor conocido hacia eventos subsecuentes que tienen valores nulos o en blanco.

Este enriquecimiento opera a nivel de evento dentro de cada caso, procesando los eventos en orden cronológico para asegurar que los valores en blanco hereden el valor no nulo más reciente de eventos previos en el mismo caso. El enfoque de rellenado hacia adelante es particularmente valioso para atributos basados en estado, donde la ausencia de un valor típicamente significa "sin cambio" en lugar de "sin valor". Al rellenar estos espacios en blanco, se crea una vista completa y consistente de los valores de atributos a lo largo del ciclo de vida del caso, permitiendo un análisis de procesos más preciso, filtrado y generación de informes sin perder la relación temporal entre eventos.

Usos comunes

  • Completar atributos de estado de pedido en procesos de compra a pago donde los cambios de estado sólo se registran cuando ocurren, no se repiten en cada paso
  • Rellenar estados de aprobación en procesos de flujo de trabajo donde las decisiones de aprobación persisten a través de actividades subsecuentes hasta la siguiente etapa de aprobación
  • Propagar números de seguimiento o IDs de referencia que se asignan al inicio del proceso pero se necesitan para análisis en todos los eventos
  • Completar atributos de producto o cliente que se capturan en la creación del pedido pero faltan en eventos de cumplimiento y envío
  • Rellenar información del transportista de envío que se determina en el despacho pero debe asociarse con todos los eventos de seguimiento posteriores
  • Mantener atributos de fase o etapa de proyecto a través de todas las actividades dentro de cada fase de ejecución del proyecto
  • Completar asignaciones de representante o equipo de ventas que aplican a todos los eventos en un caso después de la asignación inicial

Configuración

Nombre del atributo de evento: Seleccione el atributo a nivel de evento que contiene valores en blanco o nulos que desea rellenar. El menú desplegable muestra todos los atributos de evento en su conjunto de datos. El enriquecimiento procesará cada caso independientemente, llenando valores en blanco al llevar hacia adelante el último valor conocido no nulo de eventos anteriores dentro del mismo caso. Sólo se rellenan los valores que son explícitamente nulos o en blanco; los valores no nulos existentes se preservan y usan como base para rellenar los espacios en blanco posteriores. Elija atributos donde los valores faltantes lógicamente signifiquen “usar el valor previo” en lugar de “realmente no tener valor”, tales como campos de estado, indicadores o códigos de referencia que persisten a través de múltiples actividades.

Ejemplos

Ejemplo 1: Completar estado de pedido

Escenario: El sistema de procesamiento de pedidos de una empresa de comercio electrónico registra cambios de estado de pedido en un atributo de evento llamado "Order_Status", pero este atributo sólo se llena cuando el estado realmente cambia. La mayoría de los eventos tienen valores nulos para Order_Status, lo que impide filtrar o analizar pedidos por su estado en etapas específicas del proceso.

Datos de eventos antes del enriquecimiento: | Case ID | Activity | Timestamp | Order_Status | Order_Amount | |---------|----------|-----------|--------------|--------------| | PO-1001 | Create Order | 2024-01-10 08:00 | Pending | 1500.00 | | PO-1001 | Credit Check | 2024-01-10 08:15 | null | 1500.00 | | PO-1001 | Approve Order | 2024-01-10 09:30 | Approved | 1500.00 | | PO-1001 | Pick Items | 2024-01-10 10:00 | null | 1500.00 | | PO-1001 | Pack Items | 2024-01-10 11:00 | null | 1500.00 | | PO-1001 | Ship Order | 2024-01-10 14:00 | Shipped | 1500.00 | | PO-1001 | Delivery Confirmed | 2024-01-10 16:00 | null | 1500.00 |

Configuración:

  • Nombre del atributo de evento: Order_Status

Resultado:

Datos de eventos después del enriquecimiento: | Case ID | Activity | Timestamp | Order_Status | Order_Amount | |---------|----------|-----------|--------------|--------------| | PO-1001 | Create Order | 2024-01-10 08:00 | Pending | 1500.00 | | PO-1001 | Credit Check | 2024-01-10 08:15 | Pending | 1500.00 | | PO-1001 | Approve Order | 2024-01-10 09:30 | Approved | 1500.00 | | PO-1001 | Pick Items | 2024-01-10 10:00 | Approved | 1500.00 | | PO-1001 | Pack Items | 2024-01-10 11:00 | Approved | 1500.00 | | PO-1001 | Ship Order | 2024-01-10 14:00 | Shipped | 1500.00 | | PO-1001 | Delivery Confirmed | 2024-01-10 16:00 | Shipped | 1500.00 |

El enriquecimiento rellenó valores nulos con el estado más reciente: "Pending" se propaga hacia el evento de Credit Check, "Approved" hacia las actividades de picking y packing, y "Shipped" hacia la confirmación de entrega.

Perspectivas: Ahora puede filtrar con precisión los mapas de procesos para mostrar "todas las actividades de picking donde el estado fue Approved" o calcular métricas de desempeño para pedidos aprobados vs. pendientes en cualquier etapa del proceso. La información completa de estados permite un análisis preciso de cuellos de botella y verificación de cumplimiento en cada paso.

Ejemplo 2: Propagación de número de seguimiento de envío

Escenario: Una empresa logística asigna números de seguimiento al crear envíos, pero su sistema sólo registra el número en el evento de despacho. Todos los eventos de escaneo y seguimiento subsiguientes tienen números de seguimiento nulos, impidiendo un análisis de envío completo.

Datos de eventos antes del enriquecimiento: | Case ID | Activity | Timestamp | Tracking_Number | Location | Scanner_ID | |---------|----------|-----------|-----------------|----------|------------| | SHIP-501 | Create Shipment | 2024-01-15 06:00 | null | Warehouse A | SYS001 | | SHIP-501 | Assign to Route | 2024-01-15 06:30 | null | Warehouse A | USER123 | | SHIP-501 | Dispatch | 2024-01-15 07:00 | TRK-789456123 | Warehouse A | SCAN001 | | SHIP-501 | In Transit Scan | 2024-01-15 10:00 | null | Hub Central | SCAN045 | | SHIP-501 | Arrival Scan | 2024-01-15 14:00 | null | Hub East | SCAN089 | | SHIP-501 | Out for Delivery | 2024-01-15 16:00 | null | Branch 12 | SCAN102 | | SHIP-501 | Delivered | 2024-01-15 18:30 | null | Customer | SCAN102 |

Configuración:

  • Nombre del atributo de evento: Tracking_Number

Resultado:

Después del enriquecimiento, todos los eventos desde el despacho en adelante tienen el número de seguimiento: | Case ID | Activity | Timestamp | Tracking_Number | Location | Scanner_ID | |---------|----------|-----------|-----------------|----------|------------| | SHIP-501 | Create Shipment | 2024-01-15 06:00 | null | Warehouse A | SYS001 | | SHIP-501 | Assign to Route | 2024-01-15 06:30 | null | Warehouse A | USER123 | | SHIP-501 | Dispatch | 2024-01-15 07:00 | TRK-789456123 | Warehouse A | SCAN001 | | SHIP-501 | In Transit Scan | 2024-01-15 10:00 | TRK-789456123 | Hub Central | SCAN045 | | SHIP-501 | Arrival Scan | 2024-01-15 14:00 | TRK-789456123 | Hub East | SCAN089 | | SHIP-501 | Out for Delivery | 2024-01-15 16:00 | TRK-789456123 | Branch 12 | SCAN102 | | SHIP-501 | Delivered | 2024-01-15 18:30 | TRK-789456123 | Customer | SCAN102 |

Note que los primeros dos eventos permanecen nulos porque todavía no se había asignado número de seguimiento; el rellenado hacia adelante sólo propaga valores después de que aparecen por primera vez.

Perspectivas: El servicio al cliente ahora puede buscar cualquier número de seguimiento y ver el recorrido completo incluyendo todos los eventos de escaneo. El análisis de desempeño puede medir tiempos de manejo en cada ubicación con una atribución correcta del número de seguimiento. La gestión de excepciones puede identificar casos donde el número aparece en etapas inesperadas.

Ejemplo 3: Estado de seguro de paciente en salud

Escenario: El sistema de gestión de pacientes de un hospital registra resultados de verificación de seguro en un atributo de evento, pero este estado sólo se actualiza cuando se realiza la verificación o cambia el seguro. La mayoría de eventos de tratamiento tienen el estado de seguro nulo, dificultando el análisis de patrones de tratamiento según tipo de cobertura.

Datos de eventos antes del enriquecimiento: | Case ID | Activity | Timestamp | Insurance_Status | Treatment_Code | Provider | |---------|----------|-----------|------------------|----------------|----------| | PAT-2001 | Registration | 2024-02-01 08:00 | Pending | null | Clerk A | | PAT-2001 | Insurance Verification | 2024-02-01 08:15 | Verified | null | System | | PAT-2001 | Triage Assessment | 2024-02-01 08:30 | null | TRIAGE-01 | Nurse B | | PAT-2001 | Physician Consult | 2024-02-01 09:00 | null | CONSULT-01 | Dr. Smith | | PAT-2001 | Lab Test Order | 2024-02-01 09:30 | null | LAB-CBC | Dr. Smith | | PAT-2001 | Lab Collection | 2024-02-01 10:00 | null | LAB-CBC | Tech C | | PAT-2001 | Insurance Re-verification | 2024-02-01 11:00 | Approved | null | System | | PAT-2001 | Treatment | 2024-02-01 12:00 | null | TX-MINOR | Dr. Jones | | PAT-2001 | Discharge | 2024-02-01 14:00 | null | DISCHARGE | Nurse D |

Configuración:

  • Nombre del atributo de evento: Insurance_Status

Resultado:

Después del enriquecimiento, el estado del seguro está completo durante todo el recorrido del paciente: | Case ID | Activity | Timestamp | Insurance_Status | Treatment_Code | Provider | |---------|----------|-----------|------------------|----------------|----------| | PAT-2001 | Registration | 2024-02-01 08:00 | Pending | null | Clerk A | | PAT-2001 | Insurance Verification | 2024-02-01 08:15 | Verified | null | System | | PAT-2001 | Triage Assessment | 2024-02-01 08:30 | Verified | TRIAGE-01 | Nurse B | | PAT-2001 | Physician Consult | 2024-02-01 09:00 | Verified | CONSULT-01 | Dr. Smith | | PAT-2001 | Lab Test Order | 2024-02-01 09:30 | Verified | LAB-CBC | Dr. Smith | | PAT-2001 | Lab Collection | 2024-02-01 10:00 | Verified | LAB-CBC | Tech C | | PAT-2001 | Insurance Re-verification | 2024-02-01 11:00 | Approved | null | System | | PAT-2001 | Treatment | 2024-02-01 12:00 | Approved | TX-MINOR | Dr. Jones | | PAT-2001 | Discharge | 2024-02-01 14:00 | Approved | DISCHARGE | Nurse D |

Perspectivas: Ahora el hospital puede rastrear con precisión qué tratamientos ocurrieron bajo qué estado de autorización de seguro. Los reportes de cumplimiento pueden verificar que todos los procedimientos contaron con la aprobación adecuada. El análisis de calidad puede identificar retrasos entre la verificación del seguro y el inicio del tratamiento.

Ejemplo 4: Prioridad de orden de trabajo en manufactura

Escenario: Una planta de manufactura asigna niveles de prioridad a órdenes de trabajo, pero la prioridad sólo se registra cuando se crea la orden o cambia por solicitudes del cliente. Las actividades de producción no llevan la información de prioridad, impidiendo analizar la asignación de recursos según prioridad.

Datos de eventos antes del enriquecimiento: | Case ID | Activity | Timestamp | Priority | Machine | Operator | |---------|----------|-----------|----------|---------|----------| | WO-3005 | Create Work Order | 2024-03-01 06:00 | Normal | null | System | | WO-3005 | Material Allocation | 2024-03-01 07:00 | null | null | Planner A | | WO-3005 | Setup Machine | 2024-03-01 08:00 | null | MC-205 | Tech B | | WO-3005 | Start Production | 2024-03-01 09:00 | null | MC-205 | Operator C | | WO-3005 | Priority Escalation | 2024-03-01 11:00 | Urgent | null | Supervisor | | WO-3005 | Quality Check | 2024-03-01 13:00 | null | QC-12 | Inspector D | | WO-3005 | Finish Production | 2024-03-01 15:00 | null | MC-205 | Operator C | | WO-3005 | Packaging | 2024-03-01 16:00 | null | PKG-08 | Packer E |

Configuración:

  • Nombre del atributo de evento: Priority

Resultado:

El enriquecimiento propaga los valores de prioridad hacia adelante, mostrando exactamente cuándo cambió la prioridad: | Case ID | Activity | Timestamp | Priority | Machine | Operator | |---------|----------|-----------|----------|---------|----------| | WO-3005 | Create Work Order | 2024-03-01 06:00 | Normal | null | System | | WO-3005 | Material Allocation | 2024-03-01 07:00 | Normal | null | Planner A | | WO-3005 | Setup Machine | 2024-03-01 08:00 | Normal | MC-205 | Tech B | | WO-3005 | Start Production | 2024-03-01 09:00 | Normal | MC-205 | Operator C | | WO-3005 | Priority Escalation | 2024-03-01 11:00 | Urgent | null | Supervisor | | WO-3005 | Quality Check | 2024-03-01 13:00 | Urgent | QC-12 | Inspector D | | WO-3005 | Finish Production | 2024-03-01 15:00 | Urgent | MC-205 | Operator C | | WO-3005 | Packaging | 2024-03-01 16:00 | Urgent | PKG-08 | Packer E |

Perspectivas: Los gerentes de producción ahora pueden identificar qué actividades se realizaron bajo prioridad urgente, medir el impacto de las escalaciones de prioridad en los tiempos de ciclo y optimizar la asignación de recursos en función del estado real de prioridad en cada etapa de producción.

Ejemplo 5: Autoridad de aprobación en transacciones financieras

Escenario: El sistema de procesamiento de transacciones de un banco registra el nivel de autoridad de aprobación (Sucursal, Regional, Corporativo) sólo cuando las transacciones se envían para aprobación. Los pasos de procesamiento subsiguientes tienen valores nulos en la autoridad, impidiendo analizar la ruta del flujo de trabajo según nivel de autoridad.

Datos de eventos antes del enriquecimiento: | Case ID | Activity | Timestamp | Approval_Authority | Amount | Status | |---------|----------|-----------|-------------------|--------|--------| | TXN-8001 | Initiate Transfer | 2024-04-01 09:00 | null | 250000.00 | Pending | | TXN-8001 | Risk Assessment | 2024-04-01 09:15 | null | 250000.00 | Pending | | TXN-8001 | Route for Approval | 2024-04-01 09:30 | Regional | 250000.00 | Pending | | TXN-8001 | Document Review | 2024-04-01 10:00 | null | 250000.00 | Pending | | TXN-8001 | Compliance Check | 2024-04-01 10:30 | null | 250000.00 | Pending | | TXN-8001 | Regional Approval | 2024-04-01 11:00 | null | 250000.00 | Approved | | TXN-8001 | Execute Transfer | 2024-04-01 11:15 | null | 250000.00 | Completed | | TXN-8001 | Confirmation Sent | 2024-04-01 11:20 | null | 250000.00 | Completed |

Configuración:

  • Nombre del atributo de evento: Approval_Authority

Resultado:

Después del enriquecimiento, todos los eventos posteriores al enrutamiento muestran el nivel de autoridad: | Case ID | Activity | Timestamp | Approval_Authority | Amount | Status | |---------|----------|-----------|-------------------|--------|--------| | TXN-8001 | Initiate Transfer | 2024-04-01 09:00 | null | 250000.00 | Pending | | TXN-8001 | Risk Assessment | 2024-04-01 09:15 | null | 250000.00 | Pending | | TXN-8001 | Route for Approval | 2024-04-01 09:30 | Regional | 250000.00 | Pending | | TXN-8001 | Document Review | 2024-04-01 10:00 | Regional | 250000.00 | Pending | | TXN-8001 | Compliance Check | 2024-04-01 10:30 | Regional | 250000.00 | Pending | | TXN-8001 | Regional Approval | 2024-04-01 11:00 | Regional | 250000.00 | Approved | | TXN-8001 | Execute Transfer | 2024-04-01 11:15 | Regional | 250000.00 | Completed | | TXN-8001 | Confirmation Sent | 2024-04-01 11:20 | Regional | 250000.00 | Completed |

Perspectivas: El banco ahora puede medir tiempos de procesamiento por nivel de autoridad de aprobación, identificar cuellos de botella en flujos de aprobación regionales vs corporativos y asegurar el cumplimiento de las políticas de enrutamiento por nivel de autoridad. Los tableros de desempeño pueden mostrar tiempos promedio de aprobación segmentados por nivel de autoridad.

Resultado

El enriquecimiento Rellenar espacios en blanco en atributos de eventos modifica el atributo seleccionado en el lugar, reemplazando valores nulos o en blanco con el valor no nulo más recientemente ocurrido de eventos previos dentro del mismo caso. El enriquecimiento procesa cada caso independientemente, asegurando que los valores nunca se propaguen entre casos.

Algoritmo de rellenado hacia adelante: El enriquecimiento procesa eventos en orden cronológico dentro de cada caso, manteniendo una variable de "último valor conocido". Cuando un evento tiene un valor no nulo para el atributo seleccionado, ese valor se convierte en el nuevo "último valor conocido". Cuando un evento tiene un valor nulo o en blanco, el enriquecimiento lo rellena con el "último valor conocido" actual, si existe. Este enfoque crea una función escalonada donde los valores persisten hasta que cambian explícitamente a un nuevo valor no nulo.

Manejo de valores nulos: El enriquecimiento rellena sólo valores que son explícitamente nulos o en blanco; nunca sobrescribe valores no nulos existentes, incluso si difieren del valor previo. Si los primeros eventos de un caso tienen valores nulos y ningún valor previo existe para propagar, esos valores iniciales permanecen sin cambios hasta que aparece el primer valor no nulo en un evento posterior.

Aislamiento a nivel de caso: Cada caso se procesa completamente de forma independiente. El enriquecimiento nunca lleva valores de un caso a otro, garantizando integridad de datos y evitando contaminación cruzada de valores entre casos. Cuando comienza un nuevo caso, el "último valor conocido" se reinicia a nulo.

Preservación del tipo de dato: El enriquecimiento mantiene el tipo de dato original del atributo que se está rellenando. Los valores de texto, números, fechas y otros tipos se manejan correctamente, asegurando que los valores rellenados coincidan con el tipo de los valores no nulos originales.

Dependencia del orden de eventos: El enriquecimiento depende de un orden correcto de eventos dentro de cada caso. Los eventos deben ordenarse por timestamp antes de aplicar este enriquecimiento para asegurar que los valores se propaguen en la secuencia cronológica correcta. Si los eventos no están debidamente ordenados, el rellenado hacia adelante puede producir resultados inesperados.

Uso con otros enriquecimientos: Este enriquecimiento debería aplicarse típicamente al inicio de su flujo de enriquecimiento, inmediatamente después de cualquier operación de limpieza que afecte el orden de eventos. Una vez que se rellenan los espacios en blanco, otros enriquecimientos y filtros pueden referenciar el atributo con confianza sabiendo que contiene información completa. El atributo rellenado puede usarse en:

  • Filtros de mapas de proceso para mostrar variantes por valor de atributo en etapas específicas
  • Cálculos que requieren valores completos en todos los eventos
  • Verificación de conformidad que valida valores de atributo en actividades específicas
  • Análisis de desempeño que segmenta casos por estados de atributo en diferentes fases del proceso

Impacto en rendimiento: El enriquecimiento procesa datos eficientemente iterando a través de los eventos de cada caso exactamente una vez. Para conjuntos grandes, el rendimiento es lineal respecto al número de eventos. La operación modifica los datos en memoria sin crear atributos nuevos, haciendo que sea eficiente en uso de memoria.

Cuándo no usar este enriquecimiento: Este enriquecimiento está diseñado para atributos basados en estado donde valores faltantes significan lógicamente "sin cambio". No lo use para:

  • Atributos de medición donde nulo significa "no medido" en lugar de "usar valor previo" (lecturas de temperatura, cantidades)
  • Datos específicos de evento que realmente varían por evento (nombres de actividad, timestamps, recursos)
  • Atributos donde nulo tiene un significado comercial distinto al valor previo
  • Valores aleatorios o independientes que no deberían propagarse (IDs de transacción, identificadores únicos)

Véase también

  • Convertir a atributos de caso - Convierte automáticamente atributos de eventos a nivel de caso cuando los valores no cambian
  • Atributo de caso representativo - Selecciona un valor representativo de atributos de eventos para crear atributos de caso
  • Ocultar atributos en blanco - Remueve atributos sin valores del conjunto de datos
  • Anonimizar - Protege datos sensibles manteniendo valor analítico
  • Ordenar log por hora de inicio - Asegura un orden correcto de eventos antes de rellenar espacios en blanco
  • Agrupar valores de atributos - Combina valores similares en categorías estandarizadas
  • Reemplazar texto - Busca y reemplaza valores de texto en atributos
  • Recortar texto - Limpia valores de atributos eliminando espacios extra

Esta documentación es parte de la plataforma de minería de procesos mindzieStudio.