Filtro de Casos Duplicados

Resumen

El filtro de Casos Duplicados identifica y selecciona casos que comparten valores idénticos en múltiples columnas especificadas. Este avanzado filtro a nivel de caso ayuda a detectar posibles transacciones duplicadas, envíos repetidos o problemas de calidad de datos donde la misma entidad comercial aparece varias veces en los datos de tu proceso.

Usos Comunes

Identificar envíos duplicados de facturas en cuentas por pagar
Encontrar pedidos de clientes repetidos con detalles idénticos
Detectar posibles fraudes mediante patrones de transacciones duplicadas
Descubrir problemas de migración de datos con registros replicados
Identificar casos que deberían haberse consolidado
Analizar patrones en envíos o solicitudes recurrentes

Configuración

Nombres de Columnas: Selecciona de 2 a 5 columnas para usar en la detección de duplicados. Se consideran duplicados los casos con valores idénticos en TODAS las columnas seleccionadas. Solo están disponibles columnas con tipos de datos comparables (String, Integer, DateTime, etc.).

Cómo Funciona:

Agrupa casos por los valores en todas las columnas seleccionadas
Identifica grupos que contienen 2 o más casos
Devuelve todos los casos que pertenecen a cualquier grupo duplicado
Los resultados se ordenan por tamaño del grupo (primero los grupos duplicados más grandes)

Tipos de Columnas Soportados: String, Int32, Int64, Double, Single, DateTime, TimeSpan

Ejemplos

Ejemplo 1: Detección de Facturas Duplicadas

Escenario: Deseas encontrar facturas potencialmente duplicadas en tu proceso de cuentas por pagar mediante la coincidencia en proveedor, monto y fecha de factura.

Configuración:

Nombres de Columnas: ["Vendor", "Invoice Amount", "Invoice Date"]

Resultado:

Los casos donde los tres valores coinciden se agrupan. Grupo 1: 5 facturas de "Acme Corp" por $10,000 fechadas el 2024-01-15. Grupo 2: 3 facturas de "Beta LLC" por $5,500 fechadas el 2024-02-01. Facturas únicas con combinaciones exclusivas son excluidas.

Perspectivas: Múltiples facturas con proveedor, monto y fecha idénticos a menudo indican envíos duplicados que pueden resultar en pagos repetidos. Estos casos requieren investigación y posiblemente bloqueo.

Ejemplo 2: Pedidos de Clientes Duplicados

Escenario: Tu proceso de gestión de pedidos puede contener órdenes duplicadas cuando los clientes envían varias veces. Quieres encontrar pedidos con cliente, producto y cantidad coincidentes.

Configuración:

Nombres de Columnas: ["Customer ID", "Product Code", "Order Quantity"]

Resultado:

Pedidos con cliente, producto y cantidad idénticos son marcados. Esto captura escenarios donde un cliente accidentalmente envió la misma orden múltiples veces en un corto período.

Perspectivas: Los pedidos duplicados aumentan costos de cumplimiento, crean problemas de inventario y generan insatisfacción cuando se reciben productos no deseados.

Ejemplo 3: Análisis de Patrones de Transacciones

Escenario: Estás investigando posible fraude buscando transacciones con montos, cuentas origen y horas de transacción coincidentes.

Configuración:

Nombres de Columnas: ["Source Account", "Amount", "Transaction Hour"]

Resultado:

Transacciones de la misma cuenta, con el mismo monto, durante la misma hora se agrupan. Este patrón podría indicar fraude automatizado o errores del sistema creando transacciones duplicadas.

Perspectivas: Las transacciones legítimas rara vez tienen características idénticas en múltiples campos. Altas tasas de duplicados justifican investigación más profunda de cuentas o períodos específicos.

Ejemplo 4: Verificación de Migración de Datos

Escenario: Tras migrar datos desde un sistema legado, deseas verificar que los registros no se hayan duplicado durante la migración.

Configuración:

Nombres de Columnas: ["Legacy ID", "Creation Date"]

Resultado:

Se marcan registros con mismo identificador legado y fecha de creación como posibles duplicados de migración. Idealmente, esto no debería devolver resultados si la migración fue limpia.

Perspectivas: Los duplicados de migración pueden causar inexactitudes en reportes, problemas de cumplimiento y confusión operativa. Identificarlos permite limpiezas de datos antes de problemas posteriores.

Ejemplo 5: Coincidencia en Múltiples Columnas

Escenario: Deseas encontrar órdenes de compra potencialmente duplicadas basándote en coincidencias completas: mismo proveedor, mismo monto, mismo departamento y misma fecha solicitada.

Configuración:

Nombres de Columnas: ["Vendor Name", "PO Amount", "Department", "Requested Date"]

Resultado:

Órdenes de compra que coinciden en las cuatro dimensiones son identificadas. Esta coincidencia estricta reduce falsos positivos a la vez que detecta duplicados reales que pudieron pasar por controles de compras.

Perspectivas: Usar más columnas hace la coincidencia más estricta pero más precisa. Comienza con menos columnas si exploras, luego agrega más para reducir falsos positivos.

Salida

Este filtro opera a nivel de caso usando agrupación multicolumna:

Agrupa casos por valores a través de todas las columnas especificadas
Devuelve solo casos que aparecen en grupos de 2 o más
Resultados ordenados por tamaño del grupo duplicado (los más grandes primero)
Requiere de 2 a 5 columnas para detección de duplicados
Las columnas deben contener tipos de datos comparables
Se excluyen columnas ocultas y columnas de ID de caso
Preserva todos los atributos de caso y evento para los casos coincidentes

Usa el filtro de Casos Duplicados para identificar posibles problemas de calidad de datos, detectar envíos duplicados o encontrar casos que pueden representar la misma transacción comercial ingresada múltiples veces.

Esta documentación es parte de la plataforma de minería de procesos mindzie Studio.