Casos Duplicados
Visión General
El calculador de Casos Duplicados identifica casos con valores idénticos en los atributos seleccionados. Esta potente herramienta de calidad de datos te ayuda a encontrar entradas duplicadas, errores del sistema y problemas de integridad de datos en tus datos de proceso.
Usos Comunes
- Encontrar casos que han sido ingresados más de una vez
- Identificar casos duplicados debido a errores del sistema
- Detectar posibles escenarios de pago doble
- Encontrar pedidos o facturas duplicados
- Validar la integridad de la migración de datos
Configuración
Column Names: Selecciona la lista de atributos que se usarán para identificar casos duplicados. Los casos con valores idénticos en todos los atributos seleccionados serán marcados como duplicados.
Max Rows: Especifica el número máximo de filas a mostrar en la salida.
Ejemplo
Identificando Facturas Potencialmente Duplicadas
Escenario: Deseas identificar facturas que pueden haber sido ingresadas varias veces con el mismo proveedor, monto y fecha.
Configuración:
- Column Names: Vendor Name, Invoice Amount, Invoice Date
- Max Rows: 100
Salida:
El calculador muestra dos opciones de vista:
Vista de Casos Duplicados (por defecto):
- Muestra una fila por cada combinación única de los atributos seleccionados
- La última columna muestra la cuenta de casos que coinciden con esa combinación
- Las entradas con un recuento mayor a 1 son posibles duplicados
Vista Expandida (seleccionable desde el menú desplegable superior derecho):
- Muestra todos los casos individuales agrupados por valores coincidentes en los atributos
- Muestra atributos adicionales no especificados en la configuración
- Revela que los casos en el mismo grupo pueden diferir en otros atributos (por ejemplo, diferentes IDs de factura a pesar de montos iguales)
Perspectivas:
La vista expandida es especialmente útil porque muestra que los casos agrupados como "duplicados" con base en tus atributos seleccionados podrían ser realmente casos separados legítimos con valores diferentes en otras columnas. Por ejemplo:
- Mismo proveedor, monto y fecha podrían ser dos facturas distintas (verifica el Invoice ID)
- Pagos duplicados legítimos vs. errores de entrada de datos
- Registros duplicados generados por el sistema vs. duplicados reales del negocio
Esto te ayuda a distinguir entre duplicados verdaderos que requieren corrección y casos similares que son legítimamente separados.
Esta documentación es parte de la plataforma de minería de procesos mindzie Studio.