Frecuencia de Valor
Resumen
El filtro de Frecuencia de Valor selecciona casos según la frecuencia con la que sus valores de atributo aparecen en todo el conjunto de datos. Este filtro a nivel de caso agrupa casos por sus valores en un atributo especificado, cuenta cuántas veces ocurre cada valor e incluye o excluye casos según si la frecuencia cumple con el umbral especificado. Puede establecer umbrales usando cuentas absolutas (p. ej., "al menos 5 ocurrencias") o porcentajes (p. ej., "en al menos el 20% de los casos").
Este filtro es especialmente útil para identificar patrones comunes, detectar valores atípicos raros, enfocarse en categorías de alto volumen o eliminar casos límite poco frecuentes que puedan sesgar los resultados del análisis.
Usos Comunes
- Enfocarse en Categorías Principales: Mantener solo casos donde los valores del atributo aparecen con suficiente frecuencia para ser estadísticamente significativos, eliminando valores atípicos raros.
- Detección de Valores Atípicos: Identificar casos inusuales o raros filtrando valores de atributo que aparecen con poca frecuencia en el conjunto de datos.
- Análisis de Calidad de Datos: Encontrar datos potencialmente problemáticos identificando valores que aparecen exactamente una vez, lo que puede indicar errores de entrada o registros duplicados.
- Análisis de Alto Volumen: Concentrar el análisis en las regiones, productos o segmentos de clientes más comunes filtrando valores que ocurren frecuentemente.
- Reducción de Ruido: Eliminar casos límite y variantes de baja frecuencia que añaden complejidad sin aportar insights útiles.
- Reconocimiento de Patrones: Descubrir problemas sistemáticos identificando valores que aparecen con frecuencias específicas (p. ej., exactamente dos veces, lo que sugiere duplicación sistemática).
Ajustes
Nombre de Columna: Seleccione el atributo para analizar la frecuencia de valores. El filtro soporta atributos enteros y de texto. Las columnas ocultas y las columnas de ID de caso no están disponibles.
Método de Comparación: Elija cómo comparar la frecuencia contra su umbral:
- Igual: Mantener casos donde los valores aparecen exactamente el número especificado de veces
- Mayor Que: Mantener casos donde los valores aparecen más veces que el umbral
- Mayor o Igual Que: Mantener casos donde los valores aparecen al menos el número especificado de veces
- Menor Que: Mantener casos donde los valores aparecen menos veces que el umbral
- Menor o Igual Que: Mantener casos donde los valores no aparecen más veces que el umbral
- Diferente: Mantener casos donde los valores no aparecen exactamente el número especificado de veces
Tipo de Umbral: Especifique si el umbral representa:
- Cuenta: Un número absoluto de ocurrencias
- Porcentaje: Un porcentaje decimal del total de casos (0.0 a 1.0)
Umbral de Comparación: Ingrese el valor numérico del umbral. En modo Cuenta, es el número de ocurrencias. En modo Porcentaje, ingrese un decimal (p. ej., 0.4 para 40%).
Ejemplos
Ejemplo 1: Enfocarse en Regiones Importantes
Escenario: Sus datos de proceso incluyen casos de 15 regiones diferentes, pero quiere enfocar el análisis solo en regiones que representan un volumen significativo. Decide mantener solo las regiones que aparecen en al menos el 10% de todos los casos.
Ajustes:
- Nombre de Columna: Region
- Método de Comparación: Mayor o Igual Que
- Tipo de Umbral: Porcentaje
- Umbral de Comparación: 0.1
Resultado: El filtro mantiene solo casos de regiones que aparecen en el 10% o más del conjunto de datos. Si tiene 1,000 casos, esto significa que se incluyen regiones con al menos 100 casos y se filtran las regiones más pequeñas.
Insights: Esto enfoca su análisis en las regiones principales mientras elimina ruido de oficinas regionales pequeñas con actividad mínima, facilitando la identificación de patrones y tendencias.
Ejemplo 2: Identificar Casos Únicos
Escenario: Sospecha que algunos casos tienen valores de atributo únicos que pueden indicar problemas de calidad de datos o manejo especial. Quiere encontrar todos los casos donde el valor aparece exactamente una vez en todo el conjunto de datos.
Ajustes:
- Nombre de Columna: Customer ID
- Método de Comparación: Igual
- Tipo de Umbral: Cuenta
- Umbral de Comparación: 1.0
Resultado: El filtro devuelve solo casos donde el Customer ID aparece exactamente una vez en todos los casos.
Insights: Estos clientes únicos pueden representar:
- Clientes únicos que no regresaron
- Posibles errores de ingreso de datos con nombres mal escritos
- Casos de prueba que deberían eliminarse
- Clientes VIP que requieren atención especial
Ejemplo 3: Encontrar Productos de Alta Frecuencia
Escenario: Desea analizar solo sus productos más vendidos que aparecen en al menos 50 casos para entender patrones de éxito.
Ajustes:
- Nombre de Columna: Product Name
- Método de Comparación: Mayor o Igual Que
- Tipo de Umbral: Cuenta
- Umbral de Comparación: 50.0
Resultado: El filtro mantiene casos de productos que fueron ordenados al menos 50 veces en el conjunto de datos.
Insights: Al enfocarse en productos de alto volumen, puede identificar patrones en el procesamiento exitoso de productos, cuellos de botella comunes y oportunidades de optimización con mayor impacto para el negocio.
Ejemplo 4: Excluir Variantes Raras del Proceso
Escenario: Su proceso tiene muchas variantes raras que hacen que el mapa del proceso esté saturado. Quiere eliminar casos donde la actividad inicial es poco común (aparece en menos del 5% de los casos).
Ajustes:
- Nombre de Columna: calcStartActivity
- Método de Comparación: Menor Que
- Tipo de Umbral: Porcentaje
- Umbral de Comparación: 0.05
Resultado: El filtro mantiene solo casos donde la actividad inicial aparece en menos del 5% de todos los casos, seleccionando efectivamente las variantes raras.
Insights: Esto ayuda a identificar puntos de entrada inusuales al proceso que pueden indicar excepciones, errores o flujos de trabajo no estándar que requieren investigación.
Ejemplo 5: Eliminar Duplicados Detectados
Escenario: Desea identificar casos potencialmente duplicados encontrando valores de atributo que aparecen exactamente dos veces, lo que podría indicar problemas sistemáticos de duplicación.
Ajustes:
- Nombre de Columna: Order Number
- Método de Comparación: Igual
- Tipo de Umbral: Cuenta
- Umbral de Comparación: 2.0
Resultado: El filtro devuelve casos donde el Order Number aparece exactamente dos veces en el conjunto de datos.
Insights: Estos pares de casos pueden representar:
- Errores del sistema que causan creación duplicada de órdenes
- Envíos divididos para la misma orden
- Modificaciones o revisiones de órdenes
- Problemas de integración de datos desde múltiples sistemas
Ejemplo 6: Excluir Valores Atípicos de Baja Frecuencia
Escenario: Quiere limpiar su conjunto de datos eliminando casos de categorías que representan menos del 2% del volumen total, ya que probablemente son casos límite.
Ajustes:
- Nombre de Columna: Department
- Método de Comparación: Mayor o Igual Que
- Tipo de Umbral: Porcentaje
- Umbral de Comparación: 0.02
Resultado: El filtro mantiene solo casos de departamentos que manejan al menos el 2% de todos los casos.
Insights: Esto crea un conjunto de datos más limpio enfocado en las operaciones principales del negocio, filtrando departamentos pequeños o de prueba que pueden no representar el comportamiento típico del proceso.
Resultado
El filtro devuelve un nuevo conjunto de datos que contiene solo casos que cumplen los criterios de frecuencia especificados para el atributo seleccionado. Todos los casos con el mismo valor de atributo se tratan como un grupo: o se incluye todo el grupo, o se excluye completamente, según cuántos casos compartan ese valor.
Por ejemplo, si "Región A" aparece en 100 casos y cumple el umbral, se incluyen los 100 casos con "Región A". El filtro conserva todos los eventos y atributos de los casos incluidos.
Notas Técnicas
- Tipo de Filtro: Filtro a nivel de caso (elimina casos enteros basados en la frecuencia del valor del atributo)
- Lógica de Agrupación: Todos los casos se agrupan por sus valores en el atributo especificado y la frecuencia de cada grupo se compara con el umbral
- Manejo de Valores Nulos: Los valores nulos se tratan como un grupo distinto y se cuentan como cualquier otro valor
- Tipos de Datos Soportados: Atributos enteros (Int32, Int64) y de texto (String)
- Conversión de Umbral: En modo Porcentaje, el porcentaje se convierte automáticamente a una cuenta absoluta multiplicando por el total de casos
- Validación: El filtro sugiere nombres de columna similares si se escribe mal el nombre del atributo
Esta documentación es parte de la plataforma de minería de procesos mindzieStudio.