Frecuencia de Valor

Resumen

El filtro de Frecuencia de Valor selecciona casos según la frecuencia con la que sus valores de atributo aparecen en todo el conjunto de datos. Este filtro a nivel de caso agrupa casos por sus valores en un atributo especificado, cuenta cuántas veces ocurre cada valor e incluye o excluye casos según si la frecuencia cumple con el umbral especificado. Puede establecer umbrales usando cuentas absolutas (p. ej., "al menos 5 ocurrencias") o porcentajes (p. ej., "en al menos el 20% de los casos").

Este filtro es especialmente útil para identificar patrones comunes, detectar valores atípicos raros, enfocarse en categorías de alto volumen o eliminar casos límite poco frecuentes que puedan sesgar los resultados del análisis.

Usos Comunes

Enfocarse en Categorías Principales: Mantener solo casos donde los valores del atributo aparecen con suficiente frecuencia para ser estadísticamente significativos, eliminando valores atípicos raros.
Detección de Valores Atípicos: Identificar casos inusuales o raros filtrando valores de atributo que aparecen con poca frecuencia en el conjunto de datos.
Análisis de Calidad de Datos: Encontrar datos potencialmente problemáticos identificando valores que aparecen exactamente una vez, lo que puede indicar errores de entrada o registros duplicados.
Análisis de Alto Volumen: Concentrar el análisis en las regiones, productos o segmentos de clientes más comunes filtrando valores que ocurren frecuentemente.
Reducción de Ruido: Eliminar casos límite y variantes de baja frecuencia que añaden complejidad sin aportar insights útiles.
Reconocimiento de Patrones: Descubrir problemas sistemáticos identificando valores que aparecen con frecuencias específicas (p. ej., exactamente dos veces, lo que sugiere duplicación sistemática).

Ajustes

Nombre de Columna: Seleccione el atributo para analizar la frecuencia de valores. El filtro soporta atributos enteros y de texto. Las columnas ocultas y las columnas de ID de caso no están disponibles.

Método de Comparación: Elija cómo comparar la frecuencia contra su umbral:

Igual: Mantener casos donde los valores aparecen exactamente el número especificado de veces
Mayor Que: Mantener casos donde los valores aparecen más veces que el umbral
Mayor o Igual Que: Mantener casos donde los valores aparecen al menos el número especificado de veces
Menor Que: Mantener casos donde los valores aparecen menos veces que el umbral
Menor o Igual Que: Mantener casos donde los valores no aparecen más veces que el umbral
Diferente: Mantener casos donde los valores no aparecen exactamente el número especificado de veces

Tipo de Umbral: Especifique si el umbral representa:

Cuenta: Un número absoluto de ocurrencias
Porcentaje: Un porcentaje decimal del total de casos (0.0 a 1.0)

Umbral de Comparación: Ingrese el valor numérico del umbral. En modo Cuenta, es el número de ocurrencias. En modo Porcentaje, ingrese un decimal (p. ej., 0.4 para 40%).

Ejemplos

Ejemplo 1: Enfocarse en Regiones Importantes

Escenario: Sus datos de proceso incluyen casos de 15 regiones diferentes, pero quiere enfocar el análisis solo en regiones que representan un volumen significativo. Decide mantener solo las regiones que aparecen en al menos el 10% de todos los casos.

Ajustes:

Nombre de Columna: Region
Método de Comparación: Mayor o Igual Que
Tipo de Umbral: Porcentaje
Umbral de Comparación: 0.1

Resultado: El filtro mantiene solo casos de regiones que aparecen en el 10% o más del conjunto de datos. Si tiene 1,000 casos, esto significa que se incluyen regiones con al menos 100 casos y se filtran las regiones más pequeñas.

Insights: Esto enfoca su análisis en las regiones principales mientras elimina ruido de oficinas regionales pequeñas con actividad mínima, facilitando la identificación de patrones y tendencias.

Ejemplo 2: Identificar Casos Únicos

Escenario: Sospecha que algunos casos tienen valores de atributo únicos que pueden indicar problemas de calidad de datos o manejo especial. Quiere encontrar todos los casos donde el valor aparece exactamente una vez en todo el conjunto de datos.

Ajustes:

Nombre de Columna: Customer ID
Método de Comparación: Igual
Tipo de Umbral: Cuenta
Umbral de Comparación: 1.0

Resultado: El filtro devuelve solo casos donde el Customer ID aparece exactamente una vez en todos los casos.

Insights: Estos clientes únicos pueden representar:

Clientes únicos que no regresaron
Posibles errores de ingreso de datos con nombres mal escritos
Casos de prueba que deberían eliminarse
Clientes VIP que requieren atención especial

Ejemplo 3: Encontrar Productos de Alta Frecuencia

Escenario: Desea analizar solo sus productos más vendidos que aparecen en al menos 50 casos para entender patrones de éxito.

Ajustes:

Nombre de Columna: Product Name
Método de Comparación: Mayor o Igual Que
Tipo de Umbral: Cuenta
Umbral de Comparación: 50.0

Resultado: El filtro mantiene casos de productos que fueron ordenados al menos 50 veces en el conjunto de datos.

Insights: Al enfocarse en productos de alto volumen, puede identificar patrones en el procesamiento exitoso de productos, cuellos de botella comunes y oportunidades de optimización con mayor impacto para el negocio.

Ejemplo 4: Excluir Variantes Raras del Proceso

Escenario: Su proceso tiene muchas variantes raras que hacen que el mapa del proceso esté saturado. Quiere eliminar casos donde la actividad inicial es poco común (aparece en menos del 5% de los casos).

Ajustes:

Nombre de Columna: _calcStartActivity
Método de Comparación: Menor Que
Tipo de Umbral: Porcentaje
Umbral de Comparación: 0.05

Resultado: El filtro mantiene solo casos donde la actividad inicial aparece en menos del 5% de todos los casos, seleccionando efectivamente las variantes raras.

Insights: Esto ayuda a identificar puntos de entrada inusuales al proceso que pueden indicar excepciones, errores o flujos de trabajo no estándar que requieren investigación.

Ejemplo 5: Eliminar Duplicados Detectados

Escenario: Desea identificar casos potencialmente duplicados encontrando valores de atributo que aparecen exactamente dos veces, lo que podría indicar problemas sistemáticos de duplicación.

Ajustes:

Nombre de Columna: Order Number
Método de Comparación: Igual
Tipo de Umbral: Cuenta
Umbral de Comparación: 2.0

Resultado: El filtro devuelve casos donde el Order Number aparece exactamente dos veces en el conjunto de datos.

Insights: Estos pares de casos pueden representar:

Errores del sistema que causan creación duplicada de órdenes
Envíos divididos para la misma orden
Modificaciones o revisiones de órdenes
Problemas de integración de datos desde múltiples sistemas

Ejemplo 6: Excluir Valores Atípicos de Baja Frecuencia

Escenario: Quiere limpiar su conjunto de datos eliminando casos de categorías que representan menos del 2% del volumen total, ya que probablemente son casos límite.

Ajustes:

Nombre de Columna: Department
Método de Comparación: Mayor o Igual Que
Tipo de Umbral: Porcentaje
Umbral de Comparación: 0.02

Resultado: El filtro mantiene solo casos de departamentos que manejan al menos el 2% de todos los casos.

Insights: Esto crea un conjunto de datos más limpio enfocado en las operaciones principales del negocio, filtrando departamentos pequeños o de prueba que pueden no representar el comportamiento típico del proceso.

Resultado

El filtro devuelve un nuevo conjunto de datos que contiene solo casos que cumplen los criterios de frecuencia especificados para el atributo seleccionado. Todos los casos con el mismo valor de atributo se tratan como un grupo: o se incluye todo el grupo, o se excluye completamente, según cuántos casos compartan ese valor.

Por ejemplo, si "Región A" aparece en 100 casos y cumple el umbral, se incluyen los 100 casos con "Región A". El filtro conserva todos los eventos y atributos de los casos incluidos.

Notas Técnicas

Tipo de Filtro: Filtro a nivel de caso (elimina casos enteros basados en la frecuencia del valor del atributo)
Lógica de Agrupación: Todos los casos se agrupan por sus valores en el atributo especificado y la frecuencia de cada grupo se compara con el umbral
Manejo de Valores Nulos: Los valores nulos se tratan como un grupo distinto y se cuentan como cualquier otro valor
Tipos de Datos Soportados: Atributos enteros (Int32, Int64) y de texto (String)
Conversión de Umbral: En modo Porcentaje, el porcentaje se convierte automáticamente a una cuenta absoluta multiplicando por el total de casos
Validación: El filtro sugiere nombres de columna similares si se escribe mal el nombre del atributo

Esta documentación es parte de la plataforma de minería de procesos mindzieStudio.