Fréquence des Valeurs

Vue d’ensemble

Le filtre Fréquence des Valeurs sélectionne des cas en fonction de la fréquence d'apparition de leurs valeurs d'attribut dans l'ensemble du jeu de données. Ce filtre au niveau des cas regroupe les cas par leurs valeurs dans un attribut spécifié, compte combien de fois chaque valeur apparaît, et inclut ou exclut des cas en fonction du respect ou non du seuil que vous avez défini. Vous pouvez définir des seuils en utilisant soit des comptes absolus (par exemple, « au moins 5 occurrences ») soit des pourcentages (par exemple, « dans au moins 20 % des cas »).

Ce filtre est particulièrement utile pour identifier des motifs communs, détecter des valeurs rares, se concentrer sur des catégories à fort volume, ou filtrer des cas marginaux peu fréquents qui pourraient fausser les résultats d’analyse.

Usages courants

  • Se concentrer sur les Catégories Principales : Garder uniquement les cas où les valeurs d’attribut apparaissent suffisamment fréquemment pour être statistiquement significatives, en éliminant les valeurs rares.
  • Détection des Valeurs Aberrantes : Identifier des cas inhabituels ou rares en filtrant sur des valeurs d’attribut qui apparaissent peu fréquemment dans le jeu de données.
  • Analyse de la Qualité des Données : Trouver des données potentiellement problématiques en identifiant des valeurs apparaissant exactement une fois, ce qui peut indiquer des erreurs de saisie ou des doublons.
  • Analyse des Volumes Élevés : Concentrer l’analyse sur les régions, produits ou segments clients les plus fréquents en filtrant sur les valeurs d’apparition fréquente.
  • Réduction du Bruit : Éliminer les cas marginaux et les variantes peu fréquentes qui complexifient l’analyse sans apporter d’informations pertinentes.
  • Reconnaissance de Schémas : Découvrir des problèmes systématiques en identifiant des valeurs apparaissant avec des fréquences spécifiques (par exemple, exactement deux fois, suggérant une duplication systématique).

Paramètres

Nom de la colonne : Sélectionnez l’attribut à analyser pour la fréquence des valeurs. Le filtre supporte les attributs entiers et textuels. Les colonnes cachées et les colonnes d’identifiants de cas ne sont pas disponibles.

Méthode de comparaison : Choisissez comment comparer la fréquence au seuil :

  • Égal : Conserver les cas où les valeurs apparaissent exactement le nombre spécifié de fois
  • Supérieur à : Conserver les cas où les valeurs apparaissent plus de fois que le seuil
  • Supérieur ou égal : Conserver les cas où les valeurs apparaissent au moins le nombre spécifié de fois
  • Inférieur à : Conserver les cas où les valeurs apparaissent moins de fois que le seuil
  • Inférieur ou égal : Conserver les cas où les valeurs apparaissent au plus le nombre spécifié de fois
  • Différent : Conserver les cas où les valeurs n’apparaissent pas exactement le nombre spécifié de fois

Type de seuil : Spécifiez si le seuil représente :

  • Nombre : Un nombre absolu d’occurrences
  • Pourcentage : Un pourcentage (décimal) du total des cas (de 0,0 à 1,0)

Seuil de comparaison : Saisissez la valeur numérique du seuil. En mode Nombre, c’est le nombre d’occurrences. En mode Pourcentage, saisissez un décimal (par exemple, 0,4 pour 40 %).

Exemples

Exemple 1 : Se concentrer sur les Régions Majeures

Scénario : Vos données de processus comprennent des cas provenant de 15 régions différentes, mais vous souhaitez analyser uniquement les régions représentant un volume significatif. Vous décidez de ne garder que les régions apparaissant dans au moins 10 % des cas.

Paramètres :

  • Nom de la colonne : Region
  • Méthode de comparaison : Supérieur ou égal
  • Type de seuil : Pourcentage
  • Seuil de comparaison : 0.1

Résultat : Le filtre conserve uniquement les cas des régions apparaissant dans 10 % ou plus du jeu de données. Si vous avez 1 000 cas, cela signifie que les régions avec au moins 100 cas sont incluses, tandis que les régions plus petites sont filtrées.

Perspectives : Cela concentre l’analyse sur les régions majeures tout en éliminant le bruit provenant de petites divisions régionales à faible activité, facilitant l’identification des tendances et motifs.

Exemple 2 : Identifier les Cas Uniques

Scénario : Vous suspectez que certains cas ont des valeurs d’attribut uniques qui pourraient indiquer des problèmes de qualité des données ou un traitement spécial. Vous souhaitez trouver tous les cas où la valeur apparaît exactement une fois dans le jeu de données.

Paramètres :

  • Nom de la colonne : Customer ID
  • Méthode de comparaison : Égal
  • Type de seuil : Nombre
  • Seuil de comparaison : 1.0

Résultat : Le filtre ne renvoie que les cas où le Customer ID apparaît exactement une fois dans tous les cas.

Perspectives : Ces clients uniques peuvent représenter :

  • Des clients occasionnels ne revenant jamais
  • Des erreurs de saisie avec des noms clients mal orthographiés
  • Des cas de test à supprimer
  • Des clients VIP nécessitant une attention spéciale

Exemple 3 : Trouver les Produits à Haute Fréquence

Scénario : Vous souhaitez analyser uniquement vos produits les plus vendus apparaissant dans au moins 50 cas pour comprendre les motifs de succès.

Paramètres :

  • Nom de la colonne : Product Name
  • Méthode de comparaison : Supérieur ou égal
  • Type de seuil : Nombre
  • Seuil de comparaison : 50.0

Résultat : Le filtre conserve les cas pour les produits commandés au moins 50 fois dans le jeu de données.

Perspectives : En vous concentrant sur les produits à fort volume, vous pouvez identifier des motifs dans la gestion des produits réussis, des goulets d’étranglement communs et des opportunités d’optimisation ayant un impact commercial important.

Exemple 4 : Exclure les Variantes de Processus Rares

Scénario : Votre processus comporte de nombreuses variantes rares qui encombrent la carte du processus. Vous souhaitez exclure les cas où l’activité de départ est peu courante (apparaît dans moins de 5 % des cas).

Paramètres :

  • Nom de la colonne : calcStartActivity
  • Méthode de comparaison : Inférieur à
  • Type de seuil : Pourcentage
  • Seuil de comparaison : 0.05

Résultat : Le filtre conserve uniquement les cas où l’activité de départ apparaît dans moins de 5 % des cas, sélectionnant ainsi efficacement les variantes rares.

Perspectives : Cela aide à identifier des points d’entrée de processus inhabituels pouvant indiquer des exceptions, erreurs ou flux de travail non standards nécessitant une enquête.

Exemple 5 : Détection de Doublons

Scénario : Vous souhaitez identifier des cas potentiellement dupliqués en trouvant des valeurs d’attribut apparaissant exactement deux fois, ce qui peut indiquer des problèmes de duplication systématique.

Paramètres :

  • Nom de la colonne : Order Number
  • Méthode de comparaison : Égal
  • Type de seuil : Nombre
  • Seuil de comparaison : 2.0

Résultat : Le filtre renvoie les cas où le numéro de commande apparaît exactement deux fois dans le jeu de données.

Perspectives : Ces paires de cas peuvent représenter :

  • Des erreurs systèmes causant la création de commandes en double
  • Des expéditions fractionnées pour une même commande
  • Des modifications ou révisions de commande
  • Des problèmes d’intégration de données entre plusieurs systèmes

Exemple 6 : Exclure les Valeurs Aberrantes à Faible Fréquence

Scénario : Vous souhaitez nettoyer votre jeu de données en supprimant les cas appartenant à des catégories représentant moins de 2 % du volume total, car ce sont probablement des cas marginaux.

Paramètres :

  • Nom de la colonne : Department
  • Méthode de comparaison : Supérieur ou égal
  • Type de seuil : Pourcentage
  • Seuil de comparaison : 0.02

Résultat : Le filtre conserve uniquement les cas des départements traitant au moins 2 % de tous les cas.

Perspectives : Cela crée un jeu de données plus propre, centré sur les opérations principales, tout en filtrant les petits départements ou départements tests qui peuvent ne pas refléter un comportement typique.

Résultat

Le filtre retourne un nouveau jeu de données contenant uniquement les cas respectant les critères de fréquence spécifiés pour l’attribut sélectionné. Tous les cas avec la même valeur d’attribut sont traités comme un groupe – soit tout le groupe est inclus, soit tout le groupe est exclu, selon le nombre de cas partageant cette valeur.

Par exemple, si « Région A » apparaît dans 100 cas et satisfait votre seuil, les 100 cas portant « Région A » sont inclus. Le filtre conserve tous les événements et attributs pour les cas inclus.

Notes techniques

  • Type de filtre : Filtre au niveau du cas (supprime des cas entiers en fonction de la fréquence des valeurs d’attribut)
  • Logique de regroupement : Tous les cas sont regroupés par leurs valeurs dans l’attribut spécifié, et la fréquence de chaque groupe est comparée au seuil
  • Gestion des valeurs nulles : Les valeurs nulles sont traitées comme un groupe distinct et comptées comme toute autre valeur
  • Types de données supportés : Attributs entiers (Int32, Int64) et textes (String)
  • Conversion du seuil : En mode Pourcentage, le pourcentage est automatiquement converti en nombre absolu en multipliant par le nombre total de cas
  • Validation : Le filtre suggère des noms de colonnes similaires si vous faites une erreur dans le nom de l’attribut

Cette documentation fait partie de la plateforme de fouille de processus mindzieStudio.