Définir la Valeur de Groupe
Aperçu
L'enrichissement Définir la Valeur de Groupe crée des agrégations de données puissantes en calculant des statistiques récapitulatives pour des groupes de cas et en affectant ces valeurs calculées à chaque cas du groupe. Cet enrichissement transforme vos données de processus en calculant des métriques agrégées telles que des sommes, des moyennes, des comptes ou d'autres fonctions statistiques à travers des cas partageant des valeurs d'attribut communes, puis remplit un nouvel attribut avec la valeur agrégée du groupe pour chaque cas de ce groupe. Cela permet une analyse sophistiquée basée sur les groupes où chaque cas porte des informations sur les caractéristiques collectives de son groupe de pairs.
Cet enrichissement est essentiel pour l'analyse comparative et le benchmarking en fouille de processus. Il vous permet d'enrichir les cas individuels avec des informations contextuelles sur la performance globale de leur groupe, permettant d’obtenir des insights tels que « la valeur de cette commande comparée à la moyenne de sa catégorie produit » ou « la durée de traitement de ce patient par rapport aux autres ayant le même diagnostic ». En apportant des métriques au niveau du groupe au niveau du cas, vous pouvez identifier les valeurs aberrantes, établir des bases de référence et comprendre comment les occurrences individuelles du processus se rapportent à leurs groupes de pairs. L'enrichissement supporte diverses fonctions d'agrégation et peut fonctionner avec des sous-ensembles filtrés de données, offrant une flexibilité dans la définition de ce qui constitue un groupe significatif pour l'analyse.
Utilisations Courantes
- Calculer le temps moyen de traitement par département et l’assigner à tous les cas de chaque département
- Déterminer la valeur totale des commandes par client et remplir chaque commande avec la dépense totale du client
- Compter le nombre de cas par fournisseur et ajouter ce compte à chaque cas pour analyser le volume fournisseur
- Trouver les valeurs maximales ou minimales au sein des catégories produit pour l’analyse des prix
- Calculer la durée médiane des traitements par groupe de diagnostic pour le benchmarking en santé
- Calculer la somme des quantités par emplacement d’entrepôt pour des insights sur la distribution des stocks
- Déterminer le temps moyen d’approbation par région pour la comparaison géographique des performances
Paramètres
Filtre (Optionnel) : Appliquez des filtres pour limiter les cas inclus dans les calculs de groupe. Seuls les cas correspondant aux critères du filtre seront pris en compte lors du calcul des valeurs agrégées. Cela vous permet de calculer des statistiques de groupe sur des sous-ensembles spécifiques, comme uniquement les cas terminés, les éléments à haute priorité, ou les transactions dans une certaine période. Les cas exclus par le filtre ne recevront pas la nouvelle valeur d'attribut.
Nom du Nouvel Attribut : Spécifiez le nom du nouvel attribut de cas qui stockera la valeur de groupe calculée. Choisissez un nom descriptif indiquant à la fois la logique de regroupement et la fonction d’agrégation appliquée. Par exemple, « Avg_Duration_By_Department » ou « Total_Orders_Per_Customer ». Le nom doit être unique et ne peut pas entrer en conflit avec les attributs existants dans votre jeu de données.
Nom de la colonne de regroupement : Sélectionnez l’attribut utilisé pour définir les groupes. Les cas ayant la même valeur dans cet attribut seront regroupés ensemble pour le calcul agrégé. Il peut s’agir de n’importe quel attribut catégoriel comme le département, le fournisseur, la catégorie produit, l'identifiant client ou la région. L’attribut de regroupement détermine la segmentation de vos données pour l’agrégation. Chaque valeur unique dans cette colonne crée un groupe distinct.
Nom de la colonne des valeurs : Choisissez l’attribut dont les valeurs seront agrégées au sein de chaque groupe. C’est la source de vos données pour le calcul – par exemple, si vous calculez la durée moyenne par département, ce serait votre attribut durée. Les fonctions d’agrégation disponibles s’adaptent en fonction du type de données de cette colonne. Les colonnes numériques supportent les opérations mathématiques, tandis que les colonnes texte et date ont des options d’agrégation limitées.
Fonction Agrégée : Sélectionnez la fonction statistique à appliquer aux valeurs dans chaque groupe. Les fonctions disponibles dépendent du type de données de votre colonne de valeurs :
- Somme : Totalise toutes les valeurs du groupe (attributs numériques et durées uniquement)
- Moyenne : Calcule la moyenne arithmétique des valeurs du groupe (attributs numériques et durées)
- Médiane : Trouve la valeur du milieu quand les valeurs du groupe sont triées (attributs numériques et durées)
- Min : Identifie la plus petite valeur dans le groupe (fonctionne avec les nombres, dates et durées)
- Max : Identifie la plus grande valeur dans le groupe (fonctionne avec les nombres, dates et durées)
- Compte : Compte les valeurs non nulles dans le groupe (tous types de données)
- Compte Distinct : Compte les valeurs uniques dans le groupe (tous types de données)
- Compte Null : Compte les valeurs manquantes/nulles dans le groupe (tous types de données)
Exemples
Exemple 1 : Temps moyen de traitement par département
Cas d’usage : Dans un processus d’approbation de prêt, la direction souhaite comprendre le temps moyen de traitement pour chaque département afin d’identifier les variations de performance et fixer des objectifs SLA réalistes.
Paramètres :
- Filtre : Status = "Completed"
- Nom du nouvel attribut : Avg_Processing_Hours_By_Dept
- Nom de colonne de regroupement : Department
- Nom de colonne des valeurs : Total_Processing_Hours
- Fonction agrégée : Moyenne
Résultat : Pour chaque demande de prêt, ajoute « Avg_Processing_Hours_By_Dept » contenant le temps moyen de traitement de tous les prêts complétés dans ce département :
- Moyenne département Banque Commerciale : 72,5 heures (assigné à 150 cas)
- Moyenne département Banque de Détail : 24,3 heures (assigné à 890 cas)
- Moyenne département Banque Privée : 48,7 heures (assigné à 75 cas)
Chaque cas présente désormais son temps de traitement individuel ainsi que la moyenne de son département, permettant une comparaison immédiate.
Insights : Les agents crédit peuvent rapidement identifier si une demande prend plus de temps que la moyenne départementale, et la direction note que la Banque Commerciale a le temps moyen de traitement le plus long, suggérant un besoin d’optimisation ou de ressources supplémentaires.
Exemple 2 : Valeur totale des commandes par client
Cas d’usage : Une entreprise e-commerce doit identifier ses clients à forte valeur en calculant la dépense totale de chaque client sur toutes ses commandes et en ajoutant cette information à chaque commande.
Paramètres :
- Filtre : Order_Status NOT IN ("Cancelled", "Returned")
- Nom du nouvel attribut : Customer_Total_Spend
- Nom de colonne de regroupement : Customer_ID
- Nom de colonne des valeurs : Order_Amount
- Fonction agrégée : Somme
Résultat : Chaque commande inclut désormais la dépense totale historique du client :
- Customer_ID "C10234" : Dépense totale 15 750 $ (assigné à 23 commandes)
- Customer_ID "C10891" : Dépense totale 3 200 $ (assigné à 8 commandes)
- Customer_ID "C11567" : Dépense totale 45 900 $ (assigné à 67 commandes)
Insights : Les équipes commerciales voient immédiatement si elles traitent la commande d’un client à forte valeur, facilitant un service prioritaire. Le marketing identifie les clients VIP pour des promotions basées sur les seuils de dépense.
Exemple 3 : Nombre de cas par fournisseur pour l’analyse de charge de travail
Cas d’usage : Le service des achats veut comprendre la répartition de la charge fournisseur en comptant le nombre de commandes attribuées à chaque fournisseur, ajoutant ce compte à chaque commande pour le contexte.
Paramètres :
- Filtre : PO_Date >= "2024-01-01"
- Nom du nouvel attribut : Vendor_PO_Count
- Nom de colonne de regroupement : Vendor_Name
- Nom de colonne des valeurs : Case_ID
- Fonction agrégée : Compte
Résultat : Chaque bon de commande affiche le nombre total de commandes reçues par ce fournisseur :
- Fournisseur "TechSupplies Inc" : 145 commandes (compte ajouté à chacune)
- Fournisseur "Office Essentials" : 892 commandes (compte ajouté à chacune)
- Fournisseur "Industrial Parts Co" : 43 commandes (compte ajouté à chacune)
Insights : Les achats identifient une dépendance élevée à certains fournisseurs (Office Essentials avec 892 commandes) et des fournisseurs sous-exploités susceptibles de gérer plus de volume.
Exemple 4 : Coût maximal de traitement par diagnostic
Cas d’usage : Un hôpital veut identifier le coût de traitement le plus élevé dans chaque groupe de diagnostic pour comprendre les variations de coûts et repérer les cas hors normes coûteux.
Paramètres :
- Filtre : Treatment_Complete = "Yes" AND Billing_Finalized = "Yes"
- Nom du nouvel attribut : Max_Cost_In_Diagnosis_Group
- Nom de colonne de regroupement : Primary_Diagnosis_Code
- Nom de colonne des valeurs : Total_Treatment_Cost
- Fonction agrégée : Max
Résultat : Chaque cas patient inclut le coût maximal observé pour leur diagnostic :
- Diagnostic "J18.9" (Pneumonie) : Coût max 45 000 $ (tous les 234 cas affichent ce max)
- Diagnostic "I21.9" (Infarctus) : Coût max 125 000 $ (tous les 89 cas affichent ce max)
- Diagnostic "K35.8" (Appendicite) : Coût max 32 000 $ (tous les 156 cas affichent ce max)
Les patients peuvent voir immédiatement si leur coût de traitement approche ou dépasse le maximum pour leur groupe diagnostique.
Insights : Les administrateurs santé peuvent identifier les cas avec coûts proches du max, suggérant des complications ou inefficacités nécessitant investigation.
Exemple 5 : Temps médian de résolution par niveau de priorité
Cas d’usage : Un service informatique veut établir des temps de résolution de référence en calculant le temps médian pour résoudre les tickets selon chaque niveau de priorité.
Paramètres :
- Filtre : Ticket_Status = "Resolved" AND Created_Date >= DateAdd(Today(), -90, "days")
- Nom du nouvel attribut : Median_Resolution_Hours_By_Priority
- Nom de colonne de regroupement : Priority_Level
- Nom de colonne des valeurs : Resolution_Duration_Hours
- Fonction agrégée : Médiane
Résultat : Chaque ticket affiche le temps médian de résolution pour son niveau de priorité :
- Priorité 1 (Critique) : Médiane 2,5 heures (assigné à 145 tickets)
- Priorité 2 (Haute) : Médiane 8,0 heures (assigné à 512 tickets)
- Priorité 3 (Moyenne) : Médiane 24,0 heures (assigné à 1 234 tickets)
- Priorité 4 (Basse) : Médiane 72,0 heures (assigné à 2 891 tickets)
Insights : Les gestionnaires du service peuvent rapidement repérer les tickets dépassant le temps médian de résolution pour leur priorité, indiquant d’éventuelles violations SLA ou problèmes de processus nécessitant attention.
Résultat
L'enrichissement Définir la Valeur de Groupe crée un nouvel attribut de cas contenant la valeur agrégée calculée pour le groupe de chaque cas. Chaque cas appartenant au même groupe reçoit exactement la même valeur calculée, permettant des comparaisons au niveau groupe tout en conservant l’analyse au niveau cas individuel.
Détermination du type de données : Le type de données de l’attribut de sortie dépend à la fois de la fonction agrégée sélectionnée et du type de la colonne source :
- Les fonctions de compte (Compte, Compte Distinct, Compte Null) produisent toujours des valeurs entières
- Somme, Moyenne et Médiane conservent le type de la colonne source (valeurs numériques restent numériques, durées restent durées)
- Min et Max gardent le type exact de la colonne source
- Pour les colonnes TimeSpan, les opérations Somme, Moyenne et Médiane retournent des valeurs TimeSpan
Processus de calcul de groupe : L’enrichissement identifie d’abord toutes les valeurs uniques dans la colonne de regroupement, calcule ensuite la fonction agrégée séparément pour chaque groupe en utilisant uniquement les cas appartenant à ce groupe (et correspondant aux filtres appliqués), puis affecte la valeur calculée à chaque cas du groupe correspondant.
Gestion des valeurs nulles : Si la colonne de regroupement contient des valeurs nulles, les cas avec null forment leur propre groupe. Pour la colonne des valeurs, la gestion des null dépend de la fonction agrégée – Compte exclut les null, Compte Null les compte spécifiquement, et Somme/Moyenne/Médiane ignorent les null dans les calculs. Les cas filtrés ou avec valeur de regroupement nulle peuvent ne pas recevoir la nouvelle valeur d’attribut.
Capacités d’intégration : Le nouvel attribut de valeur de groupe s’intègre parfaitement avec les autres fonctionnalités de mindzieStudio. Utilisez-le dans des filtres pour identifier les cas au-dessus ou en dessous des moyennes de groupe, dans des calculateurs pour dériver des métriques additionnelles comme « pourcentage du total groupe », dans les cartes de processus pour coder en couleurs selon les statistiques de groupe, ou dans d’autres enrichissements pour créer des agrégations multi-niveaux. L’attribut est immédiatement disponible dans tous les outils d’analyse et exportable avec votre jeu de données enrichi.
Voir Aussi
- Group Attribute Values - Créez des regroupements personnalisés en combinant plusieurs valeurs d'attribut en catégories
- Categorize Attribute Values - Définissez des plages numériques et assignez des étiquettes de catégorie pour la segmentation
- Representative Case Attribute - Sélectionnez une valeur représentative unique à partir des attributs d’événements pour l’analyse au niveau du cas
- Count Boolean Attributes with Value - Comptez les occurrences de conditions booléennes spécifiques à travers les attributs
- Add - Effectuez des additions simples de plusieurs attributs numériques sans regroupement
Cette documentation fait partie de la plateforme de fouille de processus mindzie Studio.