Prédiction de Cas par IA
Démarrage rapide : Modèles Python Préconstruits
mindzie fournit trois packages de modèles prêts à être téléchargés pour que vous puissiez exécuter la Prédiction de Cas par IA sans écrire une seule ligne de Python. Choisissez celui qui correspond à votre Colonne de Valeur à Prédire, téléchargez le zip, puis chargez-le via le menu Upload Model du bloc Prédiction de Cas par IA - c’est tout.
| Modèle | À utiliser lorsque la Colonne de Valeur à Prédire est... | Exemples typiques | Télécharger |
|---|---|---|---|
| Classificateur Binaire | Exactement 2 catégories | "Approuvé" / "Rejeté", Vrai / Faux, 0 / 1, "Réussi" / "Échoué" | mindzie_ai_binary_classifier_v1.zip |
| Classificateur Multi-classes | 3 catégories ou plus | "Bas" / "Moyen" / "Élevé", codes régionaux, catégories de statut | mindzie_ai_multiclass_classifier_v1.zip |
| Régressseur | Une valeur numérique continue | durée en secondes, montant en dollars, nombre d’articles, pourcentage | mindzie_ai_regressor_v1.zip |
Les trois packages sont génériques — ils lisent les noms et types de colonnes à partir des fichiers de schéma que mindzieStudio écrit au moment de l’exécution, ils fonctionnent donc avec toute combinaison de noms de colonnes de caractéristiques et de cibles. Vous ne modifiez rien à l’intérieur du zip.
Le workflow complet de téléchargement avec captures d’écran, ce que chaque modèle gère automatiquement, et comment les personnaliser se trouve dans Utilisation des Modèles Python Préconstruits plus bas.
Vue d’ensemble
L’enrichissement Prédiction de Cas par IA vous permet d’exploiter le machine learning et l’intelligence artificielle pour faire des prédictions sur les résultats, comportements ou caractéristiques des cas en fonction des patterns historiques dans vos données de processus. Cet enrichissement puissant entraîne des modèles prédictifs à partir de vos attributs de cas existants, puis applique ces modèles pour prédire les valeurs inconnues des cas actuels ou futurs.
Contrairement aux enrichissements classiques basés sur des règles, la Prédiction de Cas par IA utilise des algorithmes d’apprentissage statistique pour découvrir des patterns complexes et des relations dans vos données, parfois invisibles à l’œil nu. L’enrichissement prend en charge des tâches de classification (prédire des catégories ou résultats) et peut gérer à la fois la création de modèles d’entraînement et le déploiement de prédictions dans votre workflow de process mining.
Cet enrichissement est particulièrement utile pour l’optimisation des processus, la gestion des risques et la prise de décision proactive. En prédisant les résultats des cas tôt dans leur cycle de vie, vous pouvez agir de manière préventive, allouer plus efficacement les ressources, et identifier des problèmes potentiels avant qu’ils ne surviennent.
Usages Courants
- Prédiction de Résultat : Prédire si un cas sera approuvé ou rejeté, terminé à temps ou en retard, réussi ou échoué selon des attributs initiaux
- Évaluation des Risques : Identifier les cas à haut risque susceptibles de rencontrer des problèmes, nécessiter des retours en arrière, ou générer des plaintes clients
- Prévision de Durée : Prédire combien de temps un cas prendra pour se compléter selon ses caractéristiques initiales et son avancement
- Allocation de Ressources : Prédire quels cas nécessiteront une gestion spécialisée ou des ressources supplémentaires selon des indicateurs de complexité
- Prévention de Résiliation Client : Prédire quels cas clients risquent d’être annulés ou abandonnés en fonction de comportements détectés
- Prédiction de Qualité : Anticiper si un cas respectera les standards qualité ou nécessitera une inspection supplémentaire selon les patterns d’exécution
- Estimation des Coûts : Prédire le coût final d’un cas à partir des paramètres initiaux et des premières activités
Paramètres
Type de Prédiction
Type de Prédiction : Spécifie le type de tâche de machine learning à réaliser. Actuellement, l’enrichissement supporte la Classification, qui prédit des résultats catégoriels ou des labels de classe.
- Classification : À utiliser pour prédire des catégories discrètes telles que "Approuvé/Rejeté", "Haut risque/Bas risque", "À l’heure/En retard" ou toute autre variable catégorielle. Le modèle apprend à classer les cas selon des groupes prédéfinis en fonction des patterns des colonnes de caractéristiques.
- Régression : (Futur) Prédira des valeurs numériques continues telles que durées, coûts ou quantités
- Clustering : (Futur) Groupera les cas similaires sans catégories prédéfinies
- Séries Temporelles : (Futur) Prédira des patterns temporels et des séquences
- Détection d’Anomalies : (Futur) Identifiera des cas inhabituels ou atypiques
- Recommandation : (Futur) Suggérera les actions ou activités optimales suivantes
Pour la plupart des cas métier, la Classification est le choix adéquat lorsque vous souhaitez prédire un résultat spécifique appartenant à des catégories distinctes.
Colonnes de Caractéristiques
Colonnes de Caractéristiques : Sélectionnez les attributs de cas qui serviront de variables d’entrée pour l’entraînement et la prédiction. Ce sont des variables indépendantes que le modèle IA analysera pour effectuer les prédictions. Choisissez des attributs que vous pensez influencer ou corréler avec le résultat à prédire.
Bonnes pratiques pour sélectionner les colonnes de caractéristiques :
- Inclure les attributs connus tôt dans le cycle de vie du cas si vous voulez faire des prédictions précoces
- Sélectionner des attributs avec une bonne qualité de données (peu de valeurs manquantes)
- Inclure à la fois des attributs catégoriels et numériques pour enrichir les patterns
- Ne pas sélectionner la colonne cible (celle à prédire) comme caractéristique
- Prendre en compte la connaissance métier des facteurs influents
- Commencer avec 3 à 10 caractéristiques pertinentes ; trop de caractéristiques peuvent réduire la précision du modèle
Exemples de colonnes de caractéristiques utiles :
- Type de client, région ou segment
- Montant de commande, priorité, catégorie
- Caractéristiques de la demande initiale
- Affectations de ressources ou département
- Attributs temporels (jour de la semaine, mois, saison)
Colonne de Valeur à Prédire
Colonne de Valeur à Prédire : Sélectionnez l’attribut de cas qui contient les résultats connus dont le modèle apprendra lors de l’entraînement. C’est la variable dépendante ou cible que le modèle prédira pour de nouveaux cas. Cette colonne doit avoir des valeurs connues dans vos données d’entraînement mais peut être vide pour les cas devant recevoir des prédictions.
Pour le type de prédiction Classification, les colonnes valides sont :
- Attributs de type chaîne (catégories textuelles comme "Approuvé", "Rejeté", "En attente")
- Attributs booléens (résultats vrai/faux)
- Attributs entiers (codes numériques représentant des catégories)
La Colonne de Valeur à Prédire doit :
- Contenir le résultat réel à prédire
- Avoir suffisamment d’exemples de chaque catégorie dans les données d’entraînement
- Représenter la clé métier du résultat à prévoir
- Ne pas être connue ou disponible au moment où la prédiction doit être faite
Filtres d’Entraînement
Filtres d’Entraînement : Définissez des critères de filtrage pour sélectionner les cas utilisés pour entraîner le modèle IA. Cela permet d’utiliser uniquement des cas de haute qualité et complets pour l’entraînement, en excluant ceux non représentatifs ou incomplets.
Scénarios courants de filtres d’entraînement :
- Inclure uniquement les cas terminés (exclure les cas en cours)
- Inclure uniquement les cas dont la valeur à prédire est connue (non vide)
- Exclure les cas avec problèmes de qualité ou valeurs manquantes dans les caractéristiques
- Inclure uniquement les cas récents pour s’entraîner sur les patterns actuels
- Filtrer par périodes, départements ou régions spécifiques
- Équilibrer le dataset d’entraînement en incluant un nombre égal de cas par catégorie de résultat
Exemple : "Case End Time is not empty AND Outcome is not empty AND Case Start Time is after 2024-01-01"
Filtres de Prédiction
Filtres de Prédiction : Définissez des critères de filtrage pour sélectionner les cas devant recevoir des prédictions lors de l’exécution de l’enrichissement. Cela permet de prédire uniquement pour les cas où la prédiction est utile ou dont le résultat est encore inconnu.
Scénarios courants de filtres de prédiction :
- Inclure uniquement les cas en cours (dont le résultat n’est pas connu)
- Inclure uniquement les cas où la valeur à prédire est vide
- Filtrer selon des périodes spécifiques ou cas actifs actuels
- Inclure uniquement les cas qui répondent à certains critères de risque
- Prédire uniquement pour les cas à haute valeur ou haute priorité
Exemple : "Outcome is empty AND Case Status equals 'In Progress' AND Case Start Time is after 2025-01-01"
Nouvelle Colonne de Prédiction
Nouvelle Colonne de Prédiction : Définissez le nom, le type de données, et le format d’affichage de la nouvelle colonne qui stockera les prédictions IA. Cette colonne sera ajoutée à votre table de cas et remplie avec les valeurs prédictives lors de l’exécution.
Options de configuration :
- Nom de colonne : Nom interne de l’attribut (sans espaces, utiliser des underscores)
- Nom affiché : Nom convivial affiché dans les tableaux de bord analytiques
- Type de données : Doit correspondre au type de données de la Colonne de Valeur à Prédire (Chaîne pour catégories textuelles, Booléen pour vrai/faux, Entier pour codes numériques)
- Format : Comment afficher les valeurs dans les visualisations (Texte, Nombre, Pourcentage, etc.)
Exemples de configurations :
- Nom de colonne : "predicted_outcome", Nom affiché : "Résultat Prédit", Type : Chaîne
- Nom de colonne : "risk_prediction", Nom affiché : "Prévision Niveau de Risque", Type : Chaîne
- Nom de colonne : "will_delay", Nom affiché : "Prédit Retard", Type : Booléen
Id du Modèle
Id du Modèle : (Optionnel) Indiquez l’identifiant unique (GUID) d’un modèle déjà entraîné à utiliser pour les prédictions. Lorsque vous entraînez et sauvegardez un modèle, mindzieStudio lui attribue un Id unique. En fournissant cet Id, vous pouvez réutiliser un modèle entraîné sans ré-entraînement, garantissant des prédictions cohérentes sur différents jeux de données ou périodes.
Laissez ce champ vide pour que l’enrichissement entraîne un nouveau modèle à chaque exécution. Fournissez un Id lorsque :
- Vous avez déjà entraîné et validé un modèle performant
- Vous souhaitez garantir la cohérence en utilisant le même modèle dans le temps
- Vous appliquez des prédictions à un nouveau jeu de données avec un modèle existant
- Vous voulez éviter le coût computationnel du ré-entraînement
L’Id du modèle se trouve dans les journaux d’exécution de l’enrichissement ou dans l’interface de gestion des modèles après un entraînement réussi.
Image Python
Image Python : Spécifie l’environnement d’exécution Python utilisé pour exécuter les scripts d’entraînement et de prédiction. mindzieStudio supporte plusieurs modes d’exécution Python pour s’adapter à différents scénarios de déploiement.
Options :
- LOCAL : Utilise l’installation Python locale sur le serveur mindzieStudio. C’est l’option la plus rapide si Python 3.x et les librairies ML requises (pandas, scikit-learn, etc.) sont installés localement.
- Nom d’Image Docker : Spécifie un container Docker contenant Python et les librairies nécessaires. Exemple : "python:3.9-slim" ou images personnalisées avec librarie ML préinstallées.
- Python non configuré : Indique qu’aucune option locale ou Docker n’est disponible. Vous devrez configurer l’exécution Python avant d’utiliser cet enrichissement.
Comportement par défaut :
- Si Python local est disponible, sélection automatique de "LOCAL"
- Sinon si Docker est configuré mais pas Python local, utilisation de l’image Python Docker par défaut
- Sinon, demande de configuration de l’exécution Python
Pour la production, les images Docker sont recommandées pour la cohérence et l’isolation, tandis que LOCAL est pratique pour développement et tests avec contrôle total sur l’environnement serveur.
Exemples
Exemple 1 : Prédiction des Résultats d’Approbation de Commandes d’Achat
Scénario : Un service achats souhaite prédire si les commandes seront approuvées ou rejetées en fonction des caractéristiques des commandes pour signaler tôt les rejets potentiels et collaborer avec les demandeurs afin d’améliorer les taux d’approbation.
Paramètres :
- Type de Prédiction : Classification
- Colonnes Caractéristiques : Order_Amount, Department, Vendor_Category, Requester_Level, Budget_Available, Previous_Orders_Count, Urgency_Flag
- Colonne Valeur à Prédire : Approval_Outcome (contient "Approved" ou "Rejected" pour les commandes terminées)
- Filtres d’Entraînement : "Approval_Outcome is not empty AND Case_End_Time is not empty" (utilise uniquement les commandes terminées avec résultats connus)
- Filtres de Prédiction : "Approval_Outcome is empty AND Case_Status equals 'Under Review'" (prédit pour les commandes en cours de validation)
- Nouvelle Colonne de Prédiction :
- Nom de colonne : predicted_approval
- Nom affiché : Résultat d’Approbation Prédit
- Type de données : Chaîne
- Id du Modèle : (vide - nouveau modèle)
- Image Python : LOCAL
Résultat : L’enrichissement crée un nouvel attribut de cas "Résultat d’Approbation Prédit" avec les valeurs "Approved" ou "Rejected" pour chaque commande en validation. La prédiction repose sur des patterns historiques tels que :
- Les commandes de plus de 50 000 $ de fournisseurs nouveaux ont plus de chances d’être rejetées
- Les commandes avec budget disponible et demandeur de niveau "Manager" ou supérieur ont plus de chances d’être approuvées
- Les commandes urgentes avec commandes précédentes réussies du même fournisseur ont un taux d’approbation plus élevé
Retours : En analysant les prédictions, l’équipe achats découvre que 23 % des commandes en validation sont prévues comme rejetées. Ils contactent proactivement les demandeurs pour justifications supplémentaires, suggèrent d’autres fournisseurs, ou scindent les grosses commandes pour plusieurs approbations. Cette intervention augmente le taux d’approbation global de 78 % à 89 % et réduit le temps de cycle du processus en évitant des cycles longs de rejet et re-soumission.
Exemple 2 : Prédiction du Risque de Réadmission Patient en Santé
Scénario : Un hôpital veut prédire quels patients récemment sortis présentent un risque élevé de réadmission dans les 30 jours, permettant aux coordinateurs de soins d’organiser un suivi ciblé et ainsi réduire les réadmissions.
Paramètres :
- Type de Prédiction : Classification
- Colonnes Caractéristiques : Patient_Age, Diagnosis_Category, Length_of_Stay, Comorbidity_Count, Prior_Admissions, Discharge_Destination, Medication_Complexity, Social_Support_Score
- Colonne Valeur à Prédire : Readmitted_30_Days (contient "Yes" ou "No" pour cas précédents)
- Filtres d’Entraînement : "Discharge_Date is not empty AND Days_Since_Discharge >= 30" (cas avec résultat connu après 30 jours)
- Filtres de Prédiction : "Discharge_Date is not empty AND Days_Since_Discharge < 30" (prédit pour sorties récentes)
- Nouvelle Colonne de Prédiction :
- Nom de colonne : readmission_risk_prediction
- Nom affiché : Risque de Réadmission Prédit
- Type de données : Chaîne
- Id du Modèle : (vide)
- Image Python : LOCAL
Résultat : L’enrichissement ajoute un attribut "Risque de Réadmission Prédit" affichant "Oui" ou "Non" pour chaque patient sorti récemment. Exemples de prédictions :
- Patient ID 45321 : 72 ans, insuffisance cardiaque, séjour de 8 jours, 3 comorbidités, sortie au domicile seul = Risque prédit "Oui"
- Patient ID 45322 : 55 ans, chirurgie mineure, séjour de 2 jours, sans comorbidité, sortie chez famille = Risque "Non"
- Patient ID 45323 : 68 ans, pneumonie, séjour de 5 jours, 2 comorbidités, admission précédente 3 mois avant = Risque "Oui"
Retours : Le modèle identifie 78 patients en 30 jours à haut risque. L’équipe de coordination priorise visites à domicile, revues médicamenteuses et rendez-vous de suivi. Après 90 jours d’interventions guidées par ces prédictions, le taux réel de réadmission chute de 22 % à 14 %, illustrant la valeur de la gestion proactive et basée sur la donnée.
Exemple 3 : Prédiction des Défauts Qualité en Fabrication
Scénario : Une entreprise manufacturière souhaite prédire quelles ordres de production risquent d’entraîner des défauts qualité à partir des paramètres initiaux et des métriques précoces, pour appliquer des contrôles additionnels avant qu’un défaut ne survienne.
Paramètres :
- Type de Prédiction : Classification
- Colonnes Caractéristiques : Product_Type, Batch_Size, Material_Supplier, Production_Line, Operator_Experience_Level, Temperature_Variance, First_Pass_Yield, Cycle_Time_Deviation
- Colonne Valeur à Prédire : Quality_Defect_Found (contient "Defect" ou "Pass" pour ordres terminés)
- Filtres d’Entraînement : "Production_Status equals 'Completed' AND Quality_Inspection_Complete equals true" (commandes terminées et inspection complète)
- Filtres de Prédiction : "Production_Status equals 'In Progress' AND Percent_Complete >= 25 AND Percent_Complete < 100" (ordres en production)
- Nouvelle Colonne de Prédiction :
- Nom de colonne : defect_prediction
- Nom affiché : Résultat Qualité Prévu
- Type de données : Chaîne
- Id du Modèle : (vide)
- Image Python : LOCAL
Résultat : L’enrichissement génère des prédictions qualité pour 156 ordres en cours de production. Exemples :
- Ordre #10045 : Grand lot, nouveau fournisseur matière, forte variance de température = Prédit "Défaut" (alerte qualité activée)
- Ordre #10046 : Produit standard, opérateur expérimenté, métriques normales = Prédit "Pass"
- Ordre #10047 : Produit complexe, ligne de production B, temps cycle 15 % au-dessus de la normale = Prédit "Défaut" (alerte activée)
Un tableau de bord qualité temps réel montre les défauts prédits à côté du statut réel de production, permettant aux ingénieurs qualité d’intervenir préventivement.
Retours : Grâce aux prédictions, l’équipe améliore inspections et réglages pour les ordres à risque. En 3 mois, 34 ordres défectueux sont interceptés avant inspection finale. Le taux de défaut passe de 8,2 % à 4,1 % et les coûts de retouches diminuent de 127 000 $. Le modèle révèle que les ordres avec fournisseurs nouveaux combinés à haute variance thermique présentent un taux de défaut de 67 %, conduisant à des procédures de qualification fournisseurs renforcées et un meilleur contrôle de la température.
Exemple 4 : Prédiction du Risque de Défaut de Paiement de Prêt
Scénario : Une institution financière souhaite prédire quels prêts approuvés risquent de faire défaut dans les 12 premiers mois, permettant aux gestionnaires du risque d’ajuster les conditions, demander des garanties supplémentaires ou surveiller plus fréquemment les prêts à haut risque.
Paramètres :
- Type de Prédiction : Classification
- Colonnes Caractéristiques : Loan_Amount, Credit_Score, Debt_to_Income_Ratio, Employment_Duration, Loan_Purpose, Property_Value, Down_Payment_Percent, Previous_Loans
- Colonne Valeur à Prédire : Defaulted_12_Months (contient "Default" ou "Performing" pour prêts avec historique 12+ mois)
- Filtres d’Entraînement : "Loan_Origination_Date < '2024-01-01' AND Months_Since_Origination >= 12" (prêts avec résultat 12 mois connu)
- Filtres de Prédiction : "Loan_Status equals 'Active' AND Months_Since_Origination < 12" (prêts récents)
- Nouvelle Colonne de Prédiction :
- Nom de colonne : default_risk_prediction
- Nom affiché : Risque de Défaut Prévu
- Type de données : Chaîne
- Id du Modèle : a1b2c3d4-e5f6-7890-a1b2-c3d4e5f6g7h8 (modèle entraîné et validé précédemment)
- Image Python : LOCAL
Résultat : L’enrichissement applique le modèle à 892 prêts actifs datant des 12 derniers mois, générant les prédictions de risque de défaut :
- 724 prêts prédits "Performing" (faible risque)
- 168 prêts prédits "Default" (haut risque)
Exemples de prédictions à haut risque :
- Prêt #50012 : 320K$, score crédit 640, DTI 42 %, emploi 8 mois = "Default"
- Prêt #50034 : 180K$, score crédit 680, DTI 38 %, retards précédents = "Default"
- Prêt #50078 : 425K$, score crédit 655, DTI 45 %, ratio prêt-valeur élevé = "Default"
Retours : L’équipe gestion des risques segmente le portefeuille selon le niveau de risque prédit et met en place une surveillance différenciée : suivi mensuel pour les haut risque contre trimestriel pour les autres. Les modèles tarifaires sont ajustés, augmentant les taux d'intérêt de 0,5-1 % pour profils risqués. Après 12 mois, la précision des prédictions est de 82 % et la surveillance proactive réduit le taux réel de défaut de 15 % à 9 % dans le segment haut risque, économisant environ 2,3 millions $.
Exemple 5 : Prédiction de Résolution des Tickets du Support Client
Scénario : Un service client souhaite prédire si les tickets seront résolus dans le délai SLA cible en fonction des caractéristiques initiales, permettant d'escalader rapidement les cas à risque et d’améliorer le respect des SLA.
Paramètres :
- Type de Prédiction : Classification
- Colonnes Caractéristiques : Issue_Category, Customer_Tier, Complexity_Score, Assigned_Team, Initial_Response_Time, Customer_Sentiment, Product_Version, Similar_Cases_Count
- Colonne Valeur à Prédire : Resolved_Within_SLA (contient "Yes" ou "No" pour tickets fermés)
- Filtres d’Entraînement : "Ticket_Status equals 'Closed' AND Close_Date is not empty" (tickets résolus)
- Filtres de Prédiction : "Ticket_Status equals 'Open' AND Hours_Since_Creation >= 2 AND Hours_Since_Creation < 24" (tickets ouverts récemment)
- Nouvelle Colonne de Prédiction :
- Nom de colonne : sla_compliance_prediction
- Nom affiché : Respect SLA Prédit
- Type de données : Chaîne
- Id du Modèle : (vide)
- Image Python : LOCAL
Résultat : L’enrichissement prédit le respect du SLA pour 234 tickets ouverts. Exemples :
- Ticket #7845 : Problème facturation, client Premium, complexité 2, équipe A, réponse 15 min = Prédit "Oui"
- Ticket #7846 : Bug technique, client Standard, complexité 8, équipe B, réponse 45 min = Prédit "Non" (escalade déclenchée)
- Ticket #7847 : Réinitialisation mot de passe, client Basique, complexité 1, équipe C, réponse 5 min = Prédit "Oui"
Les prédictions sont affichées dans le tableau de bord support avec code couleur : vert pour conformité prédite, rouge pour non-respect.
Retours : Les managers support utilisent ces prédictions pour escalader rapidement les tickets à risque vers des ingénieurs seniors ou allouer plus de ressources. Sur 6 mois, le taux de respect SLA passe de 83 % à 91 %. Le modèle identifie que les tickets complexes traités par l’équipe B en heures de pointe n’ont que 58 % de chances de respecter le SLA, ce qui a conduit à une réorganisation de la charge et de la formation. Le temps de première réponse est confirmé comme le meilleur prédicteur, incitant à de nouvelles politiques pour garantir une réponse sous 15 minutes.
Utilisation des Modèles Python Préconstruits
La section Démarrage rapide en début de page liste les trois packages téléchargeables et leurs usages. Cette section détaille le workflow complet de téléchargement, ce que les modèles gèrent automatiquement, et comment les personnaliser.
Lorsque vous lancez l’enrichissement Prédiction de Cas par IA sans fournir d’Id de modèle, mindzieStudio génère un script Python de placeholder qui produit des prédictions aléatoires. Ceci est voulu : ce script sert de point de départ pour intégrer votre propre logique de machine learning. Les packages modèles préconstruits remplacent ce placeholder par un vrai modèle scikit-learn entraîné sur vos données et écrivant les prédictions dans un nouvel attribut de cas.
Workflow Pas-à-Pas
Ce workflow utilise la fonctionnalité existante Upload Model du bloc Prédiction de Cas par IA. Aucun Python local n’est requis, et il fonctionne avec toutes les versions livrées de mindzieStudio.
1. Configurer l’enrichissement Prédiction de Cas par IA
Définissez Type de Prédiction, Colonnes Caractéristiques, Colonne de Valeur à Prédire, les deux listes de filtres, et la Nouvelle Colonne de Prédiction comme décrit dans la section Paramètres ci-dessus. Enregistrez le bloc. Laissez le champ Id du Modèle vide pour l’instant.
2. Télécharger le package modèle adapté
Depuis le tableau ci-dessus, cliquez sur le lien correspondant à votre Colonne de Valeur à Prédire. Enregistrez le zip sur votre ordinateur. Ne le décompressez pas – chargez-le tel quel.
3. Téléchargez-le via le menu Upload Model du bloc
Dans mindzieStudio, ouvrez le menu du bloc Prédiction de Cas par IA et choisissez Upload Model. Sélectionnez le zip téléchargé. mindzieStudio l’extrait et lui assigne un Id de Modèle unique.
4. Collez l’Id du Modèle dans l’enrichissement
Copiez l’Id de Modèle affiché par mindzieStudio et collez-le dans le champ Id du Modèle de l’éditeur Prédiction de Cas par IA. Enregistrez.
5. Lancez l’enrichissement
À la prochaine exécution, mindzieStudio génère les fichiers Training.csv et Prediction.csv à partir des filtres actuels, place les fichiers du modèle téléchargé au-dessus, et lance python script.py dans l’image Python configurée. Le modèle charge les données, entraîne un RandomForest, prédit, et écrit les résultats dans le nouvel attribut de cas. Aucune autre action utilisateur n’est nécessaire.
Les exécutions suivantes ré-entraîneront le modèle sur les données correspondant aux filtres d’entraînement à chaque fois, permettant au modèle de s’adapter à l’évolution des données. Si vous souhaitez un modèle qui ne s’entraîne pas à chaque exécution, voir Personnalisation du modèle ci-dessous.
Ce que les Modèles Gèrent Automatiquement
Aucune ligne de Python à écrire. Les modèles gèrent :
- Détection générique des colonnes — colonnes caractéristiques, colonne cible, et ID de cas sont lus depuis
Training.schemaà l’exécution, donc tout nom d’attribut fonctionne. - Caractéristiques numériques — imputation par la médiane pour valeurs manquantes.
- Caractéristiques catégorielles / textuelles — encodage one-hot avec gestion sécurisée des catégories inconnues lors de la prédiction.
- Division train / test — 80 / 20 en hold-out pour rapport de précision (stratifié pour classificateurs, classique pour régression).
- Déséquilibre de classes — modèle multi-classes utilise
class_weight='balanced'et élimine les classes ultra-rares (moins de 2 lignes). - Sortie au type correct — les prédictions sont converties au type cible pour être correctement parsées par mindzieStudio : Int32, Int64, Single, Double, Booléen, Chaîne, ou TimeSpan exprimé en secondes.
Ce que les Modèles Ne Font Pas (Encore)
Les modèles sont volontairement simples pour commencer. Ils ne :
- Pas de persistance du modèle entraîné entre exécutions — chaque exécution entraîne de zéro. C’est rapide (secondes à une minute sur logs standards), mais à prendre en compte pour très gros jeux de données.
- Pas de recherche des meilleurs hyperparamètres — valeurs par défaut raisonnables uniquement.
- Pas d’ingénierie de caractéristiques à partir de datetime — il faut extraire les parties numériques (jour-semaine, mois, heure) par calculatrice avant.
- Pas conçus pour des datasets très volumineux — testés jusqu’à ~100 000 cas. Au-delà, considérer un sous-échantillonnage via les filtres d’entraînement.
Personnalisation du Modèle
Si l’algorithme RandomForest ne vous convient pas, ou pour ajouter tuning d’hyperparamètres, ingénierie de caractéristiques, ou un autre algorithme, chaque package modèle contient simplement trois fichiers Python dans un zip :
model_trainer.py— l’algorithme ; seul fichier que vous modifiezmindzie_helper.py— chargeur CSV conscient du schéma (ne pas modifier)script.py— point d’entrée (ne pas modifier)
Procédure :
- Dézippez le package sur votre poste.
- Modifiez
model_trainer.py— changez l’algorithme, les hyperparamètres, ou prétraitements. - Rezippez les trois fichiers ensemble (sans dossier parent).
- Chargez le nouveau zip via Upload Model comme à l’étape 3.
Pour tester localement avant upload, lancez une prédiction sans Id de modèle dans mindzieStudio puis cliquez sur Download Package dans le menu du bloc. Vous aurez les trois fichiers + in/Training.csv et in/Prediction.csv réels. Remplacez model_trainer.py et exécutez python script.py dans ce dossier local. La sortie apparaîtra dans out/Prediction.csv.
Référence Algorithme
| Modèle | Estimateur | Paramètres notables |
|---|---|---|
| Classificateur Binaire | RandomForestClassifier |
n_estimators=200, min_samples_leaf=2, split stratifié |
| Classificateur Multi-classes | RandomForestClassifier |
n_estimators=300, class_weight='balanced', gestion des classes rares |
| Régressseur | RandomForestRegressor |
n_estimators=300, min_samples_leaf=2, arrondi entier |
Tous utilisent le même pipeline de prétraitement : ColumnTransformer avec SimpleImputer(median) pour numériques et SimpleImputer(constant) + OneHotEncoder(handle_unknown='ignore') pour catégoriels, encapsulé dans un Pipeline unique afin que le prétraitement de prédiction et d’entraînement soit identique.
Environnement Python Requis
Si vous exécutez localement plutôt qu’avec Docker, installez les packages requis :
pip install pandas==2.1.4 numpy==1.26.3 scikit-learn==1.4.0
Ces versions correspondent aux dépendances fixes de mindzie_windows_python3_11:V01, garantissant un comportement identique localement ou dans le container Docker.
Sortie
Lorsque l’enrichissement Prédiction de Cas par IA s’exécute avec succès, il crée un nouvel attribut de cas dans votre dataset avec le nom indiqué dans la configuration "Nouvelle Colonne de Prédiction". Cet attribut est ajouté comme colonne dérivée à la table des cas et apparaît dans tous les tableaux de bord, filtres et visualisations.
Valeurs des Prédictions
Les valeurs stockées dans la nouvelle colonne dépendent du type de données de la Colonne de Valeur à Prédire :
Prédictions Texte (Chaîne) :
- La colonne contient des valeurs textuelles correspondant aux catégories de l’entraînement
- Exemple : "Approuvé", "Rejeté", "Haut risque", "Bas risque", "En retard", "À l’heure"
- Utilisable dans filtres, regroupements, et codages couleur dans les tableaux de bord
Prédictions Booléennes :
- La colonne contient des valeurs True ou False
- Exemple : True = "Va faire défaut", False = "Ne fera pas défaut"
- Idéal pour prédictions binaires ou classifications oui/non simples
Prédictions Entières :
- La colonne contient des codes numériques représentant des catégories
- Exemple : 0 = "Bas risque", 1 = "Risque moyen", 2 = "Haut risque"
- Utile lorsque les catégories ont un ordre numérique naturel
Utilisation des Résultats de Prédiction
Une fois la colonne de prédiction créée, vous pouvez l’utiliser dans mindzieStudio :
Dans les Filtres :
- Filtrer les cas pour afficher uniquement les haut-risque : "Risque Prédit égal 'Haut risque'"
- Exclure les bas-risque des analyses détaillées : "Résultat Prédit différent de 'Bas risque'"
- Combiner avec d’autres critères : "Retard Prédit égal 'Oui' ET Montant de commande > 10 000$"
Dans les Tableaux de Bord :
- Créer des graphiques de performances par résultat prédit
- Colorer les cartes de processus selon le risque prédit sur les chemins
- Suivre des KPIs comparant prédiction vs résultats réels
- Créer des heatmaps des risques selon département, produit ou périodes
Dans les Enrichissements Complémentaires :
- Utiliser les prédictions comme entrées de calculatrices (ex : score de risque élevé intégrant la prédiction)
- Combiner avec d’autres enrichissements pour des scores composites
- Filtrer les enrichissements ciblés (ex : appliquer un contrôle seulement aux cas prédits non conformes)
Pour l’Amélioration des Processus :
- Identifier les patterns menant à des résultats négatifs prédits
- Prioriser les actions sur les activités influençant les résultats négatifs
- Suivre l’évolution des prédictions pour mesurer les améliorations
- Comparer prédictions et résultats réels pour valider et affiner le modèle
Sorties Relatives à l’Entraînement
Quand un nouveau modèle est entraîné (sans Id de modèle fourni), l’enrichissement génère également :
Fichiers d’Entraînement :
- Training.csv : données cas filtrées utilisées pour l’entraînement
- Training.schema : définitions de types des colonnes d’entraînement