Tronquer le Texte
Présentation
L'enrichissement Trim Text est un opérateur de nettoyage des données qui supprime automatiquement tous les caractères d'espacement en début et en fin des attributs texte à travers votre jeu de données. Cet outil d'hygiène des données essentiel garantit la cohérence des champs texte en éliminant les espaces accidentels, tabulations et autres caractères invisibles qui peuvent poser des problèmes lors de la correspondance, du filtrage et de l'analyse des données. Lors du traitement de données provenant de diverses sources telles que les systèmes ERP, les feuilles de calcul ou les systèmes de saisie manuelle, les champs texte contiennent souvent des espaces blancs involontaires empêchant une analyse précise du process mining.
Contrairement aux approches manuelles de nettoyage, cet enrichissement traite chaque attribut texte dans les données au niveau cas et au niveau événement en une seule opération. L'enrichissement gère intelligemment les chaînes vides en les convertissant en valeurs nulles, assurant ainsi l'intégrité des données dans votre jeu de données. Ce nettoyage automatique est particulièrement précieux lors de la préparation des données pour la vérification de conformité, où les correspondances exactes de texte sont cruciales pour identifier les modèles et déviations de processus.
Usages Courants
- Nettoyer les données importées des systèmes ERP où les champs contiennent des espaces en fin à cause de colonnes de base de données à largeur fixe
- Standardiser les champs texte saisis par l'utilisateur dans des formulaires ou systèmes de saisie manuelle où les opérateurs ajoutent accidentellement des espaces
- Préparer les données pour des opérations de correspondance et de filtrage précises en garantissant un formatage texte cohérent
- Supprimer les caractères d'espacement invisibles pouvant causer des valeurs semblant dupliquées dans les filtres déroulants
- Nettoyer les noms d'activités et de ressources pour une découverte de processus et une analyse de conformité précises
- Normaliser les codes produits, identifiants clients et numéros de référence pouvant avoir un espacement incohérent
- Préparer les attributs texte pour des opérations de concaténation ou de jointure où des espaces supplémentaires créeraient des problèmes de formatage
Paramètres
Cet enrichissement fonctionne automatiquement sur tous les attributs texte sans nécessiter de configuration. Il traite chaque colonne de type chaîne dans votre jeu de données, appliquant la logique de découpage de manière cohérente sur les attributs de cas et les attributs d'événement.
Exemples
Exemple 1 : Nettoyage des Données d'Exportation du Système ERP
Scénario : Une entreprise manufacturière exporte des données de commande depuis leur système SAP où les codes produits et noms de clients contiennent des espaces en fin à cause des champs de base de données à largeur fixe, causant des problèmes de catégorisation produit et d'analyse client.
Avant Enrichissement : | Case ID | Product_Code | Customer_Name | Order_Status | |---------|--------------|---------------|--------------| | ORD-001 | "PRD-1234 " | "Acme Corp " | "APPROVED " | | ORD-002 | " PRD-5678" | " Beta Inc " | "PENDING" | | ORD-003 | "PRD-1234" | "Acme Corp" | "APPROVED" |
Après Enrichissement : | Case ID | Product_Code | Customer_Name | Order_Status | |---------|--------------|---------------|--------------| | ORD-001 | "PRD-1234" | "Acme Corp" | "APPROVED" | | ORD-002 | "PRD-5678" | "Beta Inc" | "PENDING" | | ORD-003 | "PRD-1234" | "Acme Corp" | "APPROVED" |
Résultat : Tous les attributs texte sont tronqués, supprimant les espaces en début et fin. Les produits PRD-1234 des commandes ORD-001 et ORD-003 sont désormais correctement identifiés comme étant le même produit, et les noms clients sont formatés de manière cohérente.
Analyses : Après le découpage, l'entreprise a découvert que ce qui semblait être 150 codes produits uniques n'était en réalité que 95 produits distincts. Ces données précises ont permis une analyse d'inventaire correcte et ont révélé que Acme Corp représentait 40 % de commandes en plus que ce qui avait été initialement calculé, grâce à une correspondance correcte des noms.
Exemple 2 : Standardisation des Données Saisies Manuellement en Santé
Scénario : Le système d'admission des patients d'un hôpital présente des noms d'activités et des champs de département avec des espacements incohérents dus à la saisie manuelle, empêchant une analyse précise du flux de processus et des métriques d'utilisation des départements.
Données Événement Avant : | Case ID | Activity | Department | Resource | |---------|----------|------------|----------| | PAT-101 | " Patient Registration" | "Emergency " | "Nurse Johnson " | | PAT-101 | "Triage " | " Emergency" | "Dr. Smith" | | PAT-102 | "Patient Registration" | "Emergency" | " Nurse Johnson" |
Données Événement Après : | Case ID | Activity | Department | Resource | |---------|----------|------------|----------| | PAT-101 | "Patient Registration" | "Emergency" | "Nurse Johnson" | | PAT-101 | "Triage" | "Emergency" | "Dr. Smith" | | PAT-102 | "Patient Registration" | "Emergency" | "Nurse Johnson" |
Résultat : Les noms d'activités, départements et noms de ressources sont standardisés en supprimant tous les espaces superflus. Le flux de processus montre maintenant correctement une activité unique "Patient Registration" au lieu de deux variantes différentes.
Analyses : Ce nettoyage a révélé le véritable flux des patients dans le département des urgences, montrant que 100 % des patients suivent le même processus initial d'enregistrement. Les rapports d'utilisation des ressources indiquent maintenant précisément que Nurse Johnson gère 75 % des enregistrements au lieu d'apparaître sous deux ressources différentes.
Exemple 3 : Nettoyage des Données de Transactions Financières
Scénario : Le système de traitement des prêts d'une banque exporte les types de transactions et les codes d'approbation présentant divers problèmes d'espacement provenant de différents systèmes de succursales, rendant impossible le suivi précis des modèles d'approbation et de la conformité des processus.
Attributs de Cas Avant : | Loan_ID | Loan_Type | Branch_Code | Approval_Level | |---------|-----------|-------------|----------------| | LN-5001 | "Personal Loan " | " NYC-01 " | "Manager " | | LN-5002 | " Personal Loan" | "NYC-01" | "Manager" | | LN-5003 | " Business Loan " | " LA-02" | " Director " |
Attributs de Cas Après : | Loan_ID | Loan_Type | Branch_Code | Approval_Level | |---------|-----------|-------------|----------------| | LN-5001 | "Personal Loan" | "NYC-01" | "Manager" | | LN-5002 | "Personal Loan" | "NYC-01" | "Manager" | | LN-5003 | "Business Loan" | "LA-02" | "Director" |
Résultat : Tous les types de prêt, codes de succursale et niveaux d'approbation sont formatés de manière cohérente. Les prêts personnels LN-5001 et LN-5002 sont désormais regroupés correctement, et les codes de succursale sont standardisés pour une analyse régionale précise.
Analyses : Après nettoyage, la banque a découvert que les prêts personnels représentaient 65 % de leur portefeuille au lieu des 43 % rapportés, car différentes variantes avec espaces avaient été comptabilisées comme types de prêt distincts. Cela a permis une évaluation correcte des risques et une allocation optimale des ressources pour leur ligne de produits dominante.
Exemple 4 : Normalisation des Données du Processus d’Achat
Scénario : Un système d'approvisionnement regroupe des données de multiples plateformes de fournisseurs où les noms des fournisseurs, les catégories de matériaux et les statuts des commandes présentent un espacement incohérent, empêchant une analyse précise des dépenses et du suivi des performances fournisseurs.
Avant Enrichissement : | PO_Number | Vendor_Name | Material_Category | Status | |-----------|-------------|-------------------|---------| | PO-8001 | "TechSupply Inc " | " Electronics " | "Delivered " | | PO-8002 | " TechSupply Inc" | "Electronics" | " Delivered" | | PO-8003 | "TechSupply Inc" | " Electronics" | "Pending" |
Après Enrichissement : | PO_Number | Vendor_Name | Material_Category | Status | |-----------|-------------|-------------------|---------| | PO-8001 | "TechSupply Inc" | "Electronics" | "Delivered" | | PO-8002 | "TechSupply Inc" | "Electronics" | "Delivered" | | PO-8003 | "TechSupply Inc" | "Electronics" | "Pending" |
Résultat : Les noms des fournisseurs et catégories de matériaux sont standardisés sur toutes les commandes. Les trois commandes sont désormais correctement associées au même fournisseur et à la même catégorie.
Analyses : Ce nettoyage a révélé que TechSupply Inc était en réalité le plus grand fournisseur de l’entreprise avec 2,3 M$ de dépenses annuelles, et non trois petits fournisseurs distincts comme précédemment rapporté. Cette consolidation a permis de meilleures négociations fournisseurs et identifié des opportunités de remises sur volume.
Exemple 5 : Nettoyage des Noms d’Activité pour la Découverte de Processus
Scénario : Le système de suivi des expéditions d’une entreprise logistique contient des noms d’activités avec divers problèmes d’espacement provenant de différents dispositifs de lecture et saisies manuelles, ce qui fait apparaître des flux de processus fragmentés et incorrects.
Journal d'Événements Avant : | Case_ID | Activity | Location | Timestamp | |---------|----------|----------|-----------| | SHIP-901 | "Package Received " | "Warehouse A " | 2024-01-10 08:00 | | SHIP-901 | " Sorting" | "Warehouse A" | 2024-01-10 09:00 | | SHIP-902 | "Package Received" | " Warehouse A" | 2024-01-10 08:30 | | SHIP-902 | "Sorting " | "Warehouse A " | 2024-01-10 09:30 |
Journal d'Événements Après : | Case_ID | Activity | Location | Timestamp | |---------|----------|----------|-----------| | SHIP-901 | "Package Received" | "Warehouse A" | 2024-01-10 08:00 | | SHIP-901 | "Sorting" | "Warehouse A" | 2024-01-10 09:00 | | SHIP-902 | "Package Received" | "Warehouse A" | 2024-01-10 08:30 | | SHIP-902 | "Sorting" | "Warehouse A" | 2024-01-10 09:30 |
Résultat : Tous les noms d’activités et les emplacements sont tronqués pour supprimer les variations d'espacement. Le processus montre maintenant un flux linéaire propre "Package Received" suivi de "Sorting" pour toutes les expéditions.
Analyses : La découverte de processus montre désormais correctement un processus standard en deux étapes pour tous les colis au lieu de huit variantes différentes. Cela a révélé que 100 % des colis suivent le même processus initial, permettant à l’entreprise de standardiser la formation et d’optimiser l’allocation des ressources à l’entrepôt A.
Résultat
L'enrichissement Trim Text modifie les attributs texte existants en place sans créer de nouveaux attributs. Toutes les colonnes de type chaîne dans votre jeu de données sont automatiquement traitées, y compris les attributs au niveau cas et au niveau événement. L'enrichissement applique les transformations suivantes :
Règles de Traitement du Texte :
- Supprime tous les espaces en début (espaces, tabulations et autres caractères invisibles en début de texte)
- Supprime tous les espaces en fin (espaces, tabulations et autres caractères invisibles en fin de texte)
- Préserve les espaces internes au texte (seuls le début et la fin sont tronqués)
- Convertit les chaînes vides (qui deviennent vides après tronquage) en valeurs nulles
- Ne modifie pas les textes déjà tronqués pour des performances optimales
- Ignore les attributs non textuels (nombres, dates, booléens restent inchangés)
- Ne modifie pas les colonnes cachées pour préserver les données système
L'enrichissement fonctionne de manière fluide avec les autres fonctionnalités de mindzieStudio. Les attributs texte tronqués peuvent être immédiatement utilisés dans les filtres pour une correspondance précise, dans les calculateurs pour des opérations de concaténation exactes, et dans d'autres enrichissements dépendant d'un formatage texte cohérent. Puisque l'enrichissement modifie les données en place, toutes les visualisations, tableaux de bord et analyses existants bénéficient automatiquement des données nettoyées sans nécessiter de reconfiguration.
Pour le traitement en aval, le texte nettoyé garantit que les opérateurs de vérification de conformité identifient correctement les activités correspondantes, que les enrichissements de recherche trouvent des correspondances exactes à travers les jeux de données, et que les opérations de regroupement agrègent correctement les cas liés. La conversion en null des chaînes vides évite les problèmes avec les opérations en base de données et assure que les valeurs vides sont gérées de manière cohérente sur toute la plateforme.
Cette documentation fait partie de la plateforme de process mining mindzieStudio.