Text Start

Vue d'ensemble

L'enrichissement Text Start extrait un nombre spécifié de caractères depuis le début de la valeur d'un attribut texte, créant un nouvel attribut contenant le préfixe extrait. Cet enrichissement puissant vous permet d'extraire et d'analyser systématiquement les parties initiales des données textuelles, telles que les codes produits, les identifiants de département, les préfixes de localisation ou tout autre motif texte significatif apparaissant en début de valeur d'attribut.

En process mining, Text Start est précieux pour standardiser et catégoriser les données selon des préfixes textuels. Par exemple, vous pouvez extraire les trois premiers caractères des numéros de facture pour identifier les bureaux régionaux, extraire des codes de département à partir des identifiants employés, ou extraire des identifiants de ligne de produit à partir des SKU. En créant de nouveaux attributs avec ces préfixes extraits, vous pouvez réaliser une analyse plus fine, créer des regroupements pertinents et découvrir des motifs qui seraient autrement cachés dans des chaînes textuelles plus longues. Cet enrichissement fonctionne aussi bien avec les attributs au niveau du cas qu'au niveau de l'événement, offrant une grande flexibilité dans la structuration et l'analyse de vos données de processus.

Utilisations courantes

Extraire les codes départementaux à partir des identifiants employés (ex. : "FIN-12345" vers "FIN")
Identifier les bureaux régionaux à partir des numéros de factures ou codes de commande
Extraire les préfixes de catégorie produit à partir des codes SKU pour l’analyse d’inventaire
Extraire les indicatifs téléphoniques à partir des numéros pour une analyse géographique
Identifier les types de documents à partir des identifiants qui suivent des conventions de nommage
Créer des regroupements basés sur des préfixes standardisés dans les numéros de référence
Extraire les identifiants d’année ou de mois à partir de codes textuels basés sur des dates

Paramètres

New Attribute Name : Le nom du nouvel attribut qui sera créé pour stocker le préfixe de texte extrait. Il doit être descriptif et indiquer clairement quelle information contient l’attribut. Par exemple, si vous extrayez des codes départementaux à partir des identifiants employés, vous pouvez le nommer "DepartmentCode" ou "EmployeeDept". Le nouvel attribut sera créé au même niveau (cas ou événement) que l’attribut source.

Column Name : L’attribut texte source à partir duquel vous souhaitez extraire les caractères initiaux. Ce menu déroulant liste tous les attributs texte disponibles dans votre jeu de données qui ne sont pas masqués. L’enrichissement traitera chaque valeur de cette colonne en extrayant le nombre spécifié de caractères depuis le début. Si une valeur est plus courte que la longueur spécifiée, la valeur complète sera utilisée.

Length : Le nombre de caractères à extraire depuis le début de la valeur texte. Doit être un entier positif (1 ou plus). Par exemple, définir cette valeur à 3 extraira les trois premiers caractères, tandis que 5 extraira les cinq premiers. Si le texte source est plus court que la longueur spécifiée, l’enrichissement prendra le texte disponible en entier sans ajout ni erreur.

Exemples

Exemple 1 : Extraction de code départemental à partir des identifiants employés

Scénario : Une organisation de santé utilise des identifiants employés commençant par des codes de département (ex. : "NUR-45678" pour nursing, "ADM-12345" pour administration, "LAB-98765" pour laboratoire). Ils veulent analyser la performance des processus par département.

Paramètres :

New Attribute Name : DepartmentCode
Column Name : EmployeeID
Length : 3

Résultat : L’enrichissement crée un nouvel attribut cas "DepartmentCode" avec les valeurs :

Employé "NUR-45678" → DepartmentCode : "NUR"
Employé "ADM-12345" → DepartmentCode : "ADM"
Employé "LAB-98765" → DepartmentCode : "LAB"
Employé "IT-5432" → DepartmentCode : "IT-" (inclut le tiret comme faisant partie des 3 premiers caractères)

Insights : Avec les codes département extraits, l’organisation peut désormais filtrer les processus par département, comparer les temps de cycle entre départements, et identifier les goulets d’étranglement ou problèmes de conformité propres à chaque département.

Exemple 2 : Identification des bureaux régionaux à partir des numéros de facture

Scénario : Une multinationale utilise des numéros de facture dont les deux premiers caractères représentent le bureau régional (ex. : "US-INV-2024-0001" pour États-Unis, "EU-INV-2024-0002" pour Europe, "AP-INV-2024-0003" pour Asie-Pacifique).

Paramètres :

New Attribute Name : RegionalOffice
Column Name : InvoiceNumber
Length : 2

Résultat : L’enrichissement crée un nouvel attribut cas "RegionalOffice" avec les valeurs :

Facture "US-INV-2024-0001" → RegionalOffice : "US"
Facture "EU-INV-2024-0002" → RegionalOffice : "EU"
Facture "AP-INV-2024-0003" → RegionalOffice : "AP"
Facture "UK-INV-2024-0004" → RegionalOffice : "UK"

Insights : L’entreprise peut maintenant analyser les délais de traitement des factures par région, identifier les variations régionales dans les workflows d’approbation, et comparer les performances entre bureaux pour standardiser les meilleures pratiques.

Exemple 3 : Extraction de la ligne de produit à partir des codes SKU

Scénario : Une entreprise manufacturière utilise des codes SKU où les quatre premiers caractères identifient la ligne de produit (ex. : "ELEC-TV-55-BLK" pour électronique, "FURN-CHR-WD-01" pour mobilier, "TOYS-DOL-12-PNK" pour jouets).

Paramètres :

New Attribute Name : ProductLine
Column Name : SKUCode
Length : 4

Résultat : L’enrichissement crée un nouvel attribut événement "ProductLine" avec les valeurs :

SKU "ELEC-TV-55-BLK" → ProductLine : "ELEC"
SKU "FURN-CHR-WD-01" → ProductLine : "FURN"
SKU "TOYS-DOL-12-PNK" → ProductLine : "TOYS"
SKU "APP-SHT-L-BLU" → ProductLine : "APP-" (code plus court, prend les 4 premiers caractères incluant le tiret)

Insights : Le fabricant peut analyser les processus de traitement des commandes par ligne de produit, identifier quelles lignes ont des délais plus longs, et optimiser les opérations d’entrepôt selon les caractéristiques de chaque ligne.

Exemple 4 : Classification du type de document dans les achats

Scénario : Un système de procurement utilise des identifiants de documents commençant par des codes de trois lettres indiquant le type de document (ex. : "POR-2024-0001" pour bons de commande, "RFQ-2024-0002" pour demandes de devis, "CON-2024-0003" pour contrats).

Paramètres :

New Attribute Name : DocumentType
Column Name : DocumentID
Length : 3

Résultat : L’enrichissement crée un nouvel attribut cas "DocumentType" avec les valeurs :

Document "POR-2024-0001" → DocumentType : "POR"
Document "RFQ-2024-0002" → DocumentType : "RFQ"
Document "CON-2024-0003" → DocumentType : "CON"
Document "INV-2024-0004" → DocumentType : "INV"

Insights : L’équipe procurement peut suivre les temps de traitement par type de document, garantir que les workflows d’approbation adaptés sont respectés, et identifier les types de documents qui subissent le plus de retards ou de retravail.

Exemple 5 : Extraction de l’année à partir des numéros de référence basés sur la date

Scénario : Une société de services financiers utilise des numéros de référence commençant par l’année (ex. : "2024-FIN-00123", "2023-FIN-98765"). Elle souhaite analyser les tendances et volumes par année.

Paramètres :

New Attribute Name : ReferenceYear
Column Name : ReferenceNumber
Length : 4

Résultat : L’enrichissement crée un nouvel attribut cas "ReferenceYear" avec les valeurs :

Référence "2024-FIN-00123" → ReferenceYear : "2024"
Référence "2023-FIN-98765" → ReferenceYear : "2023"
Référence "2022-FIN-45678" → ReferenceYear : "2022"
Référence "2021-FIN-12345" → ReferenceYear : "2021"

Insights : L’entreprise peut suivre les volumes de transactions annuels, analyser les améliorations de processus d’une année sur l’autre, identifier les variations saisonnières, et mesurer l’impact des changements de processus mis en œuvre certaines années.

Résultat

L’enrichissement Text Start crée un nouvel attribut (au niveau cas ou événement, en fonction du niveau de l’attribut source) contenant le préfixe texte extrait. Le nouvel attribut est toujours de type String et contiendra les N premiers caractères de chaque valeur de la colonne source, où N est la longueur spécifiée.

L’enrichissement gère plusieurs cas avec souplesse :

Si le texte source est plus long que la longueur spécifiée, le nombre exact de caractères indiqué est extrait
Si le texte source est plus court ou égal à la longueur spécifiée, la valeur complète est utilisée
Si la valeur source est nulle ou vide, le nouvel attribut sera également nul pour cette ligne
Les caractères spéciaux, espaces et ponctuations sont traités comme des caractères ordinaires et inclus dans l’extraction s’ils sont dans la plage spécifiée

Le nouvel attribut peut être utilisé immédiatement dans les enrichissements suivants, filtres et calculateurs. Les analyses courantes suivantes incluent l’utilisation des préfixes extraits dans l’enrichissement Group Attribute Values pour créer des catégories, l’application de filtres pour se concentrer sur certains préfixes, ou l’utilisation des préfixes dans la vérification de conformité pour s’assurer du respect des standards de codage.

Cette documentation fait partie de la plateforme mindzie Studio de process mining.