Text Start
Übersicht
Die Text Start Anreicherung extrahiert eine angegebene Anzahl von Zeichen vom Anfang eines Textattributwertes und erstellt ein neues Attribut, das das extrahierte Präfix enthält. Diese leistungsstarke Anreicherung ermöglicht es Ihnen, systematisch die führenden Teile von Textdaten zu extrahieren und zu analysieren, z. B. Produktcodes, Abteilungskennungen, Standortpräfixe oder andere bedeutungsvolle Textmuster, die am Anfang von Attributwerten auftreten.
Im Process Mining ist Text Start unverzichtbar, um Daten anhand von Textpräfixen zu standardisieren und zu kategorisieren. Beispielsweise können Sie die ersten drei Zeichen von Rechnungsnummern extrahieren, um regionale Büros zu identifizieren, Abteilungscodes aus Mitarbeiter-IDs ziehen oder Produktlinienkennungen aus SKUs extrahieren. Durch das Erstellen neuer Attribute mit diesen extrahierten Präfixen können Sie eine detailliertere Analyse durchführen, sinnvolle Gruppierungen erstellen und Muster aufdecken, die sonst in längeren Textzeichenketten verborgen bleiben würden. Diese Anreicherung funktioniert sowohl mit case-level als auch event-level Attributen und bietet Flexibilität bei der Strukturierung und Analyse Ihrer Prozessdaten.
Häufige Anwendungsfälle
- Extrahieren von Abteilungscodes aus Mitarbeiter-IDs (z. B. „FIN-12345“ zu „FIN“)
- Identifizieren regionaler Kennungen aus Rechnungsnummern oder Bestellcodes
- Ziehen von Produktkategorie-Präfixen aus SKU-Codes für die Bestandsanalyse
- Extrahieren von Vorwahlen aus Telefonnummern für geografische Analysen
- Identifizieren von Dokumenttypen anhand von Dokument-IDs, die Namenskonventionen folgen
- Erstellen von Gruppierungen basierend auf standardisierten Präfixen in Referenznummern
- Extrahieren von Jahres- oder Monatskennungen aus datumsbasierten Textcodes
Einstellungen
Name des neuen Attributs: Der Name des neuen Attributs, das zur Speicherung des extrahierten Textpräfixes erstellt wird. Dieser sollte ein beschreibender Name sein, der klar angibt, welche Information das Attribut enthält. Wenn Sie z. B. Abteilungscodes aus Mitarbeiter-IDs extrahieren, könnten Sie es „DepartmentCode“ oder „EmployeeDept“ nennen. Das neue Attribut wird auf derselben Ebene (Case- oder Event-Ebene) wie das Quellattribut erstellt.
Spaltenname: Das Quelltextattribut, aus dem Sie die Anfangszeichen extrahieren möchten. Dieses Dropdown zeigt alle verfügbaren Textattribute in Ihrem Datensatz an, die nicht ausgeblendet sind. Die Anreicherung verarbeitet jeden Wert in dieser Spalte, indem sie die angegebene Anzahl von Zeichen vom Anfang extrahiert. Wenn ein Wert kürzer als die angegebene Länge ist, wird der gesamte Wert verwendet.
Länge: Die Anzahl der Zeichen, die vom Anfang des Textwertes extrahiert werden sollen. Dies muss eine positive ganze Zahl (1 oder größer) sein. Wenn Sie beispielsweise 3 einstellen, werden die ersten drei Zeichen extrahiert; bei 5 die ersten fünf Zeichen. Ist der Quelltext kürzer als die angegebene Länge, verwendet die Anreicherung den gesamten verfügbaren Text ohne Auffüllung oder Fehler.
Beispiele
Beispiel 1: Extraktion von Abteilungscodes aus Mitarbeiter-IDs
Szenario: Eine Gesundheitsorganisation verwendet Mitarbeiter-IDs, die mit Abteilungscodes beginnen (z. B. „NUR-45678“ für Pflege, „ADM-12345“ für Verwaltung, „LAB-98765“ für Labor). Sie möchten die Prozessleistung nach Abteilungen analysieren.
Einstellungen:
- Name des neuen Attributs: DepartmentCode
- Spaltenname: EmployeeID
- Länge: 3
Ausgabe: Die Anreicherung erstellt ein neues Case-Attribut „DepartmentCode“ mit den Werten:
- Mitarbeiter „NUR-45678“ → DepartmentCode: „NUR“
- Mitarbeiter „ADM-12345“ → DepartmentCode: „ADM“
- Mitarbeiter „LAB-98765“ → DepartmentCode: „LAB“
- Mitarbeiter „IT-5432“ → DepartmentCode: „IT-“ (Bindestrich als Teil der ersten 3 Zeichen)
Erkenntnisse: Mit den extrahierten Abteilungscodes kann die Organisation Prozesse nach Abteilungen filtern, Durchlaufzeiten zwischen Abteilungen vergleichen und abteilungsspezifische Engpässe oder Compliance-Probleme identifizieren.
Beispiel 2: Identifikation regionaler Büros anhand von Rechnungsnummern
Szenario: Ein multinationales Unternehmen verwendet Rechnungsnummern, bei denen die ersten zwei Zeichen das regionale Büro repräsentieren (z. B. „US-INV-2024-0001“ für die USA, „EU-INV-2024-0002“ für Europa, „AP-INV-2024-0003“ für Asien-Pazifik).
Einstellungen:
- Name des neuen Attributs: RegionalOffice
- Spaltenname: InvoiceNumber
- Länge: 2
Ausgabe: Die Anreicherung erstellt ein neues Case-Attribut „RegionalOffice“ mit den Werten:
- Rechnung „US-INV-2024-0001“ → RegionalOffice: „US“
- Rechnung „EU-INV-2024-0002“ → RegionalOffice: „EU“
- Rechnung „AP-INV-2024-0003“ → RegionalOffice: „AP“
- Rechnung „UK-INV-2024-0004“ → RegionalOffice: „UK“
Erkenntnisse: Das Unternehmen kann nun die Bearbeitungszeiten von Rechnungen nach Region analysieren, regionale Unterschiede in Genehmigungsabläufen erkennen und die Leistung verschiedener Büros vergleichen, um Best Practices zu standardisieren.
Beispiel 3: Extraktion der Produktlinie aus SKU-Codes
Szenario: Ein Fertigungsunternehmen verwendet SKU-Codes, bei denen die ersten vier Zeichen die Produktlinie identifizieren (z. B. „ELEC-TV-55-BLK“ für Elektronik, „FURN-CHR-WD-01“ für Möbel, „TOYS-DOL-12-PNK“ für Spielzeug).
Einstellungen:
- Name des neuen Attributs: ProductLine
- Spaltenname: SKUCode
- Länge: 4
Ausgabe: Die Anreicherung erstellt ein neues Event-Attribut „ProductLine“ mit den Werten:
- SKU „ELEC-TV-55-BLK“ → ProductLine: „ELEC“
- SKU „FURN-CHR-WD-01“ → ProductLine: „FURN“
- SKU „TOYS-DOL-12-PNK“ → ProductLine: „TOYS“
- SKU „APP-SHT-L-BLU“ → ProductLine: „APP-“ (beachten: kürzerer Code, erste 4 Zeichen inklusive Bindestrich)
Erkenntnisse: Der Hersteller kann die Auftragsabwicklungsprozesse nach Produktlinie analysieren, erkennen, welche Produktlinien längere Durchlaufzeiten haben, und den Lagerbetrieb basierend auf den Eigenschaften der Produktlinien optimieren.
Beispiel 4: Klassifizierung von Dokumenttypen im Einkauf
Szenario: Ein Einkaufssystem verwendet Dokument-IDs, die mit dreibuchstabigen Codes für den Dokumenttyp beginnen (z. B. „POR-2024-0001“ für Bestellungen, „RFQ-2024-0002“ für Angebotsanfragen, „CON-2024-0003“ für Verträge).
Einstellungen:
- Name des neuen Attributs: DocumentType
- Spaltenname: DocumentID
- Länge: 3
Ausgabe: Die Anreicherung erstellt ein neues Case-Attribut „DocumentType“ mit den Werten:
- Dokument „POR-2024-0001“ → DocumentType: „POR“
- Dokument „RFQ-2024-0002“ → DocumentType: „RFQ“
- Dokument „CON-2024-0003“ → DocumentType: „CON“
- Dokument „INV-2024-0004“ → DocumentType: „INV“
Erkenntnisse: Das Einkaufsteam kann die Bearbeitungszeiten nach Dokumenttyp verfolgen, sicherstellen, dass für verschiedene Dokumenttypen die richtigen Genehmigungsabläufe eingehalten werden, und ermitteln, bei welchen Dokumenttypen es die meisten Verzögerungen oder Nacharbeiten gibt.
Beispiel 5: Jahres-Extraktion aus datumsbasierten Referenznummern
Szenario: Ein Finanzdienstleistungsunternehmen verwendet Referenznummern, die mit dem Jahr beginnen (z. B. „2024-FIN-00123“, „2023-FIN-98765“). Es möchte Trends und Volumina nach Jahr analysieren.
Einstellungen:
- Name des neuen Attributs: ReferenceYear
- Spaltenname: ReferenceNumber
- Länge: 4
Ausgabe: Die Anreicherung erstellt ein neues Case-Attribut „ReferenceYear“ mit den Werten:
- Referenz „2024-FIN-00123“ → ReferenceYear: „2024“
- Referenz „2023-FIN-98765“ → ReferenceYear: „2023“
- Referenz „2022-FIN-45678“ → ReferenceYear: „2022“
- Referenz „2021-FIN-12345“ → ReferenceYear: „2021“
Erkenntnisse: Das Unternehmen kann die Transaktionsvolumina nach Jahr verfolgen, jährliche Prozessverbesserungen analysieren, saisonale Muster erkennen und die Auswirkungen von Prozessänderungen, die in bestimmten Jahren implementiert wurden, messen.
Ausgabe
Die Text Start Anreicherung erstellt ein neues Attribut (entweder case-level oder event-level, entsprechend der Ebene des Quellattributs), das den extrahierten Textpräfix enthält. Das neue Attribut ist immer vom Typ String und enthält die ersten N Zeichen jedes Wertes der Quellspalte, wobei N der angegebenen Länge entspricht.
Die Anreicherung behandelt verschiedene Szenarien sauber:
- Ist der Quelltext länger als die angegebene Länge, werden genau die angegebenen Zeichen extrahiert
- Ist der Quelltext kürzer oder gleich der angegebenen Länge, wird der gesamte Textwert verwendet
- Ist der Quellwert null oder leer, ist das neue Attribut in dieser Zeile ebenfalls null
- Sonderzeichen, Leerzeichen und Satzzeichen werden als normale Zeichen behandelt und in die Extraktion einbezogen, sofern sie innerhalb der angegebenen Länge liegen
Das neue Attribut kann sofort in nachfolgenden Anreicherungen, Filtern und Berechnungen verwendet werden. Übliche Folgeanalysen beinhalten die Verwendung der extrahierten Präfixe in der Anreicherung Group Attribute Values zur Erstellung von Kategorien, das Anwenden von Filtern, um sich auf bestimmte Präfixe zu fokussieren, oder die Nutzung der Präfixe im Conformance Checking, um die Einhaltung von Kodierstandards sicherzustellen.
Diese Dokumentation ist Teil der mindzieStudio Process Mining Plattform.