Text Ende
Übersicht
Die Text-Ende-Anreicherung extrahiert eine angegebene Anzahl von Zeichen vom Ende von Textattributwerten und erstellt ein neues Attribut, das den extrahierten Suffix enthält. Dieser leistungsstarke Textmanipulationsoperator ermöglicht es, die Endabschnitte von Textfeldern zu isolieren und zu analysieren, die häufig wichtige identifizierende Informationen, Klassifizierungscodes oder standardisierte Suffixe enthalten. Durch die Fokussierung auf die rechtesten Zeichen von Textwerten können Sie aussagekräftige Muster und Kategorien extrahieren, die häufig an das Ende von Geschäftskennzeichnungen angehängt werden.
Im Process Mining ist die Text-Ende-Anreicherung besonders wertvoll beim Arbeiten mit strukturierten Codes und Kennungen, bei denen der Endabschnitt eine spezifische Bedeutung trägt. Viele Geschäftssysteme verwenden Suffixe, um Kategorien, Regionen, Produkttypen oder Statusindikatoren zu kennzeichnen. Beispielsweise können Rechnungsnummern mit Ländercodes enden, Produkt-SKUs können Kategorie-Suffixe enthalten, oder Fall-IDs können Abteilungskennungen aufweisen. Diese Anreicherung ermöglicht es Ihnen, diese bedeutungsvollen Endungen für Analysen, Filterung und Erkennung von Prozessvarianten zu extrahieren. Der Operator funktioniert sowohl mit Fallattributen als auch mit Ereignisattributen und bietet Flexibilität bei der Extraktion und Analyse von Textmustern in Ihren Prozessdaten.
Häufige Anwendungsfälle
- Extrahieren von Dateierweiterungen aus Dokumentnamen zur Analyse von Dokumenttypen in Genehmigungsprozessen
- Isolieren von Länder- oder Regionencodes am Ende von Kunden- oder Lieferantenkennungen
- Extrahieren von Abteilungs- oder Team-Suffixen aus Fall-IDs für Organisationsanalysen
- Abrufen von Produktkategorie-Codes aus dem Ende von SKU-Nummern für die Inventaranalyse
- Identifizieren von Versionsnummern oder Revisionscodes am Ende von Dokumentenreferenzen
- Extrahieren von Statusindikatoren oder Flags, die an Transaktionscodes angehängt sind
- Isolieren von Jahres- oder Periodenindikatoren aus finanziellen Referenznummern
Einstellungen
Neuer Attributname: Geben Sie den Namen für das neue Attribut an, das die extrahierte Textendung speichern soll. Wählen Sie einen beschreibenden Namen, der deutlich macht, welche Informationen aus dem Quelltext extrahiert werden. Verwenden Sie beispielsweise "File_Extension" zum Extrahieren von Dateitypen, "Country_Code" zum Extrahieren von Ortskennungen oder "Category_Suffix" zum Extrahieren von Klassifizierungscodes. Der Name muss eindeutig sein und darf nicht mit bestehenden Attributen in Ihrem Datensatz kollidieren.
Spaltenname: Wählen Sie das Textattribut aus, aus dem Sie die Endzeichen extrahieren möchten. Dieses Dropdown enthält alle verfügbaren Textattribute sowohl auf Fall- als auch auf Ereignisebene. Die Anreicherung erkennt automatisch, ob das ausgewählte Attribut ein Fall- oder Ereignisattribut ist, und erstellt das neue Attribut auf derselben Ebene. Es sind nur Text- (String-) Attribute verfügbar, die nicht ausgeblendet sind.
Länge: Geben Sie die Anzahl der Zeichen an, die vom Ende des Textwerts extrahiert werden sollen. Dies muss eine positive ganze Zahl sein (Mindestwert 1). Wenn die angegebene Länge die tatsächliche Länge eines Textwerts übersteigt, wird der gesamte Wert zurückgegeben. Beispielsweise wird bei der Angabe einer Länge von 3 und einem nur 2 Zeichen langen Wert der volle 2-Zeichen-Wert extrahiert. Berücksichtigen Sie die maximal erwartete Länge des Suffixes, das Sie extrahieren möchten, um das Erfassen unnötiger Zeichen zu vermeiden.
Beispiele
Beispiel 1: Extrahieren von Dateierweiterungen aus Dokumentnamen
Szenario: In einem Dokumentgenehmigungsprozess müssen Sie analysieren, welche Dokumenttypen am häufigsten eingereicht werden und wie lange deren Bearbeitung dauert. Die Dokumentnamen sind mit Dateierweiterungen gespeichert, und Sie möchten diese Erweiterungen zur Kategorisierung extrahieren.
Einstellungen:
- Neuer Attributname: Document_Type
- Spaltenname: Document_Name
- Länge: 4
Ausgabe: Erstellt ein neues Attribut "Document_Type", das die letzten 4 Zeichen jedes Dokumentnamens enthält. Für Fälle mit Dokumentnamen:
- "Q3_Report_2024.pdf" → ".pdf"
- "Contract_Amendment.docx" → "docx"
- "Invoice_10245.xlsx" → "xlsx"
- "Presentation.ppt" → ".ppt"
Einblicke: Durch das Extrahieren von Dateierweiterungen können Sie analysieren, welche Dokumenttypen längere Genehmigungszeiten erfordern, Abteilungen identifizieren, die mit bestimmten Dateiformaten arbeiten, und potenzielle Compliance-Probleme mit nicht autorisierten Dateitypen entdecken.
Beispiel 2: Isolieren von Ländercodes aus Lieferanten-IDs
Szenario: In einem globalen Beschaffungsprozess enden Lieferanten-IDs mit zweistelligen Ländercodes. Sie müssen diese Codes extrahieren, um Beschaffungsmuster nach Ländern zu analysieren und die Einhaltung regionaler Beschaffungsvorgaben sicherzustellen.
Einstellungen:
- Neuer Attributname: Supplier_Country
- Spaltenname: Supplier_ID
- Länge: 2
Ausgabe: Erstellt ein neues Fallattribut "Supplier_Country" mit dem Ländercode. Für Lieferanten:
- "SUP-2024-0145-US" → "US"
- "SUP-2024-0892-DE" → "DE"
- "SUP-2024-0234-CN" → "CN"
- "SUP-2024-0567-BR" → "BR"
Einblicke: Diese Extraktion ermöglicht eine geografische Analyse der Lieferantenverteilung, Berechnung regionaler Beschaffungskennzahlen und Identifikation der Einhaltung lokaler Beschaffungsvorschriften.
Beispiel 3: Extrahieren von Abteilungscodes aus Fall-IDs
Szenario: In einem Patientenregistrierungssystem im Gesundheitswesen enthalten Fall-IDs am Ende einen dreistelligen Abteilungscode. Sie müssen diese Codes extrahieren, um den Patientenfluss in verschiedenen Abteilungen zu analysieren und Engpässe zu erkennen.
Einstellungen:
- Neuer Attributname: Department_Code
- Spaltenname: Case_ID
- Länge: 3
Ausgabe: Erstellt ein neues Attribut "Department_Code", das Abteilungskennungen enthält. Für Fall-IDs:
- "PAT-2024-10523-EMR" → "EMR" (Notaufnahme)
- "PAT-2024-10524-RAD" → "RAD" (Radiologie)
- "PAT-2024-10525-LAB" → "LAB" (Labor)
- "PAT-2024-10526-SUR" → "SUR" (Chirurgie)
Einblicke: Das Extrahieren von Abteilungscodes ermöglicht die Analyse von Patientenlenkungsmustern, die Identifikation abteilungsspezifischer Verzögerungen und den Vergleich von Bearbeitungszeiten zwischen verschiedenen medizinischen Einheiten.
Beispiel 4: Abrufen von Produktkategorien aus SKU-Nummern
Szenario: In einem Einzelhandels-Inventarmanagementprozess enden Produkt-SKUs mit einem zweistelligen Kategorie-Code. Sie möchten diese Codes extrahieren, um den Lagerumschlag nach Produktkategorie zu analysieren und die Lagerbestände zu optimieren.
Einstellungen:
- Neuer Attributname: Product_Category
- Spaltenname: SKU_Number
- Länge: 2
Ausgabe: Erstellt ein neues Attribut "Product_Category" mit Kategorie-Codes. Für SKUs:
- "PROD-854621-EL" → "EL" (Elektronik)
- "PROD-854622-CL" → "CL" (Bekleidung)
- "PROD-854623-FD" → "FD" (Lebensmittel)
- "PROD-854624-TY" → "TY" (Spielzeug)
Einblicke: Die Kategorisierung ermöglicht die Analyse kategorispezifischer Inventurmuster, Identifikation langsam drehender Produkttypen und Optimierung von Nachbestellpunkten nach Produktkategorie.
Beispiel 5: Extrahieren von Jahresindikatoren aus Finanzreferenzen
Szenario: In einem Kreditorenprozess enden Rechnungsnummern mit einer vierstelligen Jahreszahl. Sie müssen das Jahr extrahieren, um Zahlungstrends im Zeitverlauf zu analysieren und überfällige Rechnungen zu identifizieren.
Einstellungen:
- Neuer Attributname: Invoice_Year
- Spaltenname: Invoice_Number
- Länge: 4
Ausgabe: Erstellt ein neues Attribut "Invoice_Year", das das Jahr enthält. Für Rechnungsnummern:
- "INV-US-054321-2024" → "2024"
- "INV-EU-098765-2023" → "2023"
- "INV-AP-012345-2024" → "2024"
- "INV-LA-067890-2022" → "2022"
Einblicke: Die Jahresextraktion ermöglicht die Trendanalyse bei der Rechnungsverarbeitung, die Identifikation alter, unbezahlter Rechnungen und den Jahresvergleich von Zahlungskennzahlen.
Ausgabe
Die Text-Ende-Anreicherung erstellt ein neues Attribut (entweder auf Fall- oder Ereignisebene, passend zum Quellattribut), das den extrahierten Text vom Ende der Originalwerte enthält. Das neue Attribut ist immer vom Datentyp String, unabhängig davon, was der extrahierte Inhalt darstellt. Das Attribut wird automatisch der entsprechenden Tabelle (Fall oder Ereignis) hinzugefügt und steht sofort für Filter, Kalkulatoren und andere Anreicherungen zur Verfügung.
Bei Fallattributen wird die Extraktion einmal pro Fall durchgeführt, und das Ergebnis auf Fall-Ebene gespeichert. Bei Ereignisattributen erfolgt die Extraktion für jedes Ereignis, sodass Sie analysieren können, wie Suffixe sich über verschiedene Aktivitäten in Ihrem Prozess hinweg unterscheiden. Ist der Quellwert null oder leer, ist das neue Attribut ebenfalls null für diesen Fall oder dieses Ereignis.
Der extrahierte Text behält die exakten Zeichen vom Ende der Quellzeichenkette, einschließlich aller Sonderzeichen, Zahlen oder Satzzeichen. Dies stellt sicher, dass bedeutungsvolle Suffixe wie Dateierweiterungen (einschließlich des Punkts) oder zusammengesetzte Codes präzise erfasst werden. Die Anreicherung behandelt Quelltexte variabler Länge problemlos – ist ein Quellwert kürzer als die angegebene Extraktionslänge, wird der gesamte Wert zurückgegeben, statt einen Fehler zu erzeugen.
Diese Dokumentation ist Teil der mindzie Studio Process Mining Plattform.