Textlänge begrenzen
Überblick
Die Anreicherung „Textlänge begrenzen“ ist ein Datenbereinigungsoperator, der Textwerte in Ihrem Datensatz automatisch auf eine festgelegte maximale Anzahl von Zeichen kürzt. Dieses wichtige Werkzeug zur Datenstandardisierung hilft dabei, Textfelder, die vorgegebene Längenlimits überschreiten, zu verwalten, und sorgt für Konsistenz in Ihrem Process-Mining-Datensatz. Außerdem werden Probleme bei nachgelagerter Analyse, Visualisierung und Systemintegrationen vermieden. Bei der Arbeit mit Daten aus verschiedenen Quellen enthalten Textfelder oft zu lange Werte, die sich negativ auf Leistung, Lesbarkeit und Kompatibilität mit anderen Systemen auswirken können.
Diese Anreicherung verarbeitet intelligent sowohl textbezogene Attribute auf Fall- als auch auf Ereignisebene, wobei die ursprüngliche Bedeutung erhalten bleibt und gleichzeitig Längenbeschränkungen durchgesetzt werden. Im Gegensatz zu manuellen Kürzungen, die Datenkorruption oder Inkonsistenz riskieren, wendet dieser Operator einheitliche Kürzungsregeln auf den gesamten Datensatz an. Die Anreicherung ist besonders nützlich bei der Vorbereitung von Daten für Dashboards, bei denen lange Textwerte Layouts stören können, oder bei der Integration mit Systemen, die strikte Zeichenlimits für bestimmte Felder haben.
Häufige Anwendungsfälle
- Standardisierung von Beschreibungsfeldern, die ausführlichen Text aus ERP-Systemen oder Ticketing-Plattformen enthalten
- Vorbereitung von Daten für die Visualisierung in Dashboards, bei denen lange Textwerte Tabellenlayouts oder Chartlesbarkeit beeinträchtigen
- Durchsetzung von Zeichenlimits vor dem Export in Systeme mit strikten Feldlängenanforderungen
- Kürzung langer Kommentarfelder, wobei die wichtigsten Anfangsinformationen erhalten bleiben
- Standardisierung von Produktnamen, Kundennamen oder Referenzcodes auf konsistente Maximallängen
- Verbesserung der Performance von Process-Mining-Analysen durch Reduzierung des Speicherverbrauchs bei zu langen Textwerten
- Erstellung einheitlicher Textfelder für bessere Ausrichtung in Berichten und exportierten Dokumenten
Einstellungen
Attributname: Wählen Sie das Textattribut aus, dessen Länge Sie begrenzen möchten. Das Dropdown zeigt alle verfügbaren Textattribute aus Fall- und Ereignisebene an. Nur Zeichenketten-/Textattribute werden als gültige Auswahl angezeigt. Dies ist ein Pflichtfeld und bestimmt, welche Spalte im Datensatz gekürzt wird.
Maximale Länge: Geben Sie die maximale Anzahl der zu behaltenden Zeichen an. Jeder Textwert, der diese Länge überschreitet, wird genau auf diese Anzahl von Zeichen gekürzt. Der Wert muss größer als 0 sein. Standardwert ist 100 Zeichen. Übliche Werte sind:
- 50 Zeichen für kurze Beschreibungen oder Codes
- 100 Zeichen für Standardtextfelder
- 255 Zeichen für Kompatibilität mit vielen Datenbanksystemen
- 500 Zeichen für längere Beschreibungen bei gleichzeitig guter Lesbarkeit
Beispiele
Beispiel 1: Standardisierung von Produktbeschreibungen in der Fertigung
Szenario: Der Produktkatalog eines Fertigungsunternehmens enthält technische Detailbeschreibungen, die 1000 Zeichen überschreiten können, was in ihren Process-Mining-Dashboards zu Problemen führt und Berichte schwer lesbar macht.
Einstellungen:
- Attributname: Product_Description
- Maximale Länge: 150
Vor der Anreicherung: | Case ID | Product_Description | Order_Value | |---------|-------------------|-------------| | ORD-001 | "High-precision CNC machined aluminum component with aerospace-grade 7075-T6 alloy, featuring complex 5-axis milling patterns, anodized finish in matte black, tolerances within 0.001 inches, designed for critical aviation applications requiring maximum strength-to-weight ratio and corrosion resistance in extreme environmental conditions including salt spray, temperature variations from -60C to 150C, and high vibration environments typical of turbine engine mounting applications" | $12,500 | | ORD-002 | "Standard steel bracket, zinc plated" | $45 | | ORD-003 | "Custom fabricated stainless steel assembly with multiple welded joints, polished to mirror finish, designed for pharmaceutical clean room applications with full FDA compliance and documentation package included" | $3,200 |
Nach der Anreicherung: | Case ID | Product_Description | Order_Value | |---------|-------------------|-------------| | ORD-001 | "High-precision CNC machined aluminum component with aerospace-grade 7075-T6 alloy, featuring complex 5-axis milling patterns, anodized finis" | $12,500 | | ORD-002 | "Standard steel bracket, zinc plated" | $45 | | ORD-003 | "Custom fabricated stainless steel assembly with multiple welded joints, polished to mirror finish, designed for pharmaceutical clean room ap" | $3,200 |
Ergebnis: Produktbeschreibungen werden auf genau 150 Zeichen gekürzt. Kurze Beschreibungen bleiben unverändert, während längere am Zeichenlimit abgeschnitten werden.
Erkenntnisse: Nach der Standardisierung der Beschreibungslängen verbesserte sich die Dashboard-Performance um 40 %, und Berichte zur Produktkategorisierung wurden lesbarer. Das Team stellte fest, dass 85 % der wichtigen Produktinformationen bereits in den ersten 150 Zeichen enthalten sind, sodass diese Kürzung für die Analyse geeignet ist und gleichzeitig die vollständigen Beschreibungen im Quellsystem erhalten bleiben.
Beispiel 2: Verwaltung von Kundenfeedback-Kommentaren in Serviceprozessen
Szenario: Das Kundenservice-System eines Telekommunikationsunternehmens erfasst detaillierte Kundenbeschwerden, die mehrere Absätze umfassen können, was es erschwert, Muster in ihrem Service-Process-Mining zu analysieren.
Einstellungen:
- Attributname: Customer_Feedback
- Maximale Länge: 200
Ereignisdaten vor der Anreicherung: | Case ID | Activity | Customer_Feedback | Timestamp | |---------|----------|------------------|-----------| | TICKET-001 | Create Ticket | "Internet connection has been extremely unreliable for the past three weeks. Speed drops to almost nothing during evening hours between 7-10 PM. Have restarted modem multiple times, checked all cables, even replaced the router with my own but problem persists. This is affecting my ability to work from home and my children cannot complete their online homework. Previous technician visit on March 15 did not resolve the issue. Need immediate resolution as I'm considering switching providers if this continues. Very frustrated with the lack of consistent service despite paying for the premium package." | 2024-03-20 14:30 | | TICKET-002 | Create Ticket | "Bill incorrect - charged twice" | 2024-03-20 15:15 |
Ereignisdaten nach der Anreicherung: | Case ID | Activity | Customer_Feedback | Timestamp | |---------|----------|------------------|-----------| | TICKET-001 | Create Ticket | "Internet connection has been extremely unreliable for the past three weeks. Speed drops to almost nothing during evening hours between 7-10 PM. Have restarted modem multiple times, checked all ca" | 2024-03-20 14:30 | | TICKET-002 | Create Ticket | "Bill incorrect - charged twice" | 2024-03-20 15:15 |
Ergebnis: Kundenfeedback wird auf 200 Zeichen begrenzt, wobei der Anfang jeder Nachricht erhalten bleibt, in dem das Hauptproblem typischerweise genannt wird.
Erkenntnisse: Textanalysen der gekürzten Feedbacks zeigten, dass 92 % der Probleme bereits aus den ersten 200 Zeichen kategorisiert werden konnten. Die Prozessanalyse ergab, dass Tickets mit Feedbacks über 200 Zeichen eine um 35 % längere Lösungszeit hatten, was auf komplexe Probleme mit Eskalationsbedarf hinweist.
Beispiel 3: Vorbereitung von Bestelldaten für Systemintegration
Szenario: Eine Beschaffungsabteilung muss Bestelldaten an ein Altsystem exportieren, das eine 50-Zeichen-Grenze für Lieferantennamen hat, während ihre aktuellen Daten vollständige Firmennamen enthalten, die 200 Zeichen überschreiten können.
Einstellungen:
- Attributname: Vendor_Name
- Maximale Länge: 50
Vor der Anreicherung: | Case ID | Vendor_Name | PO_Amount | |---------|------------|-----------| | PO-2024-001 | "International Business Machines Corporation (IBM) Global Technology Services Division" | $125,000 | | PO-2024-002 | "Acme Inc." | $3,500 | | PO-2024-003 | "Johnson & Johnson Consumer Healthcare Products Manufacturing and Distribution Limited Partnership" | $45,750 |
Nach der Anreicherung: | Case ID | Vendor_Name | PO_Amount | |---------|------------|-----------| | PO-2024-001 | "International Business Machines Corporation (IBM" | $125,000 | | PO-2024-002 | "Acme Inc." | $3,500 | | PO-2024-003 | "Johnson & Johnson Consumer Healthcare Products Ma" | $45,750 |
Ergebnis: Lieferantennamen werden auf 50 Zeichen gekürzt, um Systemanforderungen zu entsprechen und dennoch ausreichend Informationen für die Identifikation zu behalten.
Erkenntnisse: Die Kürzung ermöglichte die erfolgreiche Integration mit dem Altsystem und bewahrte die Identifizierbarkeit der Lieferanten. Analysen zeigten, dass bereits 78 % der Lieferantennamen unter 50 Zeichen lagen, und die gekürzten Namen enthielten weiterhin genug Informationen für die eindeutige Identifikation in Beschaffungsberichten.
Beispiel 4: Optimierung von Aktivitätsnamen im Process Mining
Szenario: Ein Schadensbearbeitungsprozess in der Versicherung enthält Aktivitätsnamen mit detaillierten Unterprozessinformationen, wodurch Ablaufpläne unübersichtlich und schwer lesbar werden.
Einstellungen:
- Attributname: Activity_Name
- Maximale Länge: 30
Ereignisdaten vor der Anreicherung: | Case ID | Activity_Name | Resource | Timestamp | |---------|--------------|----------|-----------| | CLAIM-001 | "Initial Claim Review and Documentation Verification by Senior Adjuster" | John Smith | 2024-03-15 09:00 | | CLAIM-001 | "Medical Records Request Sent to Healthcare Provider via Secure Portal" | Sarah Johnson | 2024-03-15 10:30 | | CLAIM-001 | "Approve" | Mark Davis | 2024-03-15 14:00 |
Ereignisdaten nach der Anreicherung: | Case ID | Activity_Name | Resource | Timestamp | |---------|--------------|----------|-----------| | CLAIM-001 | "Initial Claim Review and Docu" | John Smith | 2024-03-15 09:00 | | CLAIM-001 | "Medical Records Request Sent " | Sarah Johnson | 2024-03-15 10:30 | | CLAIM-001 | "Approve" | Mark Davis | 2024-03-15 14:00 |
Ergebnis: Aktivitätsnamen werden auf 30 Zeichen beschränkt, was zu prägnanteren Bezeichnungen für die Prozessvisualisierung führt.
Erkenntnisse: Die verkürzten Aktivitätsnamen verbesserten die Lesbarkeit des Ablaufplans um 60 %, wobei die wesentlichen Informationen zu jedem Schritt erhalten blieben. Prozessanalysten konnten Engpässe schneller erkennen, und die standardisierten Längen ermöglichten genauere Analysen zur Häufigkeit von Aktivitäten.
Beispiel 5: Standardisierung von Referenznummern über Systeme hinweg
Szenario: Ein Logistikunternehmen konsolidiert Versanddaten von mehreren Spediteuren, die unterschiedliche Referenznummer-Formate mit variierenden Längen verwenden, was in ihrem einheitlichen Tracking-Dashboard Probleme verursacht.
Einstellungen:
- Attributname: Tracking_Reference
- Maximale Länge: 25
Vor der Anreicherung: | Case ID | Tracking_Reference | Carrier | Status | |---------|-------------------|---------|--------| | SHIP-001 | "UPS1Z9999999999999999-EXPEDITED-INTERNATIONAL-PRIORITY" | UPS | In Transit | | SHIP-002 | "FEDEX777888999000" | FedEx | Delivered | | SHIP-003 | "DHL-EXPR-WORLDWIDE-DOC-999888777666555-PREPAID-MORNING-DELIVERY" | DHL | Processing |
Nach der Anreicherung: | Case ID | Tracking_Reference | Carrier | Status | |---------|-------------------|---------|--------| | SHIP-001 | "UPS1Z9999999999999999-EXP" | UPS | In Transit | | SHIP-002 | "FEDEX777888999000" | FedEx | Delivered | | SHIP-003 | "DHL-EXPR-WORLDWIDE-DOC-99" | DHL | Processing |
Ergebnis: Tracking-Referenzen werden auf maximal 25 Zeichen standardisiert, wobei die wichtigsten Identifizierungsinformationen erhalten bleiben.
Erkenntnisse: Die Standardisierung der Referenzlängen ermöglichte die Erstellung eines einheitlichen Tracking-Dashboards, das alle Spediteure konsistent darstellt. Das Unternehmen stellte fest, dass die Kern-Trackingnummer immer in den ersten 25 Zeichen erscheint, weshalb diese Kürzung ideal für ihre Berichtszwecke ist.
Ausgabe
Die Anreicherung „Textlänge begrenzen“ ändert Textattributwerte direkt in Ihrem Datensatz, ohne neue Attribute zu erstellen. Die Anreicherung wirkt auf das ausgewählte Attribut, egal ob Fall- oder Ereignisattribut:
Für Fallattribute: Jeder eindeutige Fall im Datensatz wird geprüft, und sein ausgewählter Textattribut-Wert wird bei Überschreitung der maximalen Länge auf das Zeichenlimit gekürzt. Die Kürzung erfolgt exakt an der vorgegebenen Zeichenposition und kann Wörter mitten im Text abschneiden.
Für Ereignisattribute: Jede Ereigniszeile im Datensatz wird geprüft und der Wert des ausgewählten Textattributs bei Bedarf gekürzt. Das heißt, dass das gleiche Attribut in verschiedenen Ereignissen unterschiedlich gekürzt sein kann, abhängig von den Originalwerten.
Wesentliche Merkmale:
- Ursprüngliche Attributnamen bleiben unverändert
- Datentyp bleibt Zeichenkette/Text
- Werte, die kürzer oder gleich der maximalen Länge sind, bleiben unverändert
- Null- oder leere Werte werden nicht verändert
- Die Kürzung erfolgt exakt an der Zeichenposition, ohne Berücksichtigung von Wortgrenzen
- Sonderzeichen, Leerzeichen und Interpunktion zählen zum Zeichenlimit
- Es wird kein Auslassungszeichen (...) oder Ähnliches hinzugefügt, um eine Kürzung anzuzeigen
Die modifizierten Attributwerte stehen sofort für Filter, Berechnungen und weitere Anreicherungen bereit. Diese In-Place-Modifikation stellt sicher, dass alle weiteren Verarbeitungsschritte in Ihrer Process-Mining-Analyse mit standardisierten Textlängen arbeiten.
Siehe auch
- Trim Text – Entfernen von führenden und nachfolgenden Leerzeichen aus Textattributen
- Upper Case – Umwandlung von Textattributen in Großbuchstaben zur Standardisierung
- Text Start – Extrahieren einer festgelegten Anzahl von Zeichen vom Textanfang
- Text End – Extrahieren einer festgelegten Anzahl von Zeichen vom Textende
- Find and Replace – Ersetzen spezifischer Textmuster innerhalb von Attributwerten
- Concatenate Attributes – Kombination mehrerer Textattribute zu einem einzigen Feld
Diese Dokumentation ist Teil der mindzie Studio Process-Mining-Plattform.