Text kürzen
Übersicht
Die Trim Text-Anreicherung ist ein Datenbereinigungsoperator, der automatisch alle führenden und abschließenden Leerzeichen aus Textattributen in Ihrem gesamten Datensatz entfernt. Dieses wesentliche Werkzeug zur Datenhygiene sorgt für Konsistenz in Textfeldern, indem versehentliche Leerzeichen, Tabs und andere unsichtbare Zeichen eliminiert werden, die Probleme bei der Datenabstimmung, Filterung und Analyse verursachen können. Bei der Verarbeitung von Daten aus verschiedenen Quellen wie ERP-Systemen, Tabellenkalkulationen oder manuellen Eingabesystemen enthalten Textfelder oft unbeabsichtigte Leerzeichen, die eine genaue Process-Mining-Analyse verhindern können.
Im Gegensatz zu manuellen Datenbereinigungsansätzen verarbeitet diese Anreicherung in einem einzigen Vorgang jedes Textattribut sowohl auf Fall- als auch auf Ereignisebene. Die Anreicherung behandelt leere Zeichenfolgen intelligent, indem sie diese in Nullwerte umwandelt, um die Datenintegrität Ihres Datensatzes zu gewährleisten. Diese automatische Bereinigung ist besonders wertvoll bei der Vorbereitung von Daten für die Konformitätsprüfung, bei der genaue Textübereinstimmungen entscheidend sind, um Prozessmuster und Abweichungen zu identifizieren.
Häufige Anwendungsfälle
- Bereinigung importierter Daten aus ERP-Systemen, bei denen Felder aufgrund von Datenbankspalten mit fester Breite nachgestellte Leerzeichen enthalten
- Standardisierung von benutzereingegebenen Textfeldern aus Formularen oder manuellen Eingabesystemen, bei denen Bediener versehentlich Leerzeichen hinzufügen
- Vorbereitung von Daten für genaue Übereinstimmungs- und Filtervorgänge durch Sicherstellung einer konsistenten Textformatierung
- Entfernung unsichtbarer Leerzeichen, die in Dropdown-Filtern wie doppelt erscheinende Werte wirken können
- Bereinigung von Aktivitätsnamen und Ressourcennamen für eine genaue Prozessentdeckung und Konformitätsanalyse
- Normalisierung von Produktcodes, Kunden-IDs und Referenznummern, die uneinheitliche Leerzeichen enthalten können
- Vorbereitung von Textattributen für Konkatenations- oder Join-Operationen, bei denen zusätzliche Leerzeichen Formatierungsprobleme verursachen würden
Einstellungen
Diese Anreicherung arbeitet automatisch auf allen Textattributen, ohne dass eine Konfiguration erforderlich ist. Sie verarbeitet jede String-Spalte in Ihrem Datensatz und wendet die Kürzungslogik einheitlich auf Fallattribute und Ereignisattribute an.
Beispiele
Beispiel 1: Bereinigung von Exportdaten aus ERP-Systemen
Szenario: Ein Fertigungsunternehmen exportiert Auftragsdaten aus seinem SAP-System, bei denen Produktcodes und Kundennamen aufgrund von Datenbankfeldern mit fester Breite nachgestellte Leerzeichen enthalten, was Probleme bei der Produktkategorisierung und Kundenanalyse verursacht.
Vor der Anreicherung: | Case ID | Product_Code | Customer_Name | Order_Status | |---------|--------------|---------------|--------------| | ORD-001 | "PRD-1234 " | "Acme Corp " | "APPROVED " | | ORD-002 | " PRD-5678" | " Beta Inc " | "PENDING" | | ORD-003 | "PRD-1234" | "Acme Corp" | "APPROVED" |
Nach der Anreicherung: | Case ID | Product_Code | Customer_Name | Order_Status | |---------|--------------|---------------|--------------| | ORD-001 | "PRD-1234" | "Acme Corp" | "APPROVED" | | ORD-002 | "PRD-5678" | "Beta Inc" | "PENDING" | | ORD-003 | "PRD-1234" | "Acme Corp" | "APPROVED" |
Ergebnis: Alle Textattribute sind gekürzt, führende und abschließende Leerzeichen wurden entfernt. Produkte PRD-1234 aus den Aufträgen ORD-001 und ORD-003 werden jetzt korrekt als dasselbe Produkt erkannt, und die Kundennamen sind einheitlich formatiert.
Erkenntnisse: Nach dem Kürzen stellte das Unternehmen fest, dass das, was zuvor wie 150 eindeutige Produktcodes wirkte, tatsächlich nur 95 verschiedene Produkte waren. Diese korrekten Daten ermöglichten eine angemessene Bestandsanalyse und zeigten, dass Acme Corp aufgrund der richtigen Namenszuordnung 40 % mehr Aufträge hatte als ursprünglich berechnet.
Beispiel 2: Standardisierung von manuellen Eingabedaten im Gesundheitswesen
Szenario: Das Patientenaufnahme-System eines Krankenhauses hat Aktivitätsnamen und Abteilungsfelder mit uneinheitlichen Leerzeichen durch manuelle Eingaben, was eine genaue Prozessflussanalyse und Abteilungsnutzung verhindert.
Ereignisdaten vorher: | Case ID | Activity | Department | Resource | |---------|----------|------------|----------| | PAT-101 | " Patient Registration" | "Emergency " | "Nurse Johnson " | | PAT-101 | "Triage " | " Emergency" | "Dr. Smith" | | PAT-102 | "Patient Registration" | "Emergency" | " Nurse Johnson" |
Ereignisdaten nachher: | Case ID | Activity | Department | Resource | |---------|----------|------------|----------| | PAT-101 | "Patient Registration" | "Emergency" | "Nurse Johnson" | | PAT-101 | "Triage" | "Emergency" | "Dr. Smith" | | PAT-102 | "Patient Registration" | "Emergency" | "Nurse Johnson" |
Ergebnis: Aktivitätsnamen, Abteilungen und Ressourcennamen wurden durch Entfernen aller zusätzlichen Leerzeichen standardisiert. Der Prozessfluss zeigt jetzt korrekt eine einzige Aktivität "Patient Registration" statt zwei unterschiedliche Aktivitäten.
Erkenntnisse: Die Bereinigung zeigte den tatsächlichen Patientenfluss durch die Notaufnahme, der aufzeigt, dass 100 % der Patienten denselben Anfangserfassungsprozess durchlaufen. Berichte zur Ressourcennutzung zeigen jetzt genau, dass Nurse Johnson 75 % der Registrierungen übernimmt, anstatt als zwei verschiedene Ressourcen zu erscheinen.
Beispiel 3: Bereinigung von Finanztransaktionsdaten
Szenario: Das Kreditbearbeitungssystem einer Bank exportiert Transaktionstypen und Genehmigungscodes mit verschiedenen Leerzeichenproblemen aus unterschiedlichen Filialsystemen, was eine genaue Nachverfolgung von Genehmigungsmustern und Prozesskonformität unmöglich macht.
Fallattribute vorher: | Loan_ID | Loan_Type | Branch_Code | Approval_Level | |---------|-----------|-------------|----------------| | LN-5001 | "Personal Loan " | " NYC-01 " | "Manager " | | LN-5002 | " Personal Loan" | "NYC-01" | "Manager" | | LN-5003 | " Business Loan " | " LA-02" | " Director " |
Fallattribute nachher: | Loan_ID | Loan_Type | Branch_Code | Approval_Level | |---------|-----------|-------------|----------------| | LN-5001 | "Personal Loan" | "NYC-01" | "Manager" | | LN-5002 | "Personal Loan" | "NYC-01" | "Manager" | | LN-5003 | "Business Loan" | "LA-02" | "Director" |
Ergebnis: Alle Kreditarten, Filialcodes und Genehmigungsebenen sind einheitlich formatiert. Personal Loans aus LN-5001 und LN-5002 sind nun korrekt zusammengefasst und die Filialcodes sind für eine präzise regionale Analyse standardisiert.
Erkenntnisse: Nach der Bereinigung stellte die Bank fest, dass Personal Loans 65 % ihres Portfolios ausmachten statt der berichteten 43 %, da verschiedene Leerzeichenvariationen als unterschiedliche Kreditarten gezählt worden waren. Dies ermöglichte eine korrekte Risikobewertung und Ressourcenverteilung für die dominierende Produktlinie.
Beispiel 4: Normalisierung von Beschaffungsprozessdaten
Szenario: Ein Beschaffungssystem kombiniert Daten aus mehreren Lieferantenplattformen, bei denen Lieferantennamen, Materialkategorien und Bestellstatus uneinheitliche Leerzeichen enthalten, was eine genaue Ausgabenanalyse und Lieferantenleistungsverfolgung verhindert.
Vor der Anreicherung: | PO_Number | Vendor_Name | Material_Category | Status | |-----------|-------------|-------------------|---------| | PO-8001 | "TechSupply Inc " | " Electronics " | "Delivered " | | PO-8002 | " TechSupply Inc" | "Electronics" | " Delivered" | | PO-8003 | "TechSupply Inc" | " Electronics" | "Pending" |
Nach der Anreicherung: | PO_Number | Vendor_Name | Material_Category | Status | |-----------|-------------|-------------------|---------| | PO-8001 | "TechSupply Inc" | "Electronics" | "Delivered" | | PO-8002 | "TechSupply Inc" | "Electronics" | "Delivered" | | PO-8003 | "TechSupply Inc" | "Electronics" | "Pending" |
Ergebnis: Lieferantennamen und Materialkategorien sind bei allen Bestellungen standardisiert. Alle drei Bestellungen werden jetzt korrekt dem gleichen Lieferanten und der gleichen Kategorie zugeordnet.
Erkenntnisse: Die Bereinigung zeigte, dass TechSupply Inc tatsächlich der größte Lieferant des Unternehmens mit 2,3 Mio. USD Jahresausgaben war und nicht die zuvor berichteten drei kleineren Lieferanten. Diese Konsolidierung ermöglichte bessere Lieferantenverhandlungen und identifizierte Chancen für Mengennachlässe.
Beispiel 5: Bereinigung von Aktivitätsnamen für Process Discovery
Szenario: Das Sendungsverfolgungssystem eines Logistikunternehmens enthält Aktivitätsnamen mit verschiedenen Leerzeichenproblemen durch verschiedene Scannergeräte und manuelle Eingaben, wodurch Process Discovery fragmentierte und inkorrekte Prozessflüsse zeigt.
Ereignisprotokoll vorher: | Case_ID | Activity | Location | Timestamp | |---------|----------|----------|-----------| | SHIP-901 | "Package Received " | "Warehouse A " | 2024-01-10 08:00 | | SHIP-901 | " Sorting" | "Warehouse A" | 2024-01-10 09:00 | | SHIP-902 | "Package Received" | " Warehouse A" | 2024-01-10 08:30 | | SHIP-902 | "Sorting " | "Warehouse A " | 2024-01-10 09:30 |
Ereignisprotokoll nachher: | Case_ID | Activity | Location | Timestamp | |---------|----------|----------|-----------| | SHIP-901 | "Package Received" | "Warehouse A" | 2024-01-10 08:00 | | SHIP-901 | "Sorting" | "Warehouse A" | 2024-01-10 09:00 | | SHIP-902 | "Package Received" | "Warehouse A" | 2024-01-10 08:30 | | SHIP-902 | "Sorting" | "Warehouse A" | 2024-01-10 09:30 |
Ergebnis: Alle Aktivitätsnamen und Standorte sind gekürzt, um Leerzeichenvariationen zu entfernen. Der Prozess zeigt jetzt einen sauberen, linearen Ablauf von Package Received gefolgt von Sorting für alle Sendungen.
Erkenntnisse: Process Discovery zeigt nun korrekt einen standardisierten zweistufigen Prozess für alle Pakete, statt acht verschiedenen Aktivitätsvarianten. Dies zeigte, dass 100 % der Pakete denselben Anfangsverarbeitungsprozess durchlaufen, was dem Unternehmen ermöglichte, Schulungen zu standardisieren und die Ressourcenzuteilung im Lager A zu optimieren.
Ausgabe
Die Trim Text-Anreicherung verändert bestehende Textattribute direkt, anstatt neue Attribute zu erstellen. Alle Spalten vom Typ String in Ihrem Datensatz werden automatisch verarbeitet, einschließlich Fallattribute und Ereignisattribute. Die Anreicherung führt folgende Transformationen durch:
Textverarbeitungsregeln:
- Entfernt alle führenden Leerzeichen (Leerzeichen, Tabs und andere unsichtbare Zeichen am Anfang des Textes)
- Entfernt alle abschließenden Leerzeichen (Leerzeichen, Tabs und andere unsichtbare Zeichen am Ende des Textes)
- Bewahrt interne Leerzeichen im Text (nur Anfang und Ende werden gekürzt)
- Wandelt leere Zeichenfolgen (Strings, die nach dem Kürzen leer sind) in Nullwerte um
- Lässt bereits gekürzte Texte unverändert für optimale Leistung
- Überspringt Nicht-Text-Attribute (Zahlen, Daten, Booleans bleiben unverändert)
- Verarbeitet keine versteckten Spalten, um Systemdaten zu erhalten
Die Anreicherung arbeitet nahtlos mit anderen mindzieStudio-Funktionen zusammen. Gekürzte Textattribute können sofort in Filtern für genaue Übereinstimmungen, in Rechenfeldern für präzise Verkettungsoperationen und in anderen Anreicherungen verwendet werden, die von konsistenter Textformatierung abhängen. Da die Anreicherung Daten direkt verändert, profitieren alle existierenden Visualisierungen, Dashboards und Analysen automatisch von den bereinigten Daten ohne Neukonfiguration.
Für die nachfolgende Verarbeitung sorgt der bereinigte Text dafür, dass Konformitätsprüfungsoperatoren passende Aktivitäten korrekt erkennen, Lookup-Anreicherungen genaue Übereinstimmungen über Datensätze hinweg finden und Group-by-Operationen zusammengehörige Fälle richtig aggregieren. Die Null-Konvertierung leerer Zeichenfolgen verhindert Probleme bei Datenbankoperationen und stellt sicher, dass leere Werte in der gesamten Plattform konsistent behandelt werden.
Diese Dokumentation ist Teil der mindzie Studio Prozess-Mining-Plattform.