Text ersetzen

Übersicht

Die Anreicherung Replace Text ist ein leistungsstarker Operator zur Datenumwandlung, der Suchen-und-Ersetzen-Operationen auf Textattributen in Ihrem gesamten Datensatz durchführt. Diese Anreicherung ermöglicht systematische Textsubstitutionen über Fall- und Ereignisattribute hinweg, sodass Sie Terminologien standardisieren, systematische Fehler korrigieren oder Datenformate konsistent transformieren können. Ob Sie veraltete Produktcodes ersetzen, Abteilungsnamen standardisieren oder wiederkehrende Tippfehler in Ihren Prozessdaten korrigieren möchten – diese Anreicherung bietet eine zuverlässige und effiziente Lösung für Massenänderungen im Text.

Im Gegensatz zu manuellen Suchen-und-Ersetzen-Vorgängen, die das Risiko bergen, Vorkommen zu übersehen oder Inkonsistenzen einzuführen, verarbeitet diese Anreicherung jede Instanz des angegebenen Textmusters in allen ausgewählten Attributen. Die Anreicherung unterstützt sowohl Groß-/Kleinschreibung beachtende als auch ignorierende Ersetzungsmodi und bietet Ihnen präzise Kontrolle darüber, wie die Textübereinstimmung erfolgt. Diese Flexibilität ist besonders wichtig bei der Verarbeitung von Daten aus mehreren Quellen, bei denen Schreibkonventionen variieren können, wie z. B. bei der Integration von Daten aus verschiedenen ERP-Systemen oder regionalen Niederlassungen.

Die Anreicherung Replace Text arbeitet direkt auf den String-Attributen Ihres Datensatzes und ändert Werte vor Ort, um Datenbeziehungen und -integrität zu erhalten. Dieser Ansatz stellt sicher, dass alle nachgelagerten Analysen, Filter und Berechnungen automatisch von den standardisierten Textwerten profitieren, ohne dass zusätzliche Konfigurationen oder Datenabbildungsschritte erforderlich sind.

Häufige Anwendungsfälle

Standardisierung unterschiedlicher Abteilungs- oder Ortsnamen über verschiedene Systeme hinweg (z. B. Ersetzen von „NY Office“, „New York“, „NYC“ durch ein standardisiertes „New York Office“)
Aktualisierung veralteter Produktcodes oder SKUs nach Systemmigrationen oder Rebranding-Initiativen
Korrektur systematischer Rechtschreibfehler oder Abkürzungen in Aktivitätsnamen für klarere Prozessvisualisierungen
Ersetzen sensibler Informationen durch anonymisierte Werte zur Einhaltung von Datenschutzbestimmungen
Standardisierung von Datums- oder Zeitformaten in Textfeldern durch Ersetzen von Trennzeichen oder Formatierungssymbolen
Umwandlung von Statuscodes oder Abkürzungen in lesbare Geschäftsterminologie für bessere Berichte
Harmonisierung von Lieferanten- oder Kundennamen, die in den Quelldaten mehrfach variieren

Einstellungen

Attribute Name: Wählen Sie das Textattribut aus, in dem Sie die Ersetzungsoperation durchführen möchten. Das Dropdown zeigt alle verfügbaren String-Attribute sowohl auf Fall- als auch auf Ereignisebene an. Nur Textattribute (String-Typ), die nicht ausgeblendet oder berechnete Felder sind, stehen zur Auswahl. Wählen Sie das spezifische Attribut, das die zu ändernden Textwerte enthält.

Original Text: Geben Sie den genauen Textstring ein, den Sie im ausgewählten Attribut suchen und ersetzen möchten. Dies ist das Suchmuster, das in Ihren Daten abgeglichen wird. Der Text muss exakt übereinstimmen (unter Berücksichtigung der Einstellung Ignore Case), damit eine Ersetzung erfolgt. Lassen Sie dieses Feld leer, wenn Sie leere Strings durch einen bestimmten Wert ersetzen möchten. Häufige Beispiele sind veraltete Codes, Rechtschreibfehler oder inkonsistente Terminologie.

New Text: Geben Sie den Ersatztext an, der alle Vorkommen des Original Text ersetzt. Dies kann ein beliebiger Textwert sein, einschließlich eines leeren Strings, wenn der Originaltext vollständig entfernt werden soll. Der neue Text ersetzt jede gefundene Übereinstimmung innerhalb der Attributwerte. Berücksichtigen Sie die Auswirkungen auf nachgelagerte Prozesse und stellen Sie sicher, dass der neue Text Datenintegrität und Bedeutung beibehält.

Ignore Case: Aktivieren Sie diese Option, um eine Groß-/Kleinschreibung ignoriende Übereinstimmung beim Suchen des Original Text durchzuführen. Ist diese Option aktiviert, werden Texte unabhängig von Groß- oder Kleinschreibung (z. B. „approved“, „Approved“ und „APPROVED“) gefunden. Ist sie deaktiviert, werden nur exakte Groß-/Kleinschreibungsübereinstimmungen ersetzt. Diese Einstellung ist besonders nützlich bei uneinheitlicher Großschreibung durch manuelle Dateneingabe oder unterschiedliche Quellsysteme.

Beispiele

Beispiel 1: Standardisierung von Abteilungsnamen in Bestellungen

Szenario: Ein multinationales Unternehmen muss Abteilungsnamen in seinem Bestellsystem standardisieren, da „Information Technology“, „IT Dept“, „I.T.“ und „InfoTech“ dasselbe Department bezeichnen und eine fragmentierte Ausgabenanalyse sowie Probleme bei der Genehmigungsweiterleitung verursachen.

Einstellungen:

Attribute Name: Department
Original Text: IT Dept
New Text: Information Technology
Ignore Case: Aktiviert

Ergebnis: Die Anreicherung ersetzt alle Vorkommen von „IT Dept“ (und Variationen wie „it dept“, „It Dept“) durch „Information Technology“ im Attribut Department. Nach mehrfachem Durchlauf mit anderen Originaltexten („I.T.“, „InfoTech“ usw.) sind alle Abteilungsreferenzen standardisiert.

Vorher: | Case ID | Department | Amount | |---------|------------|--------| | PO-001 | IT Dept | $5,000 | | PO-002 | Information Technology | $3,000 | | PO-003 | it dept | $2,500 | | PO-004 | I.T. | $4,000 |

Nachher: | Case ID | Department | Amount | |---------|------------|--------| | PO-001 | Information Technology | $5,000 | | PO-002 | Information Technology | $3,000 | | PO-003 | Information Technology | $2,500 | | PO-004 | Information Technology | $4,000 |

Erkenntnisse: Nach der Standardisierung stellte das Unternehmen fest, dass Information Technology tatsächlich $14.500 in Bestellungen ausmachte, anstatt wie zuvor auf vier separate Abteilungen mit unklaren Ausgabenmustern aufgeteilt zu sein. Dies ermöglichte eine korrekte Budgetverfolgung und zeigte Chancen für Mengenrabatte bei Lieferanten auf.

Beispiel 2: Aktualisierung von Produktcodes nach Systemmigration

Szenario: Ein Einzelhandelsunternehmen migrierte zu einem neuen Inventarsystem mit aktualisierten Produktcodestandards, weshalb alle alten Formatcodes (z. B. „PROD-“) durch neue Formatcodes (z. B. „SKU-“) über historische Bestelldaten hinweg für eine korrekte Inventarabstimmung ersetzt werden müssen.

Einstellungen:

Attribute Name: Product_Code
Original Text: PROD-
New Text: SKU-
Ignore Case: Deaktiviert

Ergebnis: Alle Produktcodes, die mit „PROD-“ beginnen, werden auf „SKU-“ geändert, wobei die numerischen Teile erhalten bleiben und nur das Präfix an das neue Systemformat angepasst wird.

Vorher: | Case ID | Product_Code | Quantity | Order_Date | |---------|--------------|----------|------------| | ORD-501 | PROD-12345 | 10 | 2024-01-15 | | ORD-502 | PROD-67890 | 5 | 2024-01-16 | | ORD-503 | prod-12345 | 3 | 2024-01-16 | | ORD-504 | PROD-54321 | 8 | 2024-01-17 |

Nachher: | Case ID | Product_Code | Quantity | Order_Date | |---------|--------------|----------|------------| | ORD-501 | SKU-12345 | 10 | 2024-01-15 | | ORD-502 | SKU-67890 | 5 | 2024-01-16 | | ORD-503 | prod-12345 | 3 | 2024-01-16 | | ORD-504 | SKU-54321 | 8 | 2024-01-17 |

Erkenntnisse: Beachten Sie, dass „prod-12345“ nicht ersetzt wurde, da die Suche groß-/kleinschreibungsempfindlich war. Dadurch konnten 47 Bestellungen mit falschen Kleinbuchstaben-Produktcodes identifiziert werden, die eine separate Datenqualitätsprüfung erforderten und ein spezifisches Eingabeproblem in einem Lagerstandort aufdeckten.

Beispiel 3: Anonymisierung von Kundennamen zur Einhaltung von Vorschriften

Szenario: Ein Gesundheitsdienstleister muss Patientennamen in seinen Termindaten zu Forschungszwecken anonymisieren, dabei aber weiterhin zwischen verschiedenen Patienten unterscheiden können.

Einstellungen:

Attribute Name: Patient_Name
Original Text: Smith, John
New Text: Patient_001
Ignore Case: Deaktiviert

Ergebnis: Bestimmte Patientennamen werden durch anonymisierte Kennungen ersetzt, um die Prozessanalyse zu ermöglichen und gleichzeitig die Patientendaten gemäß HIPAA-Vorschriften zu schützen.

Vorher: | Case ID | Patient_Name | Appointment_Type | Department | |---------|--------------|------------------|------------| | APT-101 | Smith, John | Initial Consultation | Cardiology | | APT-102 | Jones, Mary | Follow-up | Orthopedics | | APT-103 | Smith, John | Test Results | Cardiology | | APT-104 | Brown, David | Emergency | Emergency |

Nachher (erste Ersetzung): | Case ID | Patient_Name | Appointment_Type | Department | |---------|--------------|------------------|------------| | APT-101 | Patient_001 | Initial Consultation | Cardiology | | APT-102 | Jones, Mary | Follow-up | Orthopedics | | APT-103 | Patient_001 | Test Results | Cardiology | | APT-104 | Brown, David | Emergency | Emergency |

Erkenntnisse: Der Anonymisierungsprozess bewahrte die Beziehung zwischen Terminen desselben Patienten und entfernte gleichzeitig personenbezogene Informationen. Die Prozessanalyse zeigte, dass Patienten mit Erstkonsultationen in der Kardiologie eine 73 %-Rate an Folgeterminen innerhalb von 30 Tagen hatten.

Beispiel 4: Korrektur von Tippfehlern in Aktivitätsnamen in der Fertigung

Szenario: Das MES-System eines Fertigungswerks weist uneinheitliche Aktivitätsnamen auf, bei denen Bediener manchmal „Quaility Check“ statt „Quality Check“ eingeben, was zu falschen Abweichungen bei der Prozesskonformitätsprüfung führt.

Einstellungen:

Attribute Name: Activity
Original Text: Quaility Check
New Text: Quality Check
Ignore Case: Aktiviert

Ergebnis: Alle falsch geschriebenen Vorkommen der Qualitätskontrollaktivität werden korrigiert, unabhängig von Schreibvariationen, sodass eine korrekte Prozessentdeckung und Konformitätsanalyse gewährleistet ist.

Ereignisdaten vorher: | Case ID | Activity | Timestamp | Resource | |---------|----------|-----------|----------| | WO-801 | Material Receipt | 2024-02-01 08:00 | Warehouse | | WO-801 | Quaility Check | 2024-02-01 09:15 | QC Team | | WO-801 | Assembly Start | 2024-02-01 10:00 | Line 1 | | WO-802 | Material Receipt | 2024-02-01 08:30 | Warehouse | | WO-802 | QUAILITY CHECK | 2024-02-01 09:45 | QC Team |

Ereignisdaten nachher: | Case ID | Activity | Timestamp | Resource | |---------|----------|-----------|----------| | WO-801 | Material Receipt | 2024-02-01 08:00 | Warehouse | | WO-801 | Quality Check | 2024-02-01 09:15 | QC Team | | WO-801 | Assembly Start | 2024-02-01 10:00 | Line 1 | | WO-802 | Material Receipt | 2024-02-01 08:30 | Warehouse | | WO-802 | Quality Check | 2024-02-01 09:45 | QC Team |

Erkenntnisse: Nach der Korrektur zeigte die Konformitätsprüfung, dass 98 % der Arbeitsaufträge dem Standardprozess inklusive Qualitätskontrollen folgten, statt der zuvor dargestellten 67 %. Offenbar war das vermeintliche Konformitätsproblem tatsächlich eine Datenqualitätsfrage.

Beispiel 5: Standardisierung von Statuscodes über Systeme hinweg

Szenario: Ein Logistikunternehmen integriert Sendungsdaten aus drei verschiedenen Transportsystemen, die unterschiedliche Codes für Lieferstatus verwenden („DLVRD“, „Delivered“, „COMPLETE“), und benötigt eine Standardisierung für ein einheitliches Tracking-Dashboard.

Einstellungen:

Attribute Name: Delivery_Status
Original Text: DLVRD
New Text: Delivered
Ignore Case: Deaktiviert

Ergebnis: Kundenspezifische Statuscodes werden durch standardisierte Geschäftsterminologie ersetzt, was eine konsistente Statusberichterstattung über alle Sendungsquellen ermöglicht.

Vorher: | Case ID | Carrier | Delivery_Status | Delivery_Date | |---------|---------|-----------------|---------------| | SHP-901 | CarrierA | DLVRD | 2024-03-01 | | SHP-902 | CarrierB | Delivered | 2024-03-01 | | SHP-903 | CarrierC | COMPLETE | 2024-03-01 | | SHP-904 | CarrierA | DLVRD | 2024-03-02 |

Nachher (erste Ersetzung): | Case ID | Carrier | Delivery_Status | Delivery_Date | |---------|---------|-----------------|---------------| | SHP-901 | CarrierA | Delivered | 2024-03-01 | | SHP-902 | CarrierB | Delivered | 2024-03-01 | | SHP-903 | CarrierC | COMPLETE | 2024-03-01 | | SHP-904 | CarrierA | Delivered | 2024-03-02 |

Erkenntnisse: Nach weiteren Ersetzungen für „COMPLETE“ und andere Varianten konnte das Logistikteam akkurat berichten, dass 94 % der Sendungen pünktlich zugestellt wurden. Zuvor war die Berichterstattung durch die unterschiedliche Carrier-Systeme fragmentiert und zeigte keine konsolidierte Leistungsmessung.

Ausgabe

Die Anreicherung Replace Text ändert die ausgewählten Attributwerte direkt in Ihrem Datensatz, indem sie die angegebenen Textmuster vor Ort ersetzt. Die ursprüngliche Attributstruktur und der Datentyp bleiben erhalten, während nur der Textinhalt, der Ihren Suchkriterien entspricht, aktualisiert wird.

Bei Fallattributen erfolgt die Ersetzung einmal pro Fall und betrifft den Attributwert, der mit dem jeweiligen Fall verknüpft ist. Bei Ereignisattributen wird jedes Ereignis im Datensatz verarbeitet, was zu mehreren Ersetzungen innerhalb desselben Falls führen kann. Die Anreicherung bewahrt Nullwerte und verarbeitet nur Nicht-Null-Stringwerte innerhalb des ausgewählten Attributs.

Nach der Ausführung behält das geänderte Attribut seinen ursprünglichen Namen und seine Position im Datensatz, enthält jedoch die aktualisierten Textwerte. Diese Änderungen wirken sich sofort auf alle abhängigen Berechnungen, Filter und Visualisierungen aus, die das geänderte Attribut referenzieren. Die Anreicherung erzeugt keine neuen Attribute oder Sicherungsspalten – sie transformiert die vorhandenen Daten direkt gemäß Ihrer Vorgaben.

Die Ersetzungsoperation ist standardmäßig groß-/kleinschreibungssensitiv, kann aber über die Einstellung Ignore Case auch groß-/kleinschreibungssensitiv konfiguriert werden. Bei groß-/kleinschreibungssensitiven Ersetzungen bleibt die ursprüngliche Groß-/Kleinschreibung nicht angepasster Textbereiche erhalten, während der gefundene Teil vollständig durch den angegebenen New Text ersetzt wird.

Siehe auch

Trim Text – Entfernen von führenden und nachfolgenden Leerzeichen aus Textattributen
Text Start – Extrahieren einer festgelegten Anzahl von Zeichen vom Anfang eines Textwerts
Text End – Extrahieren einer festgelegten Anzahl von Zeichen vom Ende eines Textwerts
Group Attribute Values – Zusammenfassen mehrerer Attributwerte in standardisierte Kategorien
Categorize Attribute Values – Erstellen von Kategorien basierend auf Wertebereichen oder Mustern
Concatenate Text Attributes – Kombinieren mehrerer Textattribute in einem einzigen Feld

Diese Dokumentation ist Teil der mindzieStudio Process Mining Plattform.