Tekst Bijsnijden
Overzicht
De Trim Text verrijking is een dataopruimingsoperator die automatisch alle voor- en achtervoegende witruimtes verwijdert uit tekstattributen in uw dataset. Deze essentiële tool voor datakwaliteit zorgt voor consistentie in tekstvelden doordat onbedoelde spaties, tabs en andere onzichtbare tekens die problemen kunnen veroorzaken bij data matching, filtering en analyse worden geëlimineerd. Bij het verwerken van data uit diverse bronnen zoals ERP-systemen, spreadsheets of handmatige invoersystemen, bevatten tekstvelden vaak onbedoelde witruimtes die nauwkeurige procesmining analyses kunnen verhinderen.
In tegenstelling tot handmatige data cleaning pakt deze verrijking elke tekstattribuut in zowel casusniveau- als gebeurtenisniveaudata in één enkele bewerking aan. De verrijking gaat intelligent om met lege strings door ze om te zetten in null-waarden, zodat uw dataset de juiste dataintegriteit behoudt. Deze automatische opschoning is vooral waardevol bij het voorbereiden van data voor conformiteitscontrole, waarbij exacte tekstovereenkomsten cruciaal zijn voor het identificeren van procespatronen en afwijkingen.
Veelvoorkomende Toepassingen
- Geïmporteerde data uit ERP-systemen opschonen waar velden achtervoegsels met spaties bevatten door vaste breedte databasekolommen
- Standaardiseren van door gebruikers ingevoerde tekstvelden uit formulieren of handmatige invoersystemen waar operators per ongeluk spaties toevoegen
- Data voorbereiden voor nauwkeurige matching en filteroperaties door consistente tekstformattering te garanderen
- Onzichtbare witruimtes verwijderen die kunnen leiden tot waarden die er dubbel uitzien in dropdown-filters
- Activiteiten- en resource-namen opschonen voor accurate procesontdekking en conformiteitsanalyse
- Productcodes, klant-ID's en referentienummers normaliseren die inconsistent gespaard kunnen zijn
- Tekstattributen voorbereiden voor concatenatie- of join-operaties waarbij extra spaties formatteringsproblemen zouden veroorzaken
Instellingen
Deze verrijking werkt automatisch op alle tekstattributen zonder dat er configuratie nodig is. Het verwerkt elke stringkolom in uw dataset en past de trim-logica consequent toe op casus- en gebeurtenisattributen.
Voorbeelden
Voorbeeld 1: ERP-systeem exportdata opschonen
Scenario: Een productiebedrijf exporteert orderdata uit hun SAP-systeem waarbij productcodes en klantnamen achtervoegsels met spaties bevatten door vaste breedte databasevelden, wat problemen veroorzaakt bij productcategorisatie en klantanalyses.
Voor Verrijking: | Case ID | Product_Code | Customer_Name | Order_Status | |---------|--------------|---------------|--------------| | ORD-001 | "PRD-1234 " | "Acme Corp " | "APPROVED " | | ORD-002 | " PRD-5678" | " Beta Inc " | "PENDING" | | ORD-003 | "PRD-1234" | "Acme Corp" | "APPROVED" |
Na Verrijking: | Case ID | Product_Code | Customer_Name | Order_Status | |---------|--------------|---------------|--------------| | ORD-001 | "PRD-1234" | "Acme Corp" | "APPROVED" | | ORD-002 | "PRD-5678" | "Beta Inc" | "PENDING" | | ORD-003 | "PRD-1234" | "Acme Corp" | "APPROVED" |
Output: Alle tekstattributen zijn bijgesneden, waarbij voor- en achtervoegende spaties zijn verwijderd. Nu worden producten PRD-1234 van orders ORD-001 en ORD-003 correct als hetzelfde product herkend en zijn klantnamen consequent geformatteerd.
Inzichten: Na trimmen ontdekte het bedrijf dat wat leek op 150 unieke productcodes eigenlijk slechts 95 verschillende producten waren. Deze nauwkeurige data maakte correcte inventarisanalyses mogelijk en toonde aan dat Acme Corp 40% meer orders had dan aanvankelijk berekend door correcte naammatching.
Voorbeeld 2: Standaardiseren van handmatige invoerdata in de gezondheidszorg
Scenario: Het patiëntopnamesysteem van een ziekenhuis bevat activiteitenamen en afdelingsvelden met inconsistente spaties door handmatige invoer, wat nauwkeurige processtroomanalyse en benuttingsstatistieken van de afdeling verhindert.
Gebeurtenisdata Voor: | Case ID | Activity | Department | Resource | |---------|----------|------------|----------| | PAT-101 | " Patient Registration" | "Emergency " | "Nurse Johnson " | | PAT-101 | "Triage " | " Emergency" | "Dr. Smith" | | PAT-102 | "Patient Registration" | "Emergency" | " Nurse Johnson" |
Gebeurtenisdata Na: | Case ID | Activity | Department | Resource | |---------|----------|------------|----------| | PAT-101 | "Patient Registration" | "Emergency" | "Nurse Johnson" | | PAT-101 | "Triage" | "Emergency" | "Dr. Smith" | | PAT-102 | "Patient Registration" | "Emergency" | "Nurse Johnson" |
Output: Activiteitenamen, afdelingen en resource-namen zijn gestandaardiseerd door alle extra spaties te verwijderen. De processtroom toont nu correct één "Patient Registration"-activiteit in plaats van twee verschillende.
Inzichten: De opschoning toonde de daadwerkelijke patiëntstroom door de spoedeisende hulp, waarbij 100% van de patiënten dezelfde initiële registratie doorloopt. Rapportages van resourcebenutting laten nu nauwkeurig zien dat Nurse Johnson 75% van de registraties behandelt in plaats van als twee verschillende resources te verschijnen.
Voorbeeld 3: Financiële transactiegegevens opschonen
Scenario: Het leningverwerkingssysteem van een bank exporteert transactietypes en goedkeuringscodes met verschillende witruimteproblemen vanuit verschillende vestigingen, wat het onmogelijk maakt om goedkeuringspatronen en procesconformiteit nauwkeurig te volgen.
Casusattributen Voor: | Loan_ID | Loan_Type | Branch_Code | Approval_Level | |---------|-----------|-------------|----------------| | LN-5001 | "Personal Loan " | " NYC-01 " | "Manager " | | LN-5002 | " Personal Loan" | "NYC-01" | "Manager" | | LN-5003 | " Business Loan " | " LA-02" | " Director " |
Casusattributen Na: | Loan_ID | Loan_Type | Branch_Code | Approval_Level | |---------|-----------|-------------|----------------| | LN-5001 | "Personal Loan" | "NYC-01" | "Manager" | | LN-5002 | "Personal Loan" | "NYC-01" | "Manager" | | LN-5003 | "Business Loan" | "LA-02" | "Director" |
Output: Alle leningtypes, vestigingscodes en goedkeuringsniveaus zijn consistent geformatteerd. Personal Loans van LN-5001 en LN-5002 worden nu correct samen gegroepeerd en vestigingscodes zijn gestandaardiseerd voor nauwkeurige regionale analyses.
Inzichten: Na opschoning ontdekte de bank dat Personal Loans 65% van hun portfolio vertegenwoordigden in plaats van de gerapporteerde 43%, omdat diverse spatievariaties als andere leningtypes waren geteld. Dit maakte juiste risicobeoordeling en resourceallocatie voor hun dominante productlijn mogelijk.
Voorbeeld 4: Normaliseren van inkoopprocesdata
Scenario: Een inkoopsysteem combineert data van meerdere leveranciersplatforms waar leveranciersnamen, materiaalcategorieën en bestellingsstatussen inconsistent witruimte bevatten, wat nauwkeurige uitgavenanalyse en leveranciersprestatie volgen verhindert.
Voor Verrijking: | PO_Number | Vendor_Name | Material_Category | Status | |-----------|-------------|-------------------|---------| | PO-8001 | "TechSupply Inc " | " Electronics " | "Delivered " | | PO-8002 | " TechSupply Inc" | "Electronics" | " Delivered" | | PO-8003 | "TechSupply Inc" | " Electronics" | "Pending" |
Na Verrijking: | PO_Number | Vendor_Name | Material_Category | Status | |-----------|-------------|-------------------|---------| | PO-8001 | "TechSupply Inc" | "Electronics" | "Delivered" | | PO-8002 | "TechSupply Inc" | "Electronics" | "Delivered" | | PO-8003 | "TechSupply Inc" | "Electronics" | "Pending" |
Output: Leveranciersnamen en materiaalcategorieën zijn gestandaardiseerd over alle aankooporders. Alle drie de orders zijn nu correct gekoppeld aan dezelfde leverancier en categorie.
Inzichten: De opschoning toonde aan dat TechSupply Inc feitelijk de grootste leverancier van het bedrijf was met $2,3M aan jaarlijkse uitgaven, in plaats van drie afzonderlijke kleinere leveranciers zoals eerder gerapporteerd. Deze consolidatie maakte betere leveranciersonderhandelingen mogelijk en identificeerde kansen voor volumekortingen.
Voorbeeld 5: Activiteitenamen opschonen voor procesontdekking
Scenario: Het verzendvolgsysteem van een logistiek bedrijf heeft activiteitenamen met diverse witruimteproblemen door verschillende scanapparaten en handmatige invoer, wat ervoor zorgt dat procesontdekking gefragmenteerde en onjuiste processtromen toont.
Gebeurtenislog Voor: | Case_ID | Activity | Location | Timestamp | |---------|----------|----------|-----------| | SHIP-901 | "Package Received " | "Warehouse A " | 2024-01-10 08:00 | | SHIP-901 | " Sorting" | "Warehouse A" | 2024-01-10 09:00 | | SHIP-902 | "Package Received" | " Warehouse A" | 2024-01-10 08:30 | | SHIP-902 | "Sorting " | "Warehouse A " | 2024-01-10 09:30 |
Gebeurtenislog Na: | Case_ID | Activity | Location | Timestamp | |---------|----------|----------|-----------| | SHIP-901 | "Package Received" | "Warehouse A" | 2024-01-10 08:00 | | SHIP-901 | "Sorting" | "Warehouse A" | 2024-01-10 09:00 | | SHIP-902 | "Package Received" | "Warehouse A" | 2024-01-10 08:30 | | SHIP-902 | "Sorting" | "Warehouse A" | 2024-01-10 09:30 |
Output: Alle activiteitenamen en locaties zijn bijgesneden om variaties in witruimte te verwijderen. Het proces toont nu een duidelijke, lineaire flow van Package Received gevolgd door Sorting voor alle zendingen.
Inzichten: Procesontdekking toont nu correct een standaard twee-stappenproces voor alle pakketten in plaats van acht verschillende activiteitvariaties. Dit toonde aan dat 100% van de pakketten hetzelfde initiële afhandelingsproces volgt, waardoor het bedrijf training kan standaardiseren en resourceallocatie bij Warehouse A kan optimaliseren.
Output
De Trim Text verrijking wijzigt bestaande tekstattributen direct, in plaats van nieuwe attributen aan te maken. Alle string-type kolommen in uw dataset worden automatisch verwerkt, inclusief casus- en gebeurtenisattributen. De verrijking past de volgende transformaties toe:
Tekstverwerkingsregels:
- Verwijdert alle voorloopwitruimte (spaties, tabs en andere onzichtbare tekens aan het begin van tekst)
- Verwijdert alle achterloopwitruimte (spaties, tabs en andere onzichtbare tekens aan het einde van tekst)
- Behoudt interne spaties binnen de tekst (alleen begin en einde worden bijgesneden)
- Zet lege strings (strings die na trimmen leeg worden) om in null-waarden
- Laat al bijgesneden tekst onveranderd voor optimale prestaties
- Negeert niet-tekst attributen (nummers, datums, booleans blijven onaangeroerd)
- Verwerkt verborgen kolommen niet om systeemdata te behouden
De verrijking werkt naadloos samen met andere mindzieStudio-functies. Bijgesneden tekstattributen kunnen direct worden gebruikt in filters voor nauwkeurige matching, in calculators voor precieze concatenatieoperaties, en in andere verrijkingen die afhangen van consistente tekstformattering. Omdat de verrijking data direct wijzigt, profiteren alle bestaande visualisaties, dashboards en analyses automatisch van de opgeschoonde data zonder herconfiguratie.
Voor downstream verwerking zorgt de opgeschoonde tekst ervoor dat conformiteitscontroles correct overeenkomende activiteiten identificeren, lookup-verrijkingen nauwkeurige matches vinden over datasets heen, en groepsoperaties gerelateerde casussen juist aggregeren. De null-conversie voor lege strings voorkomt problemen met databasebewerkingen en garandeert consistente afhandeling van lege waarden door het hele platform.
Deze documentatie maakt deel uit van het mindzie Studio process mining platform.