Tekstlengte Beperken
Overzicht
De verrijking Tekstlengte Beperken is een data-opruimoperator die tekstwaarden in je dataset automatisch afkapt tot een opgegeven maximaal aantal tekens. Dit essentiële hulpmiddel voor datastandaardisatie helpt tekstvelden te beheren die de gewenste lengtegrenzen overschrijden, waardoor consistentie wordt gewaarborgd in je process mining dataset en problemen met downstream analyse, visualisatie en systeemintegraties worden voorkomen. Bij het werken met gegevens uit diverse bronnen bevatten tekstvelden vaak overmatig lange waarden die de prestaties, leesbaarheid en compatibiliteit met andere systemen kunnen beïnvloeden.
Deze verrijking verwerkt op intelligente wijze zowel case-niveau als event-niveau tekstattributen en behoudt de oorspronkelijke betekenis terwijl lengtebeperkingen worden afgedwongen. In tegenstelling tot handmatige afkappingsmethoden die het risico op gegevensbeschadiging of inconsistentie met zich meebrengen, past deze operator uniforme afkapregels toe over je gehele dataset. De verrijking is bijzonder waardevol bij het voorbereiden van gegevens voor dashboards waar lange tekstwaarden de lay-out kunnen verstoren, of bij integratie met systemen die strikte tekenlimieten voor bepaalde velden hanteren.
Veelvoorkomende Toepassingen
- Standaardiseren van beschrijvingsvelden met uitgebreide tekst uit ERP-systemen of ticketingsystemen
- Voorbereiden van gegevens voor visualisatie in dashboards waar lange tekstwaarden tabelindelingen of grafiekleesbaarheid verstoren
- Handhaven van tekenlimieten voordat gegevens worden geëxporteerd naar systemen met strikte veldlengte-eisen
- Afkappen van lange commentaarvelden terwijl de belangrijkste initiële informatie behouden blijft
- Standaardiseren van productnamen, klantnamen of referentiecodes naar consistente maximale lengtes
- Verbeteren van de prestaties van process mining analyse door het verminderen van geheugenverbruik door overmatig lange tekstwaarden
- Creëren van uniforme tekstvelden voor betere uitlijning in rapporten en geëxporteerde documenten
Instellingen
Attribuutnaam: Selecteer het tekstattribuut waarvan je de lengte wilt beperken. De dropdown toont alle beschikbare tekstattributen van zowel case- als eventniveau. Alleen string/tekst-type attributen worden als geldige keuzes weergegeven. Dit is een verplicht veld dat bepaalt welke kolom in je dataset afgekapt wordt.
Maximale Lengte: Geef het maximale aantal tekens op dat behouden moet blijven. Elke tekstwaarde die deze lengte overschrijdt, wordt afgekapt tot precies dit aantal tekens. De waarde moet groter zijn dan 0. Standaardwaarde is 100 tekens. Veelgebruikte waarden zijn:
- 50 tekens voor korte beschrijvingen of codes
- 100 tekens voor standaard tekstvelden
- 255 tekens voor compatibiliteit met veel databasesystemen
- 500 tekens voor langere beschrijvingen met behoud van leesbaarheid
Voorbeelden
Voorbeeld 1: Standaardiseren van Productbeschrijvingen in de Industrie
Scenario: De productcatalogus van een productiebedrijf bevat uitgebreide technische beschrijvingen die soms meer dan 1000 tekens bevatten, wat problemen veroorzaakt in hun process mining dashboards en rapporten moeilijk leesbaar maakt.
Instellingen:
- Attribuutnaam: Product_Description
- Maximale Lengte: 150
Voor Verrijking: | Case ID | Product_Description | Order_Value | |---------|-------------------|-------------| | ORD-001 | "High-precision CNC machined aluminum component with aerospace-grade 7075-T6 alloy, featuring complex 5-axis milling patterns, anodized finish in matte black, tolerances within 0.001 inches, designed for critical aviation applications requiring maximum strength-to-weight ratio and corrosion resistance in extreme environmental conditions including salt spray, temperature variations from -60C to 150C, and high vibration environments typical of turbine engine mounting applications" | $12,500 | | ORD-002 | "Standard steel bracket, zinc plated" | $45 | | ORD-003 | "Custom fabricated stainless steel assembly with multiple welded joints, polished to mirror finish, designed for pharmaceutical clean room applications with full FDA compliance and documentation package included" | $3,200 |
Na Verrijking: | Case ID | Product_Description | Order_Value | |---------|-------------------|-------------| | ORD-001 | "High-precision CNC machined aluminum component with aerospace-grade 7075-T6 alloy, featuring complex 5-axis milling patterns, anodized finis" | $12,500 | | ORD-002 | "Standard steel bracket, zinc plated" | $45 | | ORD-003 | "Custom fabricated stainless steel assembly with multiple welded joints, polished to mirror finish, designed for pharmaceutical clean room ap" | $3,200 |
Uitvoer: Productbeschrijvingen worden precies afgekapt op 150 tekens. Korte beschrijvingen blijven ongewijzigd terwijl langere worden afgekapt bij de tekenlimiet.
Inzichten: Na standaardisatie van beschrijvingslengtes verbeterde de dashboardprestaties met 40% en werden productcategorie-rapportages leesbaarder. Het team ontdekte dat 85% van de kritieke productinformatie in de eerste 150 tekens stond, waardoor deze afkapping geschikt was voor analyse terwijl volledige beschrijvingen in het bronsysteem behouden blijven.
Voorbeeld 2: Beheren van Klantfeedbackcommentaren in Serviceprocessen
Scenario: Het klantenservicesysteem van een telecombedrijf registreert gedetailleerde klachten van klanten die enkele paragrafen lang kunnen zijn, wat patronenanalyse in de process mining bemoeilijkt.
Instellingen:
- Attribuutnaam: Customer_Feedback
- Maximale Lengte: 200
Event Data Voor: | Case ID | Activity | Customer_Feedback | Timestamp | |---------|----------|------------------|-----------| | TICKET-001 | Create Ticket | "Internet connection has been extremely unreliable for the past three weeks. Speed drops to almost nothing during evening hours between 7-10 PM. Have restarted modem multiple times, checked all cables, even replaced the router with my own but problem persists. This is affecting my ability to work from home and my children cannot complete their online homework. Previous technician visit on March 15 did not resolve the issue. Need immediate resolution as I'm considering switching providers if this continues. Very frustrated with the lack of consistent service despite paying for the premium package." | 2024-03-20 14:30 | | TICKET-002 | Create Ticket | "Bill incorrect - charged twice" | 2024-03-20 15:15 |
Event Data Na: | Case ID | Activity | Customer_Feedback | Timestamp | |---------|----------|------------------|-----------| | TICKET-001 | Create Ticket | "Internet connection has been extremely unreliable for the past three weeks. Speed drops to almost nothing during evening hours between 7-10 PM. Have restarted modem multiple times, checked all ca" | 2024-03-20 14:30 | | TICKET-002 | Create Ticket | "Bill incorrect - charged twice" | 2024-03-20 15:15 |
Uitvoer: Klantfeedback wordt beperkt tot 200 tekens, waarbij het begin van elk bericht behouden blijft waar het hoofdprobleem meestal wordt vermeld.
Inzichten: Tekstmining van de afgekorte feedback toonde aan dat 92% van de problemen vanuit de eerste 200 tekens kon worden gecategoriseerd. Procesanalyse wees uit dat tickets met feedback langer dan 200 tekens 35% langere oplostijden hadden, wat wijst op complexere problemen die escalatie vereisen.
Voorbeeld 3: Voorbereiden van Inkoopordergegevens voor Systeemintegratie
Scenario: Een inkoopafdeling moet inkoopordergegevens exporteren naar een legacy boekhoudsysteem met een limiet van 50 tekens voor leveranciersnamen, terwijl hun huidige data volledige juridische bedrijfsnamen bevat die langer dan 200 tekens zijn.
Instellingen:
- Attribuutnaam: Vendor_Name
- Maximale Lengte: 50
Voor Verrijking: | Case ID | Vendor_Name | PO_Amount | |---------|------------|-----------| | PO-2024-001 | "International Business Machines Corporation (IBM) Global Technology Services Division" | $125,000 | | PO-2024-002 | "Acme Inc." | $3,500 | | PO-2024-003 | "Johnson & Johnson Consumer Healthcare Products Manufacturing and Distribution Limited Partnership" | $45,750 |
Na Verrijking: | Case ID | Vendor_Name | PO_Amount | |---------|------------|-----------| | PO-2024-001 | "International Business Machines Corporation (IBM" | $125,000 | | PO-2024-002 | "Acme Inc." | $3,500 | | PO-2024-003 | "Johnson & Johnson Consumer Healthcare Products Ma" | $45,750 |
Uitvoer: Leveranciersnamen worden afgekapt tot 50 tekens om aan systeemeisen te voldoen terwijl er genoeg informatie voor identificatie behouden blijft.
Inzichten: De afkapping maakte succesvolle integratie met het legacy systeem mogelijk zonder verlies van identificeerbaarheid. Analyse toonde aan dat 78% van de leveranciersnamen al onder de 50 tekens was, en de afgekorte namen bevatten nog steeds voldoende informatie voor unieke identificatie in inkooprapporten.
Voorbeeld 4: Optimaliseren van Activiteitenamen in Process Mining
Scenario: Een verzekeringsclaimsproces heeft activiteitenamen met gedetailleerde subprocesinformatie, wat proceskaarten rommelig en moeilijk leesbaar maakt.
Instellingen:
- Attribuutnaam: Activity_Name
- Maximale Lengte: 30
Event Data Voor: | Case ID | Activity_Name | Resource | Timestamp | |---------|--------------|----------|-----------| | CLAIM-001 | "Initial Claim Review and Documentation Verification by Senior Adjuster" | John Smith | 2024-03-15 09:00 | | CLAIM-001 | "Medical Records Request Sent to Healthcare Provider via Secure Portal" | Sarah Johnson | 2024-03-15 10:30 | | CLAIM-001 | "Approve" | Mark Davis | 2024-03-15 14:00 |
Event Data Na: | Case ID | Activity_Name | Resource | Timestamp | |---------|--------------|----------|-----------| | CLAIM-001 | "Initial Claim Review and Docu" | John Smith | 2024-03-15 09:00 | | CLAIM-001 | "Medical Records Request Sent " | Sarah Johnson | 2024-03-15 10:30 | | CLAIM-001 | "Approve" | Mark Davis | 2024-03-15 14:00 |
Uitvoer: Activiteitenamen worden beperkt tot 30 tekens, waardoor er compactere labels voor procesvisualisatie ontstaan.
Inzichten: De verkorte activiteitenamen verbeterden de leesbaarheid van proceskaarten met 60% terwijl de essentiële informatie per stap behouden bleef. Procesanalisten konden knelpunten sneller identificeren en de gestandaardiseerde lengtes maakten frequentie-analyse van activiteiten nauwkeuriger.
Voorbeeld 5: Standaardiseren van Referentienummers over Systemen
Scenario: Een logistiek bedrijf consolideert verzendgegevens van meerdere vervoerders die elk verschillende referentienummerformaten en lengtes gebruiken, wat problemen veroorzaakt in hun uniforme tracking-dashboard.
Instellingen:
- Attribuutnaam: Tracking_Reference
- Maximale Lengte: 25
Voor Verrijking: | Case ID | Tracking_Reference | Carrier | Status | |---------|-------------------|---------|--------| | SHIP-001 | "UPS1Z9999999999999999-EXPEDITED-INTERNATIONAL-PRIORITY" | UPS | In Transit | | SHIP-002 | "FEDEX777888999000" | FedEx | Delivered | | SHIP-003 | "DHL-EXPR-WORLDWIDE-DOC-999888777666555-PREPAID-MORNING-DELIVERY" | DHL | Processing |
Na Verrijking: | Case ID | Tracking_Reference | Carrier | Status | |---------|-------------------|---------|--------| | SHIP-001 | "UPS1Z9999999999999999-EXP" | UPS | In Transit | | SHIP-002 | "FEDEX777888999000" | FedEx | Delivered | | SHIP-003 | "DHL-EXPR-WORLDWIDE-DOC-99" | DHL | Processing |
Uitvoer: Trackingreferenties worden gestandaardiseerd tot maximaal 25 tekens terwijl belangrijkste identificerende informatie behouden blijft.
Inzichten: De standaardisatie van referentielengtes maakte een uniform trackingdashboard mogelijk dat informatie van alle vervoerders consistent weergeeft. Het bedrijf ontdekte dat het kerntrackingnummer altijd in de eerste 25 tekens staat, wat deze afkapping ideaal maakt voor hun rapportagebehoeften.
Uitvoer
De verrijking Tekstlengte Beperken past tekstattribuutwaarden direct in je dataset aan zonder nieuwe attributen aan te maken. De verrijking werkt op het geselecteerde attribuut, ongeacht of dit een case-attribuut of event-attribuut is:
Voor Case-attributen: Elke unieke case in je dataset krijgt de geselecteerde tekstattribuutwaarde gecontroleerd en afgekapt indien deze langer is dan de opgegeven maximale lengte. Het afkappen gebeurt precies op de opgegeven tekenlimiet, waardoor woorden mogelijk halverwege worden afgebroken.
Voor Event-attributen: Elke event-rij in je dataset krijgt het geselecteerde tekstattribuut gecontroleerd en indien nodig afgekapt. Dit betekent dat hetzelfde attribuut verschillend kan zijn afgekapt over verschillende events, afhankelijk van de oorspronkelijke waarden.
Belangrijke Kenmerken:
- Oorspronkelijke attribuutnamen blijven ongewijzigd
- Datatype blijft string/tekst
- Waarden die korter zijn dan of gelijk aan de maximale lengte blijven volledig ongewijzigd
- Null- of lege waarden worden niet beïnvloed
- Afkappen gebeurt precies op de tekenpositie zonder rekening te houden met woordgrenzen
- Speciale tekens, spaties en leestekens tellen mee voor de tekenlimiet
- Er worden geen ellipsen (...) of andere indicatoren toegevoegd om afkapping aan te geven
De gewijzigde attribuutwaarden zijn direct beschikbaar voor gebruik in filters, calculators en andere verrijkingen. Deze aanpassing ter plaatse zorgt ervoor dat alle volgende bewerkingen in je process mining analyse gestandaardiseerde tekstlengtes gebruiken.
Zie Ook
- Tekst Trimmen - Verwijder spaties aan het begin en eind van tekstattributen
- Hoofdletters - Zet tekstattributen om naar hoofdletters voor standaardisatie
- Tekst Begin - Extraheer een opgegeven aantal tekens vanaf het begin van tekstwaarden
- Tekst Eind - Extraheer een opgegeven aantal tekens vanaf het einde van tekstwaarden
- Zoeken en Vervangen - Vervang specifieke tekstpatronen binnen attribuutwaarden
- Attribuut Concateren - Combineer meerdere tekstattributen in één veld
Deze documentatie maakt deel uit van het mindzie Studio process mining platform.