Tekst Begin
Overzicht
De Text Start verrijking extraheert een bepaald aantal tekens vanaf het begin van een tekstattribuutwaarde, en creëert een nieuw attribuut dat de geëxtraheerde prefix bevat. Deze krachtige verrijking stelt je in staat om systematisch de leidende delen van tekstgegevens te extraheren en te analyseren, zoals productcodes, afdeling identificaties, locatie-prefixen of andere betekenisvolle tekstpatronen die aan het begin van attribuutwaarden voorkomen.
In process mining is Text Start onmisbaar voor het standaardiseren en categoriseren van gegevens op basis van tekstprefixen. Bijvoorbeeld, je kunt de eerste drie tekens van factuurnummers extraheren om regionale kantoren te identificeren, afdelingscodes uit werknemers-ID's halen, of productlijnidentificaties uit SKU's halen. Door nieuwe attributen aan te maken met deze geëxtraheerde prefixen, kun je fijnmaziger analyses uitvoeren, zinvolle groepen creëren en patronen ontdekken die anders verborgen zouden blijven in langere tekststrings. Deze verrijking werkt met zowel case-level als event-level attributen, wat flexibiliteit biedt in hoe je je procesgegevens structureert en analyseert.
Veelvoorkomende Toepassingen
- Afdelingscodes extraheren uit werknemers-ID's (bijv. "FIN-12345" naar "FIN")
- Regionale identificaties bepalen uit factuur- of ordercodes
- Productcategorie-prefixen halen uit SKU-codes voor voorraadanalyses
- Gebiedscodes extraheren uit telefoonnummers voor geografische analyses
- Documenttypes identificeren op basis van document-ID's die naamgevingsconventies volgen
- Groeperingen creëren op basis van gestandaardiseerde prefixen in referentienummers
- Jaar- of maandidentificaties extraheren uit datumgebaseerde tekstcodes
Instellingen
Nieuwe Attribuutnaam: De naam van het nieuwe attribuut dat wordt aangemaakt om de geëxtraheerde tekstprefix op te slaan. Dit moet een beschrijvende naam zijn die duidelijk aangeeft welke informatie het attribuut bevat. Bijvoorbeeld, bij het extraheren van afdelingscodes uit werknemers-ID's zou je het "DepartmentCode" of "EmployeeDept" kunnen noemen. Het nieuwe attribuut wordt aangemaakt op hetzelfde niveau (case of event) als het bronattribuut.
Kolomnaam: Het bron tekstattribuut waarvan je de begintekens wilt extraheren. Deze dropdown toont alle beschikbare tekstattributen in je dataset die niet verborgen zijn. De verrijking verwerkt elke waarde in deze kolom en haalt het opgegeven aantal tekens vanaf het begin eruit. Als een waarde korter is dan de opgegeven lengte, wordt de volledige waarde gebruikt.
Lengte: Het aantal te extraheren tekens vanaf het begin van de tekstwaarde. Dit moet een positief geheel getal zijn (1 of groter). Bijvoorbeeld, als dit op 3 wordt gezet, worden de eerste drie tekens geëxtraheerd; bij 5 worden de eerste vijf tekens gehaald. Als de brontekst korter is dan de opgegeven lengte, wordt de volledige beschikbare tekst gebruikt zonder opvulling of foutmelding.
Voorbeelden
Voorbeeld 1: Afdelingscode Extractie uit Werknemers-ID's
Scenario: Een zorgorganisatie gebruikt werknemers-ID's die beginnen met afdelingscodes (bijv. "NUR-45678" voor verpleegkunde, "ADM-12345" voor administratie, "LAB-98765" voor laboratorium). Ze willen de procesprestaties per afdeling analyseren.
Instellingen:
- Nieuwe Attribuutnaam: DepartmentCode
- Kolomnaam: EmployeeID
- Lengte: 3
Output: De verrijking maakt een nieuw caseattribuut "DepartmentCode" met waarden:
- Werknemer "NUR-45678" → DepartmentCode: "NUR"
- Werknemer "ADM-12345" → DepartmentCode: "ADM"
- Werknemer "LAB-98765" → DepartmentCode: "LAB"
- Werknemer "IT-5432" → DepartmentCode: "IT-" (inclusief het koppelteken als onderdeel van de eerste 3 tekens)
Inzichten: Met de geëxtraheerde afdelingscodes kan de organisatie processen filteren per afdeling, cyclustijden vergelijken tussen afdelingen en afdelingspecifieke knelpunten of complianceproblemen identificeren.
Voorbeeld 2: Regionale Kantooridentificatie uit Factuurnummers
Scenario: Een multinational gebruikt factuurnummers waarvan de eerste twee tekens het regionale kantoor aangeven (bijv. "US-INV-2024-0001" voor de Verenigde Staten, "EU-INV-2024-0002" voor Europa, "AP-INV-2024-0003" voor Azië-Pacific).
Instellingen:
- Nieuwe Attribuutnaam: RegionalOffice
- Kolomnaam: InvoiceNumber
- Lengte: 2
Output: De verrijking maakt een nieuw caseattribuut "RegionalOffice" met waarden:
- Factuur "US-INV-2024-0001" → RegionalOffice: "US"
- Factuur "EU-INV-2024-0002" → RegionalOffice: "EU"
- Factuur "AP-INV-2024-0003" → RegionalOffice: "AP"
- Factuur "UK-INV-2024-0004" → RegionalOffice: "UK"
Inzichten: Het bedrijf kan nu factuurverwerkingstijden per regio analyseren, regionale verschillen in goedkeuringsprocessen identificeren, en prestaties tussen kantoren vergelijken om best practices te standaardiseren.
Voorbeeld 3: Productlijn Extractie uit SKU-codes
Scenario: Een fabrikant gebruikt SKU-codes waarvan de eerste vier tekens de productlijn identificeren (bijv. "ELEC-TV-55-BLK" voor elektronica, "FURN-CHR-WD-01" voor meubels, "TOYS-DOL-12-PNK" voor speelgoed).
Instellingen:
- Nieuwe Attribuutnaam: ProductLine
- Kolomnaam: SKUCode
- Lengte: 4
Output: De verrijking maakt een nieuw eventattribuut "ProductLine" met waarden:
- SKU "ELEC-TV-55-BLK" → ProductLine: "ELEC"
- SKU "FURN-CHR-WD-01" → ProductLine: "FURN"
- SKU "TOYS-DOL-12-PNK" → ProductLine: "TOYS"
- SKU "APP-SHT-L-BLU" → ProductLine: "APP-" (let op: kortere code, eerste 4 tekens inclusief koppelteken)
Inzichten: De fabrikant kan orderafhandelingsprocessen per productlijn analyseren, productlijnen met langere doorlooptijden identificeren en magazijnoperaties optimaliseren op basis van productlijnkenmerken.
Voorbeeld 4: Documenttype Classificatie in Inkoop
Scenario: Een inkoopsysteem gebruikt document-ID's die beginnen met drielettercodes die het documenttype aangeven (bijv. "POR-2024-0001" voor inkooporders, "RFQ-2024-0002" voor offerteaanvragen, "CON-2024-0003" voor contracten).
Instellingen:
- Nieuwe Attribuutnaam: DocumentType
- Kolomnaam: DocumentID
- Lengte: 3
Output: De verrijking maakt een nieuw caseattribuut "DocumentType" met waarden:
- Document "POR-2024-0001" → DocumentType: "POR"
- Document "RFQ-2024-0002" → DocumentType: "RFQ"
- Document "CON-2024-0003" → DocumentType: "CON"
- Document "INV-2024-0004" → DocumentType: "INV"
Inzichten: Het inkoopteam kan verwerkingstijden per documenttype volgen, zorgen dat juiste goedkeuringsprocessen gevolgd worden voor verschillende documenttypes, en vaststellen welke documenttypes de meeste vertragingen of herwerk ondervinden.
Voorbeeld 5: Jaar Extractie uit Datumgebaseerde Referentienummers
Scenario: Een financiële dienstverlener gebruikt referentienummers die beginnen met het jaar (bijv. "2024-FIN-00123", "2023-FIN-98765"). Ze willen trends en volumes per jaar analyseren.
Instellingen:
- Nieuwe Attribuutnaam: ReferenceYear
- Kolomnaam: ReferenceNumber
- Lengte: 4
Output: De verrijking maakt een nieuw caseattribuut "ReferenceYear" met waarden:
- Referentie "2024-FIN-00123" → ReferenceYear: "2024"
- Referentie "2023-FIN-98765" → ReferenceYear: "2023"
- Referentie "2022-FIN-45678" → ReferenceYear: "2022"
- Referentie "2021-FIN-12345" → ReferenceYear: "2021"
Inzichten: Het bedrijf kan transactievolumes per jaar bijhouden, verbeteringen jaar-op-jaar analyseren, seizoenspatronen identificeren en de impact meten van proceswijzigingen die in specifieke jaren zijn doorgevoerd.
Output
De Text Start verrijking maakt een nieuw attribuut aan (case- of eventniveau, matching met het niveau van het bronattribuut) dat de geëxtraheerde tekstprefix bevat. Het nieuwe attribuut is altijd van het type String en bevat de eerste N karakters van elke waarde in de bronkolom, waarbij N de opgegeven lengte is.
De verrijking verwerkt verschillende scenario's op een soepele manier:
- Als de brontekst langer is dan de opgegeven lengte, wordt precies het opgegeven aantal tekens geëxtraheerd
- Als de brontekst korter dan of gelijk is aan de opgegeven lengte, wordt de volledige tekstwaarde gebruikt
- Als de bronwaarde null of leeg is, zal het nieuwe attribuut voor die rij ook null zijn
- Speciale tekens, spaties en leestekens worden als reguliere tekens behandeld en opgenomen in de extractie indien ze binnen de opgegeven lengte vallen
Het nieuwe attribuut kan onmiddellijk worden gebruikt in volgende verrijkingen, filters en calculators. Veelvoorkomende vervolganalyses omvatten het gebruik van de geëxtraheerde prefixen in Group Attribute Values verrijking om categorieën te creëren, filters toepassen om op specifieke prefixen te focussen, of de prefixen gebruiken in conformance checking om correcte codeerstandaarden te garanderen.
Deze documentatie is onderdeel van het mindzieStudio process mining platform.