Text Start

概要

Text Start エンリッチメントは、テキスト属性値の先頭から指定した文字数を抽出し、その抽出した接頭辞を含む新しい属性を作成します。この強力なエンリッチメントにより、製品コード、部門識別子、場所の接頭辞、または属性値の先頭に現れるその他の意味のあるテキストパターンなど、テキストデータの先頭部分を体系的に抽出して分析することが可能になります。

プロセスマイニングにおいて、Text Start はテキストの接頭辞に基づいてデータを標準化および分類するのに非常に有用です。たとえば、請求書番号の最初の3文字を抽出して地域オフィスを特定したり、社員IDから部門コードを取り出したり、SKUから製品ライン識別子を抽出したりできます。これらの抽出された接頭辞で新しい属性を作成することで、より詳細な分析を行い、有意義なグループを作成し、長いテキスト文字列の中に隠れているかもしれないパターンを発見できます。このエンリッチメントは、ケースレベルおよびイベントレベルの属性の両方に対応しており、プロセスデータの構造化や分析に柔軟性を提供します。

主な用途

社員IDから部門コードを抽出（例："FIN-12345" → "FIN"）
請求書番号や注文コードから地域識別子を抽出
SKUコードから製品カテゴリ接頭辞を抽出して在庫分析に利用
電話番号から市外局番を抽出し地理的分析を実施
命名規則に基づく文書IDから文書タイプを特定
参照番号の標準化された接頭辞に基づくグループ作成
日付ベースのテキストコードから年や月の識別子を抽出

設定

新しい属性名: 抽出したテキストの接頭辞を格納するために作成される新しい属性の名前です。属性に含まれる情報を明確に示す説明的な名前にしてください。例えば、社員IDから部門コードを抽出する場合は「DepartmentCode」または「EmployeeDept」などが考えられます。新しい属性は元の属性と同じレベル（ケースまたはイベント）で作成されます。

列名: 先頭の文字を抽出したい元のテキスト属性です。このドロップダウンには、データセット内のすべての非非表示のテキスト属性が表示されます。エンリッチメントはこの列の各値に対して処理を行い、指定した文字数を先頭から抽出します。値が指定した長さより短い場合は、値全体が使用されます。

長さ: テキスト値の先頭から抽出する文字数です。1以上の正の整数で指定します。例えば「3」に設定すると先頭3文字を抽出し、「5」に設定すると先頭5文字を抽出します。元のテキストが指定した長さより短い場合は、パディングやエラーなしでテキスト全体が使用されます。

例

例1: 社員IDからの部門コード抽出

シナリオ: 医療機関では社員IDが部門コードで始まっている（例："NUR-45678"は看護、"ADM-12345"は管理、"LAB-98765"は検査室）。部門別のプロセスパフォーマンスを分析したい。

設定:

新しい属性名: DepartmentCode
列名: EmployeeID
長さ: 3

出力: エンリッチメントは新しいケース属性「DepartmentCode」を作成し、以下の値を含みます：

社員 "NUR-45678" → DepartmentCode: "NUR"
社員 "ADM-12345" → DepartmentCode: "ADM"
社員 "LAB-98765" → DepartmentCode: "LAB"
社員 "IT-5432" → DepartmentCode: "IT-"（先頭3文字にハイフンを含む）

洞察: 抽出された部門コードにより、部門ごとにプロセスのフィルタリング、サイクルタイムの比較、部門特有のボトルネックやコンプライアンス問題の特定が可能になる。

例2: 請求書番号からの地域オフィス識別

シナリオ: 多国籍企業では請求書番号の最初の2文字が地域オフィスを表す（例："US-INV-2024-0001"は米国、"EU-INV-2024-0002"は欧州、"AP-INV-2024-0003"はアジア太平洋）。

設定:

新しい属性名: RegionalOffice
列名: InvoiceNumber
長さ: 2

出力: エンリッチメントは新しいケース属性「RegionalOffice」を作成し、以下の値を含みます：

請求書 "US-INV-2024-0001" → RegionalOffice: "US"
請求書 "EU-INV-2024-0002" → RegionalOffice: "EU"
請求書 "AP-INV-2024-0003" → RegionalOffice: "AP"
請求書 "UK-INV-2024-0004" → RegionalOffice: "UK"

洞察: 地域別の請求処理時間の分析、承認ワークフローの地域差の特定、および異なるオフィス間のパフォーマンス比較を通じてベストプラクティスの標準化が可能になる。

例3: SKUコードからの製品ライン抽出

シナリオ: 製造会社ではSKUコードの最初の4文字が製品ラインを示す（例："ELEC-TV-55-BLK"は電子機器、"FURN-CHR-WD-01"は家具、"TOYS-DOL-12-PNK"はおもちゃ）。

設定:

新しい属性名: ProductLine
列名: SKUCode
長さ: 4

出力: エンリッチメントは新しいイベント属性「ProductLine」を作成し、以下の値を含みます：

SKU "ELEC-TV-55-BLK" → ProductLine: "ELEC"
SKU "FURN-CHR-WD-01" → ProductLine: "FURN"
SKU "TOYS-DOL-12-PNK" → ProductLine: "TOYS"
SKU "APP-SHT-L-BLU" → ProductLine: "APP-"（短いコードの場合も4文字分を抽出、ハイフン含む）

洞察: 製品ライン別の受注完了プロセスを分析し、リードタイムが長い製品ラインの特定および倉庫業務の最適化に役立てられる。

例4: 調達における文書タイプ分類

シナリオ: 調達システムでは文書IDの最初の3文字が文書タイプを示す（例："POR-2024-0001"は購入注文、"RFQ-2024-0002"は見積依頼、"CON-2024-0003"は契約書）。

設定:

新しい属性名: DocumentType
列名: DocumentID
長さ: 3

出力: エンリッチメントは新しいケース属性「DocumentType」を作成し、以下の値を含みます：

文書 "POR-2024-0001" → DocumentType: "POR"
文書 "RFQ-2024-0002" → DocumentType: "RFQ"
文書 "CON-2024-0003" → DocumentType: "CON"
文書 "INV-2024-0004" → DocumentType: "INV"

洞察: 文書タイプごとに処理時間を追跡し、適切な承認フローの実行を保証し、遅延や再作業が多い文書タイプを特定できる。

例5: 日付ベースの参照番号からの年抽出

シナリオ: 金融サービス企業では参照番号の先頭が年度（例："2024-FIN-00123"、"2023-FIN-98765"）になっており、年度別の傾向と件数を分析したい。

設定:

新しい属性名: ReferenceYear
列名: ReferenceNumber
長さ: 4

出力: エンリッチメントは新しいケース属性「ReferenceYear」を作成し、以下の値を含みます：

参照 "2024-FIN-00123" → ReferenceYear: "2024"
参照 "2023-FIN-98765" → ReferenceYear: "2023"
参照 "2022-FIN-45678" → ReferenceYear: "2022"
参照 "2021-FIN-12345" → ReferenceYear: "2021"

洞察: 年度別の取引量を追跡し、年次プロセス改善の分析、季節パターンの特定、特定年度に実施したプロセス変更の影響評価が可能になる。

出力

Text Start エンリッチメントは、元の属性と同じレベル（ケースまたはイベント）で新しい属性を作成し、抽出されたテキスト接頭辞を含みます。新しい属性の型は常に文字列型で、ソース列の各値から指定した文字数 N の先頭部分を含みます。

エンリッチメントは以下の状況に柔軟に対応します：

元のテキストが指定文字数より長ければ、指定した文字数のみを正確に抽出
元のテキストが指定文字数以下の場合はテキスト全体を使用
元の値が null または空の場合、新しい属性もその行では null になる
記号、スペース、句読点も通常の文字として扱い、指定長さ内であれば抽出に含む

新しい属性はすぐに後続のエンリッチメント、フィルター、計算に利用可能です。よくある後続分析は、抽出した接頭辞を用いた Group Attribute Values エンリッチメントによるカテゴリ作成、特定の接頭辞に絞ったフィルター適用、接頭辞のコード規格遵守チェックへの利用などがあります。

このドキュメントは mindzie Studio プロセスマイニングプラットフォームの一部です。