テキストの末尾

概要

Text End エンリッチメントは、テキスト属性値の末尾から指定した文字数を抽出し、抽出した接尾辞を含む新しい属性を作成します。この強力なテキスト操作オペレーターにより、テキストフィールドの末尾部分を単独で抽出・分析でき、重要な識別情報、分類コード、または標準化された接尾辞が含まれていることが多い部分を解析可能です。テキスト値の右端の文字に着目することで、ビジネス識別子の末尾に付加される一般的なパターンやカテゴリを抽出できます。

プロセスマイニングでは、Text End エンリッチメントは、末尾部分に特定の意味を持つ構造化コードや識別子の処理に特に有用です。多くの業務システムでは、接尾辞でカテゴリ、地域、製品種別、ステータス指標を表すことがあります。例えば、請求書番号は国コードで終わることがあり、製品SKUはカテゴリ接尾辞を含み、ケースIDは部署識別子を含む場合があります。このエンリッチメントにより、分析、フィルタリング、プロセス変種の検出のために意味のある末尾部分を抽出できます。ケース属性およびイベント属性の両方に対応し、プロセスデータ全体のテキストパターンの抽出と分析に柔軟性を提供します。

主な使用例

  • 書類名からファイル拡張子を抽出し、承認プロセスの書類種別を分析する
  • 顧客や仕入先の識別子の末尾から国または地域コードを抽出する
  • ケースIDの末尾から部署やチームの接尾辞を抽出し、組織分析を行う
  • SKU番号の末尾から製品カテゴリコードを抽出し、在庫分析を行う
  • 書類参照の末尾からバージョン番号や改訂コードを抽出する
  • 取引コードに付加されたステータス指標やフラグを抽出する
  • 財務参照番号の末尾から年や期間指標を抽出する

設定

新しい属性名: 抽出したテキストの末尾を格納する新しい属性の名前を指定します。抽出する情報内容が明確に分かる説明的な名前を選んでください。例えば、ファイルタイプを抽出する場合は「File_Extension」、場所識別子を抽出する場合は「Country_Code」、分類コードを抽出する場合は「Category_Suffix」などです。名前は一意であり、既存の属性名と衝突しない必要があります。

列名: 末尾の文字を抽出するテキスト属性を選択します。このドロップダウンにはケースレベルとイベントレベルの両方から利用可能な全てのテキスト属性が表示されます。エンリッチメントは選択した属性がケース属性かイベント属性かを自動検出し、同じレベルで新しい属性を作成します。選択できるのは非表示でないテキスト(文字列)タイプの属性のみです。

長さ: テキスト値の末尾から抽出する文字数を指定します。正の整数でなければなりません(最小値1)。指定した長さがテキスト値の実際の長さを超える場合は、その値の全体が返されます。例えば長さを3に指定して値が2文字の場合は、2文字全体が抽出されます。抽出したい接尾辞の最大の予想長さを考慮し、不必要な文字を含めないようにしてください。

例1:書類名からファイル拡張子を抽出

シナリオ: 書類承認プロセスにおいて、どの書類種別が最も多く提出されているかや処理時間を分析したい。書類名はファイル拡張子付きで保存されており、拡張子を抽出して分類したい。

設定:

  • 新しい属性名: Document_Type
  • 列名: Document_Name
  • 長さ: 4

出力: 書類名の末尾4文字を含む新しい属性「Document_Type」を作成。例:

  • "Q3_Report_2024.pdf" → ".pdf"
  • "Contract_Amendment.docx" → "docx"
  • "Invoice_10245.xlsx" → "xlsx"
  • "Presentation.ppt" → ".ppt"

洞察: ファイル拡張子を抽出することで、承認時間が長い書類種別の分析、特定ファイル形式を扱う部署の特定、許可されていないファイル形態のコンプライアンス問題の検出が可能になります。

例2:仕入先IDから国コードを抽出

シナリオ: グローバル調達プロセスにおいて、仕入先IDは末尾に2文字の国コードが付いている。これを抽出して国別の調達パターンを分析し、地域別の調達ポリシー遵守を確認したい。

設定:

  • 新しい属性名: Supplier_Country
  • 列名: Supplier_ID
  • 長さ: 2

出力: ケース属性「Supplier_Country」に国コードを格納。例:

  • "SUP-2024-0145-US" → "US"
  • "SUP-2024-0892-DE" → "DE"
  • "SUP-2024-0234-CN" → "CN"
  • "SUP-2024-0567-BR" → "BR"

洞察: 地理的な仕入先分布の分析、地域ごとの調達指標算出、地域調達要件の遵守確認が可能になります。

例3:ケースIDから部署コードを抽出

シナリオ: 医療の患者登録システムで、ケースIDの末尾に3文字の部署コードが含まれている。患者の流れを各部署ごとに分析し、ボトルネックを特定したい。

設定:

  • 新しい属性名: Department_Code
  • 列名: Case_ID
  • 長さ: 3

出力: 部署識別子を含む「Department_Code」属性を作成。例:

  • "PAT-2024-10523-EMR" → "EMR"(救急)
  • "PAT-2024-10524-RAD" → "RAD"(放射線科)
  • "PAT-2024-10525-LAB" → "LAB"(検査室)
  • "PAT-2024-10526-SUR" → "SUR"(手術)

洞察: 部署ごとの患者ルーティングパターンの分析、部署固有の遅延特定、医療単位間の処理時間比較が可能になります。

例4:SKU番号から製品カテゴリを抽出

シナリオ: 小売の在庫管理プロセスで、製品SKUの末尾に2文字のカテゴリコードが付いている。これを抽出してカテゴリごとの在庫回転率を分析し、適正在庫を最適化したい。

設定:

  • 新しい属性名: Product_Category
  • 列名: SKU_Number
  • 長さ: 2

出力: カテゴリコードを含む「Product_Category」属性を作成。例:

  • "PROD-854621-EL" → "EL"(電子機器)
  • "PROD-854622-CL" → "CL"(衣料品)
  • "PROD-854623-FD" → "FD"(食品)
  • "PROD-854624-TY" → "TY"(おもちゃ)

洞察: カテゴリ別の在庫パターン分析、売れ筋低い製品種別の特定、カテゴリごとの再発注点の最適化が可能になります。

例5:財務参照番号から年次指標を抽出

シナリオ: 支払勘定プロセスで、請求書番号の末尾に4桁の年度が付いている。年度を抽出して支払いパターンや未払い請求書の経時分析を行いたい。

設定:

  • 新しい属性名: Invoice_Year
  • 列名: Invoice_Number
  • 長さ: 4

出力: 年度を含む「Invoice_Year」属性を作成。例:

  • "INV-US-054321-2024" → "2024"
  • "INV-EU-098765-2023" → "2023"
  • "INV-AP-012345-2024" → "2024"
  • "INV-LA-067890-2022" → "2022"

洞察: 請求処理時間のトレンド分析、古い未払い請求書の特定、年次の支払いパフォーマンス比較が可能になります。

出力

Text End エンリッチメントは、元の値の末尾から抽出したテキストを含む新しい属性(ケースまたはイベントレベル、元属性に応じて)を作成します。新しい属性は常に文字列型で作成され、抽出内容の意味に関係なく文字列データとして扱われます。属性は自動的に適切なテーブル(ケースまたはイベント)に追加され、フィルター、計算式、他のエンリッチメントで即時に利用可能になります。

ケース属性の場合は、各ケースごとに1回抽出が実行され、結果はケースレベルに保存されます。イベント属性の場合は、各イベントごとに抽出が実行され、プロセス内の各活動で接尾辞がどのように異なるかを分析できます。元値が null または空の場合は、新属性も当該ケースまたはイベントで null になります。

抽出されるテキストは元の文字列の末尾から正確な文字を保持し、特別な文字や数字、句読点も含みます。これにより、ファイル拡張子(ドットを含む)や複合コードのような意味のある接尾辞を正確に扱えます。元テキストの長さが指定長さより短い場合はエラーではなく、元値全体が返されるため、可変長のテキストでも安全に処理できます。


このドキュメントは mindzie Studio プロセスマイニングプラットフォームの一部です。