Recortar Texto
Descripción general
El enriquecimiento Recortar Texto es un operador de limpieza de datos que elimina automáticamente todos los caracteres de espacio en blanco al inicio y al final de los atributos de texto en todo su conjunto de datos. Esta herramienta esencial de higiene de datos garantiza la coherencia en los campos de texto al eliminar espacios accidentales, tabulaciones y otros caracteres invisibles que pueden causar problemas con la coincidencia de datos, filtrado y análisis. Al procesar datos de diversas fuentes como sistemas ERP, hojas de cálculo o sistemas de entrada manual, los campos de texto suelen contener espacios en blanco no intencionados que pueden impedir un análisis preciso de minería de procesos.
A diferencia de los enfoques manuales de limpieza de datos, este enriquecimiento procesa cada atributo de texto tanto en datos a nivel de caso como a nivel de evento en una sola operación. El enriquecimiento maneja inteligentemente las cadenas vacías convirtiéndolas en valores nulos, asegurando que su conjunto de datos mantenga la integridad adecuada. Esta limpieza automática es especialmente valiosa al preparar datos para la comprobación de conformidad, donde las coincidencias exactas de texto son críticas para identificar patrones y desviaciones en los procesos.
Usos comunes
- Limpiar datos importados de sistemas ERP donde los campos contienen espacios finales debido a columnas de ancho fijo en bases de datos
- Estandarizar campos de texto ingresados por usuarios en formularios o sistemas de entrada manual donde los operadores añaden espacios accidentalmente
- Preparar datos para operaciones precisas de coincidencia y filtrado asegurando un formato consistente de texto
- Eliminar caracteres invisibles de espacio en blanco que pueden crear valores duplicados aparentes en filtros desplegables
- Limpiar nombres de actividades y recursos para un descubrimiento de procesos y análisis de conformidad precisos
- Normalizar códigos de productos, IDs de clientes y números de referencia que pueden tener espacios inconsistentes
- Preparar atributos de texto para operaciones de concatenación o unión donde espacios extras generarían problemas de formato
Configuración
Este enriquecimiento opera automáticamente en todos los atributos de texto sin requerir configuración alguna. Procesa cada columna de tipo cadena en su conjunto de datos, aplicando la lógica de recorte de forma consistente tanto en atributos de caso como de evento.
Ejemplos
Ejemplo 1: Limpieza de datos exportados de sistema ERP
Escenario: Una empresa manufacturera exporta datos de órdenes desde su sistema SAP donde los códigos de producto y nombres de clientes contienen espacios finales debido a campos de bases de datos de ancho fijo, causando problemas con la categorización de productos y el análisis de clientes.
Antes del enriquecimiento: | Case ID | Product_Code | Customer_Name | Order_Status | |---------|--------------|---------------|--------------| | ORD-001 | "PRD-1234 " | "Acme Corp " | "APPROVED " | | ORD-002 | " PRD-5678" | " Beta Inc " | "PENDING" | | ORD-003 | "PRD-1234" | "Acme Corp" | "APPROVED" |
Después del enriquecimiento: | Case ID | Product_Code | Customer_Name | Order_Status | |---------|--------------|---------------|--------------| | ORD-001 | "PRD-1234" | "Acme Corp" | "APPROVED" | | ORD-002 | "PRD-5678" | "Beta Inc" | "PENDING" | | ORD-003 | "PRD-1234" | "Acme Corp" | "APPROVED" |
Salida: Todos los atributos de texto se recortaron, eliminando espacios al inicio y final. Ahora los productos PRD-1234 de las órdenes ORD-001 y ORD-003 se identifican correctamente como el mismo producto, y los nombres de clientes están formateados de forma consistente.
Perspectivas: Después del recorte, la empresa descubrió que lo que parecía ser 150 códigos de productos únicos eran en realidad solo 95 productos distintos. Estos datos precisos permitieron un análisis adecuado del inventario y revelaron que Acme Corp representaba un 40% más de órdenes de lo inicialmente calculado debido a la coincidencia correcta de nombres.
Ejemplo 2: Estandarización de datos de entrada manual en salud
Escenario: El sistema de admisión de pacientes de un hospital tiene nombres de actividades y campos de departamento con espacios inconsistentes derivados de la entrada manual, lo que impide un análisis preciso del flujo de procesos y métricas de utilización de departamentos.
Datos de evento antes: | Case ID | Activity | Department | Resource | |---------|----------|------------|----------| | PAT-101 | " Patient Registration" | "Emergency " | "Nurse Johnson " | | PAT-101 | "Triage " | " Emergency" | "Dr. Smith" | | PAT-102 | "Patient Registration" | "Emergency" | " Nurse Johnson" |
Datos de evento después: | Case ID | Activity | Department | Resource | |---------|----------|------------|----------| | PAT-101 | "Patient Registration" | "Emergency" | "Nurse Johnson" | | PAT-101 | "Triage" | "Emergency" | "Dr. Smith" | | PAT-102 | "Patient Registration" | "Emergency" | "Nurse Johnson" |
Salida: Los nombres de actividades, departamentos y recursos se estandarizan eliminando todos los espacios adicionales. El flujo del proceso ahora muestra correctamente una sola actividad "Patient Registration" en vez de dos actividades diferentes.
Perspectivas: La limpieza reveló el verdadero flujo de pacientes a través del departamento de emergencias, mostrando que el 100% de los pacientes sigue el mismo proceso inicial de registro. Los reportes de utilización de recursos ahora muestran con precisión que Nurse Johnson maneja el 75% de los registros en lugar de aparecer como dos recursos distintos.
Ejemplo 3: Limpieza de datos de transacciones financieras
Escenario: El sistema de gestión de préstamos de un banco exporta tipos de transacciones y códigos de aprobación con diversos problemas de espacios en blanco provenientes de diferentes sucursales, haciendo imposible rastrear patrones de aprobaciones y cumplimiento del proceso con exactitud.
Atributos de caso antes: | Loan_ID | Loan_Type | Branch_Code | Approval_Level | |---------|-----------|-------------|----------------| | LN-5001 | "Personal Loan " | " NYC-01 " | "Manager " | | LN-5002 | " Personal Loan" | "NYC-01" | "Manager" | | LN-5003 | " Business Loan " | " LA-02" | " Director " |
Atributos de caso después: | Loan_ID | Loan_Type | Branch_Code | Approval_Level | |---------|-----------|-------------|----------------| | LN-5001 | "Personal Loan" | "NYC-01" | "Manager" | | LN-5002 | "Personal Loan" | "NYC-01" | "Manager" | | LN-5003 | "Business Loan" | "LA-02" | "Director" |
Salida: Todos los tipos de préstamo, códigos de sucursal y niveles de aprobación están formateados consistentemente. Los préstamos personales de LN-5001 y LN-5002 ahora se agrupan correctamente, y los códigos de sucursal están estandarizados para un análisis regional preciso.
Perspectivas: Tras la limpieza, el banco descubrió que los préstamos personales representaban el 65% de su portafolio en lugar del 43% reportado, ya que las variaciones de espacios se contaban como tipos de préstamos distintos. Esto permitió una evaluación de riesgos adecuada y una asignación de recursos apropiada para su línea de productos principal.
Ejemplo 4: Normalización de datos del proceso de compras
Escenario: Un sistema de compras combina datos de múltiples plataformas de proveedores donde los nombres de proveedores, categorías de materiales y estados de órdenes de compra contienen espacios inconsistentes, impidiendo un análisis preciso del gasto y seguimiento de desempeño de proveedores.
Antes del enriquecimiento: | PO_Number | Vendor_Name | Material_Category | Status | |-----------|-------------|-------------------|---------| | PO-8001 | "TechSupply Inc " | " Electronics " | "Delivered " | | PO-8002 | " TechSupply Inc" | "Electronics" | " Delivered" | | PO-8003 | "TechSupply Inc" | " Electronics" | "Pending" |
Después del enriquecimiento: | PO_Number | Vendor_Name | Material_Category | Status | |-----------|-------------|-------------------|---------| | PO-8001 | "TechSupply Inc" | "Electronics" | "Delivered" | | PO-8002 | "TechSupply Inc" | "Electronics" | "Delivered" | | PO-8003 | "TechSupply Inc" | "Electronics" | "Pending" |
Salida: Nombres de proveedores y categorías de materiales están estandarizados en todas las órdenes de compra. Las tres órdenes ahora están correctamente asociadas al mismo proveedor y categoría.
Perspectivas: La limpieza reveló que TechSupply Inc era en realidad el proveedor más grande de la compañía con $2.3M en gasto anual, no los tres proveedores más pequeños reportados anteriormente. Esta consolidación permitió mejores negociaciones con proveedores e identificó oportunidades para descuentos por volumen.
Ejemplo 5: Limpieza de nombres de actividades para descubrimiento de procesos
Escenario: El sistema de seguimiento de envíos de una empresa logística tiene nombres de actividades con diversos problemas de espacios provenientes de distintos dispositivos de escaneo y entradas manuales, haciendo que el descubrimiento de procesos muestre flujos fragmentados e incorrectos.
Registro de eventos antes: | Case_ID | Activity | Location | Timestamp | |---------|----------|----------|-----------| | SHIP-901 | "Package Received " | "Warehouse A " | 2024-01-10 08:00 | | SHIP-901 | " Sorting" | "Warehouse A" | 2024-01-10 09:00 | | SHIP-902 | "Package Received" | " Warehouse A" | 2024-01-10 08:30 | | SHIP-902 | "Sorting " | "Warehouse A " | 2024-01-10 09:30 |
Registro de eventos después: | Case_ID | Activity | Location | Timestamp | |---------|----------|----------|-----------| | SHIP-901 | "Package Received" | "Warehouse A" | 2024-01-10 08:00 | | SHIP-901 | "Sorting" | "Warehouse A" | 2024-01-10 09:00 | | SHIP-902 | "Package Received" | "Warehouse A" | 2024-01-10 08:30 | | SHIP-902 | "Sorting" | "Warehouse A" | 2024-01-10 09:30 |
Salida: Todos los nombres de actividades y ubicaciones se recortaron para eliminar variaciones de espacio. El proceso ahora muestra un flujo limpio y lineal de Package Received seguido por Sorting para todos los envíos.
Perspectivas: El descubrimiento de procesos muestra correctamente un proceso estándar de dos pasos para todos los paquetes en lugar de ocho variaciones diferentes de actividades. Esto reveló que el 100% de los paquetes sigue el mismo proceso inicial, permitiendo a la empresa estandarizar la capacitación y optimizar la asignación de recursos en Warehouse A.
Salida
El enriquecimiento Recortar Texto modifica los atributos de texto existentes en el lugar en vez de crear nuevos atributos. Todas las columnas de tipo cadena en su conjunto de datos se procesan automáticamente, incluyendo atributos a nivel de caso y a nivel de evento. El enriquecimiento aplica las siguientes transformaciones:
Reglas de procesamiento de texto:
- Elimina todo el espacio en blanco al inicio (espacios, tabulaciones y otros caracteres invisibles al comienzo del texto)
- Elimina todo el espacio en blanco al final (espacios, tabulaciones y otros caracteres invisibles al final del texto)
- Conserva los espacios internos dentro del texto (solo se recortan el principio y el final)
- Convierte cadenas vacías (que quedan vacías tras el recorte) en valores nulos
- Deja el texto ya recortado sin cambios para un rendimiento óptimo
- Omite atributos no textuales (números, fechas, booleanos permanecen sin cambios)
- Las columnas ocultas no se modifican para preservar datos del sistema
El enriquecimiento funciona perfectamente con otras funcionalidades de mindzieStudio. Los atributos de texto recortados pueden usarse inmediatamente en filtros para coincidencias precisas, en calculadoras para operaciones de concatenación exactas, y en otros enriquecimientos que dependan de un formato de texto consistente. Como el enriquecimiento modifica datos en el lugar, todas las visualizaciones, paneles y análisis existentes se benefician automáticamente de los datos limpios sin requerir reconfiguración.
Para el procesamiento posterior, el texto limpiado asegura que los operadores de comprobación de conformidad identifiquen correctamente actividades coincidentes, que los enriquecimientos de búsqueda encuentren coincidencias exactas en los conjuntos de datos y que las operaciones de agrupamiento consoliden correctamente los casos relacionados. La conversión a valor nulo de cadenas vacías previene problemas con operaciones en bases de datos y garantiza que los valores vacíos se manejen de forma consistente en toda la plataforma.
Esta documentación es parte de la plataforma de minería de procesos mindzie Studio.