Limitar la Longitud del Texto
Visión General
El enriquecimiento Limitar la Longitud del Texto es un operador de limpieza de datos que trunca automáticamente los valores de texto en su conjunto de datos a un número máximo especificado de caracteres. Esta herramienta esencial de estandarización de datos ayuda a gestionar campos de texto que exceden los límites de longitud deseados, asegurando coherencia en su conjunto de datos de minería de procesos y previniendo problemas con análisis posteriores, visualización e integraciones de sistema. Al trabajar con datos de diversas fuentes, los campos de texto a menudo contienen valores excesivamente largos que pueden afectar el rendimiento, la legibilidad y la compatibilidad con otros sistemas.
Este enriquecimiento procesa inteligentemente tanto atributos de texto a nivel de caso como de evento, preservando el significado original mientras aplica restricciones de longitud. A diferencia de los enfoques manuales de truncamiento que pueden causar corrupción o inconsistencias en los datos, este operador aplica reglas uniformes de truncamiento en todo su conjunto de datos. El enriquecimiento es particularmente valioso al preparar datos para paneles donde los valores de texto largos pueden alterar el diseño, o al integrarse con sistemas que tienen límites estrictos de caracteres para ciertos campos.
Usos Comunes
- Estandarizar campos de descripción que contienen texto extenso de sistemas ERP o plataformas de tickets
- Preparar datos para visualización en paneles donde valores de texto largos afectan el diseño de tablas o la legibilidad de gráficos
- Aplicar límites de caracteres antes de exportar datos a sistemas con requisitos estrictos de longitud de campo
- Truncar campos de comentarios extensos conservando la información inicial más importante
- Estandarizar nombres de productos, nombres de clientes o códigos de referencia a longitudes máximas consistentes
- Mejorar el rendimiento del análisis de minería de procesos reduciendo el uso de memoria causado por valores de texto excesivamente largos
- Crear campos de texto uniformes para mejorar la alineación en informes y documentos exportados
Configuraciones
Nombre del Atributo: Seleccione el atributo de texto que desea limitar. El menú desplegable muestra todos los atributos de texto disponibles tanto a nivel de caso como de evento. Solo los atributos de tipo cadena/texto se muestran como selecciones válidas. Este es un campo obligatorio que determina qué columna de su conjunto de datos tendrá sus valores truncados.
Longitud Máxima: Especifique el número máximo de caracteres a conservar. Cualquier valor de texto que exceda esta longitud se truncará exactamente a este número de caracteres. El valor debe ser mayor a 0. El valor predeterminado es 100 caracteres. Valores comunes incluyen:
- 50 caracteres para descripciones cortas o códigos
- 100 caracteres para campos de texto estándar
- 255 caracteres para compatibilidad con muchos sistemas de bases de datos
- 500 caracteres para descripciones más largas manteniendo la legibilidad
Ejemplos
Ejemplo 1: Estandarizando Descripciones de Productos en Manufactura
Escenario: El catálogo de productos de una empresa manufacturera contiene descripciones técnicas detalladas que pueden exceder los 1000 caracteres, causando problemas en sus paneles de minería de procesos y dificultando la lectura de informes.
Configuraciones:
- Nombre del Atributo: Product_Description
- Longitud Máxima: 150
Antes del Enriquecimiento: | Case ID | Product_Description | Order_Value | |---------|-------------------|-------------| | ORD-001 | "Componente de aluminio mecanizado CNC de alta precisión con aleación 7075-T6 de grado aeroespacial, presentando patrones complejos de fresado de 5 ejes, acabado anodizado en negro mate, tolerancias dentro de 0.001 pulgadas, diseñado para aplicaciones críticas de aviación que requieren máxima relación resistencia-peso y resistencia a la corrosión en condiciones ambientales extremas incluyendo pulverización de sal, variaciones de temperatura de -60C a 150C, y ambientes de alta vibración típicos de aplicaciones de montaje de motores de turbina" | $12,500 | | ORD-002 | "Soporte estándar de acero, galvanizado con zinc" | $45 | | ORD-003 | "Ensamblaje fabricado a medida en acero inoxidable con múltiples juntas soldadas, pulido hasta acabado espejo, diseñado para aplicaciones en salas blancas farmacéuticas con cumplimiento completo de FDA y paquete de documentación incluido" | $3,200 |
Después del Enriquecimiento: | Case ID | Product_Description | Order_Value | |---------|-------------------|-------------| | ORD-001 | "Componente de aluminio mecanizado CNC de alta precisión con aleación 7075-T6 de grado aeroespacial, presentando patrones complejos de fresado de 5 ejes, anodizado finis" | $12,500 | | ORD-002 | "Soporte estándar de acero, galvanizado con zinc" | $45 | | ORD-003 | "Ensamblaje fabricado a medida en acero inoxidable con múltiples juntas soldadas, pulido hasta acabado espejo, diseñado para aplicaciones en salas blancas farma" | $3,200 |
Salida: Las descripciones de productos se truncaron exactamente a 150 caracteres. Las descripciones cortas permanecen sin cambios mientras que las más largas se cortan en el límite de caracteres.
Conclusiones: Después de estandarizar la longitud de las descripciones, el rendimiento del panel mejoró un 40% y los informes de categorización de productos se volvieron más legibles. El equipo descubrió que el 85% de la información crítica del producto aparecía en los primeros 150 caracteres, haciendo que este truncamiento fuera adecuado para el análisis manteniendo las descripciones completas en el sistema fuente.
Ejemplo 2: Gestionando Comentarios de Retroalimentación de Clientes en Procesos de Servicio
Escenario: El sistema de atención al cliente de una empresa de telecomunicaciones captura quejas detalladas de clientes que pueden contener varios párrafos, dificultando el análisis de patrones en su minería de procesos de servicio.
Configuraciones:
- Nombre del Atributo: Customer_Feedback
- Longitud Máxima: 200
Datos de Evento Antes: | Case ID | Activity | Customer_Feedback | Timestamp | |---------|----------|------------------|-----------| | TICKET-001 | Create Ticket | "La conexión a Internet ha sido extremadamente inestable durante las últimas tres semanas. La velocidad cae casi a nada durante las horas de la tarde entre las 7-10 PM. He reiniciado el módem varias veces, revisado todos los cables, incluso reemplazado el router con el mío pero el problema persiste. Esto está afectando mi capacidad de trabajar desde casa y mis hijos no pueden completar sus tareas en línea. La visita del técnico anterior el 15 de marzo no resolvió el problema. Necesito una resolución inmediata ya que estoy considerando cambiar de proveedor si esto continúa. Muy frustrado con la falta de servicio consistente aunque pago por el paquete premium." | 2024-03-20 14:30 | | TICKET-002 | Create Ticket | "Factura incorrecta - cobraron dos veces" | 2024-03-20 15:15 |
Datos de Evento Después: | Case ID | Activity | Customer_Feedback | Timestamp | |---------|----------|------------------|-----------| | TICKET-001 | Create Ticket | "La conexión a Internet ha sido extremadamente inestable durante las últimas tres semanas. La velocidad cae casi a nada durante las horas de la tarde entre 7-10 PM. He reiniciado el módem varias veces, revisado todos lo" | 2024-03-20 14:30 | | TICKET-002 | Create Ticket | "Factura incorrecta - cobraron dos veces" | 2024-03-20 15:15 |
Salida: Los comentarios de los clientes se limitan a 200 caracteres, preservando el inicio de cada mensaje donde típicamente se indica el problema principal.
Conclusiones: La minería de texto en los comentarios truncados reveló que el 92% de los problemas podía categorizarse con los primeros 200 caracteres. El análisis del proceso mostró que los tickets con comentarios mayores a 200 caracteres tenían tiempos de resolución un 35% más largos, indicando problemas complejos que requerían escalación.
Ejemplo 3: Preparando Datos de Órdenes de Compra para Integración de Sistemas
Escenario: El departamento de compras necesita exportar datos de órdenes de compra a un sistema contable legado que tiene un límite de 50 caracteres para los nombres de proveedores, pero sus datos actuales contienen nombres legales completos de compañías que pueden superar los 200 caracteres.
Configuraciones:
- Nombre del Atributo: Vendor_Name
- Longitud Máxima: 50
Antes del Enriquecimiento: | Case ID | Vendor_Name | PO_Amount | |---------|------------|-----------| | PO-2024-001 | "International Business Machines Corporation (IBM) Global Technology Services Division" | $125,000 | | PO-2024-002 | "Acme Inc." | $3,500 | | PO-2024-003 | "Johnson & Johnson Consumer Healthcare Products Manufacturing and Distribution Limited Partnership" | $45,750 |
Después del Enriquecimiento: | Case ID | Vendor_Name | PO_Amount | |---------|------------|-----------| | PO-2024-001 | "International Business Machines Corporation (IBM" | $125,000 | | PO-2024-002 | "Acme Inc." | $3,500 | | PO-2024-003 | "Johnson & Johnson Consumer Healthcare Products Ma" | $45,750 |
Salida: Los nombres de proveedores se truncaron a 50 caracteres para cumplir con los requisitos del sistema manteniendo suficiente información para la identificación.
Conclusiones: El truncamiento permitió una integración exitosa con el sistema legado mientras se mantenía la identificabilidad del proveedor. El análisis mostró que el 78% de los nombres de proveedores ya estaban por debajo de los 50 caracteres y los nombres truncados todavía conservaban suficiente información para identificación única en informes de compras.
Ejemplo 4: Optimizando Nombres de Actividad en Minería de Procesos
Escenario: Un proceso de reclamaciones de seguros tiene nombres de actividad que incluyen información detallada del subproceso, haciendo que los mapas de proceso estén sobrecargados y difíciles de leer.
Configuraciones:
- Nombre del Atributo: Activity_Name
- Longitud Máxima: 30
Datos de Evento Antes: | Case ID | Activity_Name | Resource | Timestamp | |---------|--------------|----------|-----------| | CLAIM-001 | "Revisión inicial de reclamación y verificación de documentación por ajustador senior" | John Smith | 2024-03-15 09:00 | | CLAIM-001 | "Solicitud de historial médico enviada al proveedor de salud vía portal seguro" | Sarah Johnson | 2024-03-15 10:30 | | CLAIM-001 | "Aprobar" | Mark Davis | 2024-03-15 14:00 |
Datos de Evento Después: | Case ID | Activity_Name | Resource | Timestamp | |---------|--------------|----------|-----------| | CLAIM-001 | "Revisión inicial de reclamación y Docu" | John Smith | 2024-03-15 09:00 | | CLAIM-001 | "Solicitud de historial médico enviada " | Sarah Johnson | 2024-03-15 10:30 | | CLAIM-001 | "Aprobar" | Mark Davis | 2024-03-15 14:00 |
Salida: Los nombres de actividad se limitaron a 30 caracteres, creando etiquetas más concisas para la visualización del proceso.
Conclusiones: Los nombres acortados mejoraron la legibilidad del mapa de proceso en un 60% mientras se mantenía la información esencial sobre cada paso. Los analistas de procesos pudieron identificar cuellos de botella más rápidamente y las longitudes estandarizadas facilitaron un análisis más preciso de la frecuencia de actividades.
Ejemplo 5: Estandarizando Números de Referencia entre Sistemas
Escenario: Una empresa de logística consolida datos de envíos de varios transportistas, cada uno usando diferentes formatos de números de referencia con longitudes variables, causando problemas en su panel de seguimiento unificado.
Configuraciones:
- Nombre del Atributo: Tracking_Reference
- Longitud Máxima: 25
Antes del Enriquecimiento: | Case ID | Tracking_Reference | Carrier | Status | |---------|-------------------|---------|--------| | SHIP-001 | "UPS1Z9999999999999999-EXPEDITED-INTERNATIONAL-PRIORITY" | UPS | En tránsito | | SHIP-002 | "FEDEX777888999000" | FedEx | Entregado | | SHIP-003 | "DHL-EXPR-WORLDWIDE-DOC-999888777666555-PREPAID-MORNING-DELIVERY" | DHL | En proceso |
Después del Enriquecimiento: | Case ID | Tracking_Reference | Carrier | Status | |---------|-------------------|---------|--------| | SHIP-001 | "UPS1Z9999999999999999-EXP" | UPS | En tránsito | | SHIP-002 | "FEDEX777888999000" | FedEx | Entregado | | SHIP-003 | "DHL-EXPR-WORLDWIDE-DOC-99" | DHL | En proceso |
Salida: Las referencias de seguimiento están estandarizadas a un máximo de 25 caracteres preservando la información identificativa más importante.
Conclusiones: Estandarizar la longitud de las referencias permitió crear un panel único de seguimiento que podía mostrar la información de todos los transportistas de forma consistente. La empresa encontró que el número principal de seguimiento siempre aparecía dentro de los primeros 25 caracteres, haciendo que este truncamiento fuera ideal para sus necesidades de reporte.
Salida
El enriquecimiento Limitar la Longitud del Texto modifica los valores del atributo de texto directamente en su conjunto de datos sin crear nuevos atributos. El enriquecimiento opera sobre el atributo seleccionado ya sea que sea un atributo de caso o de evento:
Para Atributos de Caso: Cada caso único en su conjunto de datos tiene el valor del atributo de texto seleccionado revisado y truncado si excede la longitud máxima especificada. El truncamiento ocurre exactamente en el límite de caracteres indicado, pudiendo cortar palabras a la mitad.
Para Atributos de Evento: Cada fila de evento en su conjunto de datos tiene el valor del atributo de texto seleccionado revisado y truncado si es necesario. Esto significa que el mismo atributo puede truncarse de forma diferente entre eventos según los valores originales.
Características Importantes:
- Los nombres originales de los atributos permanecen sin cambios
- El tipo de dato se mantiene como cadena/texto
- Los valores iguales o menores que la longitud máxima permanecen completamente sin cambios
- Los valores nulos o vacíos no se ven afectados
- El truncamiento ocurre en la posición exacta del carácter sin considerar límites de palabra
- Caracteres especiales, espacios y signos de puntuación cuentan hacia el límite de caracteres
- No se agregan puntos suspensivos (...) ni otros indicadores para mostrar truncamiento
Los valores modificados del atributo están disponibles inmediatamente para su uso en filtros, cálculos y otros enriquecimientos. Esta modificación in situ asegura que todas las operaciones subsiguientes en su análisis de minería de procesos usen las longitudes de texto estandarizadas.
Vea También
- Recortar Texto - Eliminar espacios en blanco al inicio y al final de atributos de texto
- Mayúsculas - Convertir atributos de texto a mayúsculas para estandarización
- Inicio de Texto - Extraer un número especificado de caracteres desde el comienzo de los valores de texto
- Final de Texto - Extraer un número especificado de caracteres desde el final de los valores de texto
- Buscar y Reemplazar - Reemplazar patrones específicos de texto dentro de los valores de atributos
- Concatenar Atributos - Combinar múltiples atributos de texto en un solo campo
Esta documentación es parte de la plataforma de minería de procesos mindzie Studio.