Predicción de Casos con IA

Inicio Rápido: Plantillas de Python Preconstruidas

mindzie ofrece tres paquetes de plantillas listas para subir, para que puedas ejecutar Predicción de Casos con IA sin escribir ningún código Python. Elige la que coincida con la Columna de Valor a Predecir, descarga el archivo zip y súbelo mediante el menú Cargar Modelo del bloque de Predicción de Casos con IA, y listo.

Plantilla Usar cuando la Columna de Valor a Predecir tiene... Ejemplos típicos Descargar
Clasificador Binario Exactamente 2 categorías "Aprobado" / "Rechazado", Verdadero / Falso, 0 / 1, "Aprobado" / "Reprobado" mindzie_ai_binary_classifier_v1.zip
Clasificador Multiclase 3 o más categorías "Bajo" / "Medio" / "Alto", códigos de región, categorías de estado mindzie_ai_multiclass_classifier_v1.zip
Regresor Un valor numérico continuo duración en segundos, monto en dólares, cantidad de ítems, porcentaje mindzie_ai_regressor_v1.zip

Los tres paquetes son genéricos: leen nombres y tipos de columna desde los archivos de esquema que mindzieStudio crea en tiempo de ejecución, por lo que funcionan con cualquier combinación de nombres de columnas de características y objetivo. No es necesario editar nada dentro del zip.

El flujo completo de carga con capturas de pantalla, qué maneja automáticamente cada plantilla y cómo personalizarlas está en Uso de Plantillas de Python Preconstruidas más abajo en esta página.

Resumen

El enriquecimiento de Predicción de Casos con IA te permite aprovechar el aprendizaje automático e inteligencia artificial para hacer predicciones sobre desenlaces, comportamientos o características de casos basados en patrones históricos de tus datos de procesos. Este poderoso enriquecimiento entrena modelos predictivos usando los atributos existentes de los casos y luego aplica esos modelos para predecir valores desconocidos para casos actuales o futuros.

A diferencia de los enriquecimientos tradicionales basados en reglas, Predicción de Casos con IA usa algoritmos estadísticos de aprendizaje para descubrir patrones y relaciones complejas en tus datos que pueden no ser evidentes a simple vista. Soporta tareas de clasificación (predecir categorías o desenlaces) y puede manejar tanto la creación del modelo de entrenamiento como el despliegue de predicciones dentro del flujo de minería de procesos.

Este enriquecimiento es especialmente valioso para la optimización del proceso, gestión de riesgos y toma de decisiones proactiva. Al predecir desenlaces temprano en el ciclo de vida del caso, puedes tomar acciones preventivas, asignar recursos más eficazmente e identificar problemas potenciales antes de que ocurran.

Usos Comunes

  • Predicción de Desenlace: Predecir si un caso será aprobado o rechazado, completado a tiempo o retrasado, exitoso o fallido basándose en atributos tempranos del caso
  • Evaluación de Riesgos: Identificar casos de alto riesgo que probablemente tendrán problemas, requerirán retrabajo o generarán quejas de clientes
  • Pronóstico de Duración: Predecir cuánto tiempo tomará completar un caso basado en sus características iniciales y progreso actual
  • Asignación de Recursos: Predecir qué casos requerirán manejo especializado o recursos adicionales basándose en indicadores de complejidad
  • Prevención de Pérdida de Clientes: Predecir qué casos de clientes están en riesgo de cancelación o abandono basándose en patrones de comportamiento
  • Predicción de Calidad: Prever si un caso cumplirá estándares de calidad o necesitará inspección adicional basándose en patrones de ejecución del proceso
  • Estimación de Costos: Predecir el costo final de un caso basado en parámetros iniciales y patrones tempranos de actividad

Configuraciones

Tipo de Predicción

Tipo de Predicción: Especifica el tipo de tarea de aprendizaje automático a realizar. Actualmente, el enriquecimiento soporta Clasificación, que predice resultados categóricos o etiquetas de clase.

  • Clasificación: Usar para predecir categorías discretas o resultados como "Aprobado/Rechazado", "Alto Riesgo/Bajo Riesgo", "A Tiempo/Retrasado" o cualquier atributo categórico. El modelo aprende a clasificar casos en grupos predefinidos basándose en patrones de las columnas de características.
  • Regresión: (Futuro) Predecirá valores numéricos continuos como duraciones, costos o cantidades
  • Clustering: (Futuro) Agrupará casos similares sin categorías predefinidas
  • Series Temporales: (Futuro) Predecirá patrones y secuencias temporales
  • Detección de Anomalías: (Futuro) Identificará casos inusuales o atípicos
  • Recomendación: (Futuro) Sugerirá acciones o actividades óptimas siguientes

Para la mayoría de casos de negocio, Clasificación es la opción adecuada cuando deseas predecir un desenlace específico que cae en categorías distintivas.

Columnas de Características

Columnas de Características: Selecciona los atributos del caso que se usarán como características de entrada para el entrenamiento y predicción. Son las variables independientes que el modelo de IA analizará para hacer predicciones. Elige atributos que consideres influyen o se correlacionan con el desenlace que quieres predecir.

Buenas prácticas para seleccionar columnas de características:

  • Incluir atributos conocidos temprano en el ciclo de vida del caso si deseas hacer predicciones tempranas
  • Seleccionar atributos con buena calidad de datos (mínimos valores faltantes)
  • Incluir tanto atributos categóricos como numéricos para patrones más ricos
  • Evitar seleccionar la columna objetivo (la que se predice) como característica
  • Considerar conocimiento del dominio sobre qué factores influyen en los desenlaces
  • Comenzar con 3-10 características relevantes; demasiadas pueden reducir la precisión del modelo

Ejemplos de columnas útiles:

  • Tipo de cliente, región o segmento
  • Monto del pedido, prioridad o categoría
  • Características iniciales de la solicitud
  • Asignaciones de recursos o departamento
  • Atributos basados en tiempo (día de la semana, mes, estación)

Columna de Valor a Predecir

Columna de Valor a Predecir: Selecciona el atributo del caso que contiene los desenlaces conocidos de los que el modelo aprenderá durante el entrenamiento. Esta es la variable dependiente o objetivo que el modelo predecirá para casos nuevos. Esta columna debe tener valores conocidos en tus datos de entrenamiento, pero puede estar vacía para casos donde se desea predecir.

Para el tipo de predicción Clasificación, columnas válidas son:

  • Atributos de texto (categorías como "Aprobado", "Rechazado", "Pendiente")
  • Atributos booleanos (resultados verdadero/falso)
  • Atributos enteros (códigos numéricos que representan categorías)

La Columna de Valor a Predecir debe:

  • Contener el desenlace real que quieres predecir
  • Tener suficientes ejemplos de cada categoría en los datos de entrenamiento
  • Ser el resultado clave de negocio que quieres pronosticar
  • No estar disponible o conocido al momento de hacer la predicción

Filtros de Entrenamiento

Filtros de Entrenamiento: Define criterios de filtro para seleccionar qué casos se usarán para entrenar el modelo de IA. Esto permite usar solo casos de alta calidad y completos para el entrenamiento, excluyendo casos no representativos o con datos incompletos.

Escenarios comunes de filtros de entrenamiento:

  • Incluir solo casos completados (excluir casos en progreso)
  • Incluir solo casos donde el valor a predecir es conocido (no vacío)
  • Excluir casos con problemas de calidad de datos o valores faltantes en características
  • Incluir solo casos recientes para entrenar con patrones actuales del proceso
  • Filtrar por periodos de tiempo, departamentos o regiones específicos
  • Balancear el conjunto de entrenamiento incluyendo igual número de categorías distintas

Ejemplo: "Case End Time is not empty AND Outcome is not empty AND Case Start Time is after 2024-01-01"

Filtros de Predicción

Filtros de Predicción: Define criterios de filtro para seleccionar qué casos recibirán predicciones cuando se ejecute el enriquecimiento. Esto permite predecir selectivamente para casos donde las predicciones son más valiosas o el desenlace aún es desconocido.

Escenarios comunes de filtros de predicción:

  • Incluir solo casos en progreso (donde el resultado aún no se conoce)
  • Incluir solo casos donde el valor a predecir está vacío
  • Filtrar por periodos específicos o casos activos actuales
  • Incluir solo casos que cumplan ciertos criterios de riesgo
  • Predecir solo para casos de alto valor o alta prioridad

Ejemplo: "Outcome is empty AND Case Status equals 'In Progress' AND Case Start Time is after 2025-01-01"

Nueva Columna de Predicción

Nueva Columna de Predicción: Define el nombre, tipo de dato y formato de visualización para el nuevo atributo del caso que almacenará las predicciones de IA. Esta columna se añadirá a tu tabla de casos y se llenará con los valores predichos al ejecutar el enriquecimiento.

Opciones de configuración:

  • Nombre de Columna: Nombre interno para el nuevo atributo (sin espacios, usar guiones bajos)
  • Nombre para Mostrar: Nombre amigable que se mostrará en dashboards de análisis
  • Tipo de Dato: Debe coincidir con el tipo de dato de la Columna de Valor a Predecir (String para categorías de texto, Boolean para verdadero/falso, Integer para códigos numéricos)
  • Formato: Cómo deben mostrarse los valores en visualizaciones (Texto, Número, Porcentaje, etc.)

Ejemplos de configuración:

  • Nombre de columna: "predicted_outcome", Nombre para mostrar: "Desenlace Predicho", Tipo: String
  • Nombre de columna: "risk_prediction", Nombre para mostrar: "Predicción de Riesgo", Tipo: String
  • Nombre de columna: "will_delay", Nombre para mostrar: "Predicción de Retraso", Tipo: Boolean

Id del Modelo

Id del Modelo: (Opcional) Especifica el identificador único (GUID) de un modelo previamente entrenado para usar en las predicciones. Cuando entrenas un modelo y lo guardas, mindzieStudio le asigna un Id único. Proporcionando este Id, puedes reutilizar el modelo entrenado sin reentrenar, garantizando predicciones consistentes en distintos conjuntos de datos o periodos.

Deja este campo vacío si deseas que el enriquecimiento entrene un modelo nuevo cada vez que se ejecute. Proporciona un Id de Modelo cuando:

  • Ya has entrenado y validado un modelo que funciona bien
  • Quieres asegurar consistencia usando el mismo modelo a lo largo del tiempo
  • Estás aplicando predicciones a un nuevo conjunto de datos usando un modelo existente
  • Quieres evitar el costo computacional del reentrenamiento

El Id del Modelo puede encontrarse en los registros de ejecución del enriquecimiento o en la interfaz de gestión de modelos tras un entrenamiento exitoso.

Imagen de Python

Imagen de Python: Especifica el entorno de ejecución de Python para correr los scripts de entrenamiento y predicción del modelo de IA. mindzieStudio soporta varios modos de ejecución Python para acomodar diferentes escenarios de despliegue.

Opciones:

  • LOCAL: Usa la instalación local de Python en el servidor mindzieStudio. Esta es la opción más rápida si Python 3.x está instalado localmente con las librerías de machine learning requeridas (pandas, scikit-learn, etc.)
  • Nombre de Imagen Docker: Especifica una imagen de contenedor Docker que contiene Python y librerías necesarias. Ejemplo: "python:3.9-slim" o imágenes personalizadas con librerías ML preinstaladas
  • Python no configurado: Indica que no está disponible ni Python local ni Docker. Deberás configurar la ejecución de Python antes de usar este enriquecimiento.

Comportamiento por defecto:

  • Si Python local está disponible, selecciona automáticamente "LOCAL"
  • Si Docker está configurado pero no Python local, usa la imagen Python de Docker por defecto
  • Si ninguno está disponible, solicita configurar la ejecución de Python

Para uso en producción, se recomiendan imágenes Docker por consistencia e aislamiento, mientras LOCAL es conveniente para desarrollo y pruebas cuando tienes control total del servidor.

Ejemplos

Ejemplo 1: Predicción de Aprobación de Órdenes de Compra

Escenario: Una organización de compras quiere predecir si las órdenes de compra serán aprobadas o rechazadas según características del pedido, para marcar potenciales rechazos tempranamente y trabajar proactivamente con los solicitantes para mejorar las tasas de aprobación.

Configuración:

  • Tipo de Predicción: Clasificación
  • Columnas de Características: Order_Amount, Department, Vendor_Category, Requester_Level, Budget_Available, Previous_Orders_Count, Urgency_Flag
  • Columna de Valor a Predecir: Approval_Outcome (contiene "Approved" o "Rejected" para órdenes completadas)
  • Filtros de Entrenamiento: "Approval_Outcome is not empty AND Case_End_Time is not empty" (usar solo órdenes completadas con desenlace conocido)
  • Filtros de Predicción: "Approval_Outcome is empty AND Case_Status equals 'Under Review'" (predecir para órdenes actualmente en revisión)
  • Nueva Columna de Predicción:
    • Nombre de columna: predicted_approval
    • Nombre para mostrar: Resultado Predicho de Aprobación
    • Tipo de dato: String
  • Id del Modelo: vacío (entrenar modelo nuevo)
  • Imagen de Python: LOCAL

Resultado: El enriquecimiento crea un nuevo atributo de caso llamado "Resultado Predicho de Aprobación" con valores "Approved" o "Rejected" para cada orden en revisión. La predicción se basa en patrones aprendidos de órdenes históricas, como:

  • Órdenes superiores a $50,000 de proveedores nuevos tienen más probabilidad de rechazo
  • Órdenes con presupuesto disponible y solicitante nivel "Manager" o superior tienden a ser aprobadas
  • Órdenes urgentes con pedidos previos exitosos del mismo proveedor presentan mayores tasas de aprobación

Insights: Analizando las predicciones, el equipo de compras descubre que el 23% de órdenes actuales en revisión se predicen como rechazadas. Proactivamente contactan a los solicitantes de rechazos predichos para obtener justificaciones adicionales, sugerir proveedores alternativos o dividir pedidos grandes en aprobaciones más pequeñas. Esta intervención mejora la tasa general de aprobación de 78% a 89% y reduce el tiempo del ciclo del proceso al evitar ciclos largos de rechazo y reenvío.

Ejemplo 2: Predicción de Riesgo de Reingreso para Pacientes

Escenario: Un hospital quiere predecir qué pacientes dados de alta tienen alto riesgo de reingreso en 30 días, permitiendo que coordinadores de cuidado brinden seguimiento focalizado y reduzcan tasas de reingreso.

Configuración:

  • Tipo de Predicción: Clasificación
  • Columnas de Características: Patient_Age, Diagnosis_Category, Length_of_Stay, Comorbidity_Count, Prior_Admissions, Discharge_Destination, Medication_Complexity, Social_Support_Score
  • Columna de Valor a Predecir: Readmitted_30_Days (contiene "Yes" o "No" para casos dados de alta en el pasado)
  • Filtros de Entrenamiento: "Discharge_Date is not empty AND Days_Since_Discharge >= 30" (usar solo casos con desenlace conocido a 30 días)
  • Filtros de Predicción: "Discharge_Date is not empty AND Days_Since_Discharge < 30" (predecir para altas recientes)
  • Nueva Columna de Predicción:
    • Nombre de columna: readmission_risk_prediction
    • Nombre para mostrar: Riesgo Predicho de Reingreso
    • Tipo de dato: String
  • Id del Modelo: vacío
  • Imagen de Python: LOCAL

Resultado: El enriquecimiento añade un atributo "Riesgo Predicho de Reingreso" mostrando "Yes" o "No" para cada paciente dado de alta recientemente. Predicciones ejemplares:

  • Paciente ID 45321: Edad 72, Insuficiencia Cardíaca, estancia 8 días, 3 comorbilidades, dado de alta a domicilio solo = Riesgo Predicho "Yes"
  • Paciente ID 45322: Edad 55, Cirugía menor, estancia 2 días, sin comorbilidades, dado de alta a domicilio con familia = Riesgo Predicho "No"
  • Paciente ID 45323: Edad 68, Neumonía, estancia 5 días, 2 comorbilidades, admisión previa hace 3 meses = Riesgo Predicho "Yes"

Insights: El modelo identifica 78 pacientes en los últimos 30 días con alto riesgo de reingreso. El equipo de coordinación prioriza visitas domiciliarias, revisión de medicamentos y citas de seguimiento para estos pacientes. Tras 90 días de usar las predicciones para guiar intervenciones, la tasa real de reingreso baja del 22% al 14%, demostrando el valor de la gestión proactiva basada en datos.

Ejemplo 3: Predicción de Defectos de Calidad en Manufactura

Escenario: Una empresa manufacturera quiere predecir qué órdenes de producción resultarán en defectos de calidad según parámetros iniciales y métricas tempranas, para implementar controles adicionales antes que ocurran defectos.

Configuración:

  • Tipo de Predicción: Clasificación
  • Columnas de Características: Product_Type, Batch_Size, Material_Supplier, Production_Line, Operator_Experience_Level, Temperature_Variance, First_Pass_Yield, Cycle_Time_Deviation
  • Columna de Valor a Predecir: Quality_Defect_Found (contiene "Defect" o "Pass" para órdenes completadas)
  • Filtros de Entrenamiento: "Production_Status equals 'Completed' AND Quality_Inspection_Complete equals true" (usar solo órdenes completadas e inspeccionadas)
  • Filtros de Predicción: "Production_Status equals 'In Progress' AND Percent_Complete >= 25 AND Percent_Complete < 100" (predecir para órdenes en producción)
  • Nueva Columna de Predicción:
    • Nombre de columna: defect_prediction
    • Nombre para mostrar: Resultado Predicho de Calidad
    • Tipo de dato: String
  • Id del Modelo: vacío
  • Imagen de Python: LOCAL

Resultado: El enriquecimiento genera predicciones de calidad para 156 órdenes en producción. Predicciones de ejemplo:

  • Orden #10045: Lote grande, proveedor nuevo, alta variación de temperatura = Predicción "Defect" (alerta de calidad)
  • Orden #10046: Producto estándar, operador experto, métricas normales = Predicción "Pass"
  • Orden #10047: Producto complejo, Línea B, tiempo de ciclo 15% sobre lo normal = Predicción "Defect" (alerta de calidad)

El sistema crea un dashboard en tiempo real mostrando defectos predichos junto con estado real de producción, permitiendo a ingenieros de calidad intervenir antes de finalizar las órdenes.

Insights: Usando las predicciones, el equipo implementa inspecciones mejoradas y ajustes de proceso para órdenes predichas con defectos. En 3 meses evitan que 34 órdenes defectuosas lleguen a inspección final al detectar problemas tempranamente. La tasa de defectos baja del 8.2% al 4.1% y el costo de retrabajo disminuye en $127,000. El modelo revela que órdenes con proveedores nuevos y alta variación térmica presentan un 67% de defectos, llevando a procedimientos de calificación de proveedores actualizados y controles de temperatura más estrictos.

Ejemplo 4: Predicción de Riesgo de Incumplimiento de Préstamos

Escenario: Una institución financiera quiere predecir qué préstamos aprobados tienen alta probabilidad de incumplimiento en los primeros 12 meses, para que los gerentes de riesgo ajusten términos, requieran colaterales adicionales o implementen monitoreo más frecuente.

Configuración:

  • Tipo de Predicción: Clasificación
  • Columnas de Características: Loan_Amount, Credit_Score, Debt_to_Income_Ratio, Employment_Duration, Loan_Purpose, Property_Value, Down_Payment_Percent, Previous_Loans
  • Columna de Valor a Predecir: Defaulted_12_Months (contiene "Default" o "Performing" para préstamos con más de 12 meses de historial)
  • Filtros de Entrenamiento: "Loan_Origination_Date < '2024-01-01' AND Months_Since_Origination >= 12" (usar solo préstamos con desenlace conocido a 12 meses)
  • Filtros de Predicción: "Loan_Status equals 'Active' AND Months_Since_Origination < 12" (predecir para préstamos recientes)
  • Nueva Columna de Predicción:
    • Nombre de columna: default_risk_prediction
    • Nombre para mostrar: Riesgo de Incumplimiento Predicho
    • Tipo de dato: String
  • Id del Modelo: a1b2c3d4-e5f6-7890-a1b2-c3d4e5f6g7h8 (usando un modelo previamente entrenado y validado)
  • Imagen de Python: LOCAL

Resultado: El enriquecimiento aplica el modelo entrenado a 892 préstamos activos originados en los últimos 12 meses, generando predicciones de riesgo de incumplimiento:

  • 724 préstamos predichos como "Performing" (bajo riesgo)
  • 168 préstamos predichos como "Default" (alto riesgo)

Predicciones de alto riesgo de ejemplo:

  • Préstamo #50012: $320K, puntaje crédito 640, DTI 42%, empleo 8 meses = "Default"
  • Préstamo #50034: $180K, puntaje crédito 680, DTI 38%, pagos atrasados previos = "Default"
  • Préstamo #50078: $425K, puntaje crédito 655, DTI 45%, alta proporción préstamo-valor = "Default"

Insights: El equipo de gestión de riesgos segmenta la cartera en niveles de riesgo y aplica diferentes estrategias de monitoreo. Préstamos de alto riesgo reciben seguimiento mensual vs. trimestral para bajo riesgo. También ajustan modelos de precios para reflejar riesgos, aumentando tasas de interés 0.5-1.0% para perfiles de alto riesgo. Tras 12 meses, las predicciones tienen 82% de precisión y el monitoreo proactivo reduce la tasa real de incumplimiento en segmento alto de 15% a 9%, ahorrando $2.3 millones estimados en pérdidas.

Ejemplo 5: Predicción de Resolución de Casos de Servicio al Cliente

Escenario: Una organización de servicio al cliente quiere predecir si los tickets de soporte se resolverán dentro del plazo SLA objetivo según características iniciales del ticket, para escalar casos en riesgo tempranamente y mejorar tasas de cumplimiento SLA.

Configuración:

  • Tipo de Predicción: Clasificación
  • Columnas de Características: Issue_Category, Customer_Tier, Complexity_Score, Assigned_Team, Initial_Response_Time, Customer_Sentiment, Product_Version, Similar_Cases_Count
  • Columna de Valor a Predecir: Resolved_Within_SLA (contiene "Yes" o "No" para tickets cerrados)
  • Filtros de Entrenamiento: "Ticket_Status equals 'Closed' AND Close_Date is not empty" (usar solo tickets resueltos)
  • Filtros de Predicción: "Ticket_Status equals 'Open' AND Hours_Since_Creation >= 2 AND Hours_Since_Creation < 24" (predecir para tickets recién abiertos)
  • Nueva Columna de Predicción:
    • Nombre de columna: sla_compliance_prediction
    • Nombre para mostrar: Cumplimiento SLA Predicho
    • Tipo de dato: String
  • Id del Modelo: vacío
  • Imagen de Python: LOCAL

Resultado: El enriquecimiento predice el cumplimiento SLA para 234 tickets de soporte abiertos. Ejemplos:

  • Ticket #7845: Problema de facturación, cliente Premium, Complejidad 2, Equipo A, respuesta en 15 min = Predicción "Yes"
  • Ticket #7846: Bug técnico, cliente estándar, Complejidad 8, Equipo B, respuesta en 45 min = Predicción "No" (se activa escalación)
  • Ticket #7847: Restablecimiento de contraseña, cliente básico, Complejidad 1, Equipo C, respuesta en 5 min = Predicción "Yes"

Las predicciones se muestran en el dashboard del equipo de soporte con códigos de color: verde para cumplimiento predicho, rojo para incumplimiento.

Insights: Los gerentes usan las predicciones para escalar proactivamente tickets en riesgo a ingenieros senior o asignar recursos adicionales. En 6 meses, la tasa de cumplimiento SLA mejora de 83% a 91%. El modelo revela que tickets con alta complejidad asignados al Equipo B en horas pico tienen solo 58% de probabilidad de cumplir SLA, conduciendo a redistribución de carga y capacitaciones. La organización también descubre que el tiempo de primera respuesta es el predictor más fuerte del tiempo total de resolución, impulsando políticas para garantizar respuestas iniciales en 15 minutos.

Uso de Plantillas de Python Preconstruidas

La sección de Inicio Rápido al principio de esta página lista los tres paquetes descargables y para qué sirve cada uno. Esta sección guía paso a paso el flujo completo de carga, qué manejan automáticamente las plantillas y cómo personalizarlas.

Cuando ejecutas el enriquecimiento Predicción de Casos con IA sin proporcionar un Id de Modelo, mindzieStudio genera un script Python de marcador de posición que produce predicciones aleatorias. Esto es intencional: el script es un punto de partida para que introduzcas lógica real de machine learning. Los paquetes de plantillas preconstruidas reemplazan ese marcador con un modelo real de scikit-learn que entrena con tus datos y escribe las predicciones en un nuevo atributo de caso.

Flujo de Trabajo Paso a Paso

Este flujo usa la función existente Cargar Modelo en el bloque de Predicción de Casos con IA. No se requiere Python local y funciona con cualquier versión distribuida de mindzieStudio.

1. Configura el enriquecimiento Predicción de Casos con IA

Define Tipo de Predicción, Columnas de Características, Columna de Valor a Predecir, las dos listas de filtros y la Nueva Columna de Predicción según lo descrito en la sección Configuraciones arriba. Guarda el bloque. Deja vacío el campo Id del Modelo por ahora.

2. Descarga el paquete de plantilla que coincida

Desde la tabla arriba, haz clic en el enlace que coincida con tu Columna de Valor a Predecir. Guarda el zip en tu computadora. No lo descomprimas, súbelo tal cual.

3. Súbelo mediante el menú Cargar Modelo del bloque

En el bloque de Predicción de Casos con IA en mindzieStudio, abre el menú del bloque y elige Cargar Modelo. Selecciona el zip que acabas de descargar. mindzieStudio lo extrae y asigna un Id de Modelo único.

4. Pega el Id de Modelo en el enriquecimiento

Copia el Id de Modelo que mindzieStudio te muestra y pégalo en el campo Id del Modelo del editor de Predicción de Casos con IA. Guarda.

5. Ejecuta el enriquecimiento

La próxima vez que se ejecute, mindzieStudio escribirá nuevos Training.csv y Prediction.csv según tus filtros actuales, usará los archivos de modelo subidos y correrá python script.py en la imagen Python configurada. La plantilla carga los datos, entrena un modelo RandomForest, predice y escribe el resultado en el nuevo atributo de caso. No se requiere acción adicional del usuario.

Las ejecuciones siguientes del mismo enriquecimiento reentrenan con equivalencias actuales de los filtros de entrenamiento, adaptando el modelo con el crecimiento de datos. Si quieres un modelo que no se reentrene cada ejecución, ve Personalización del modelo abajo.

Qué Manejan Automáticamente las Plantillas

No necesitas escribir ni una línea de Python. Las plantillas se encargan de:

  • Detección genérica de columnas: columnas de características, columna objetivo y id de caso se leen del archivo Training.schema en tiempo de ejecución, funcionan con cualquier nombre.
  • Características numéricas: imputación de la mediana para valores faltantes.
  • Características categóricas / de texto: codificación one-hot con manejo seguro de categorías no vistas al predecir.
  • División entrenamiento/prueba: 80/20 para reporte de precisión (estratificado para clasificadores, regular para regresión).
  • Desbalance de clases: la plantilla multiclase usa class_weight='balanced' y elimina clases ultra-raras (< 2 filas).
  • Salida con tipo correcto: las predicciones se convierten al tipo de la columna objetivo para parseo correcto en mindzieStudio: Int32, Int64, Single, Double, Boolean, String o TimeSpan en segundos.

Qué No Hacen (Aún)

Las plantillas son puntos de inicio simples. No:

  • Persisten el modelo entrenado entre ejecuciones: cada ejecución reentrena desde cero (rápido, pero importante para datasets muy grandes).
  • Buscan hiperparámetros óptimos: solo valores por defecto razonables.
  • Crean características desde atributos datetime: si tienes columnas de fecha, extrae partes numéricas antes con un calculador.
  • Soportan datasets muy grandes: probadas hasta ~100k casos. Para más, considera submuestreo en filtros de entrenamiento.

Personalización del Modelo

Si el algoritmo RandomForest por defecto no se adapta o quieres añadir ajuste de hiperparámetros, ingeniería de características o tu propio algoritmo, cada paquete es solo tres archivos Python simples dentro de un zip:

  • model_trainer.py - el algoritmo, es el único archivo que debes modificar
  • mindzie_helper.py - cargador CSV consciente del esquema (no editar)
  • script.py - punto de entrada (no editar)

Para personalizar:

  1. Descomprime el paquete zip en tu computadora.
  2. Edita model_trainer.py para cambiar algoritmo, hiperparámetros o preprocesamiento.
  3. Vuelve a comprimir los tres archivos sin carpeta contenedora.
  4. Sube el nuevo zip usando Cargar Modelo como en el Paso 3.

Si quieres probar localmente antes de re-subir, ejecuta el enriquecimiento una vez en mindzieStudio con el campo Id del Modelo vacío, luego haz clic en Descargar Paquete en el menú del bloque. La descarga contiene los mismos tres archivos más un real in/Training.csv y in/Prediction.csv. Reemplaza model_trainer.py con tu versión editada y corre python script.py desde la carpeta descomprimida. La salida estará en out/Prediction.csv.

Referencia del Algoritmo

Plantilla Estimador Configuraciones notables
Clasificador Binario RandomForestClassifier n_estimators=200, min_samples_leaf=2, división estratificada
Clasificador Multiclase RandomForestClassifier n_estimators=300, class_weight='balanced', filtro para clases raras
Regresor RandomForestRegressor n_estimators=300, min_samples_leaf=2, redondeo entero

Todas usan el mismo pipeline de preprocesamiento: ColumnTransformer con SimpleImputer(median) para numéricos y SimpleImputer(constant) + OneHotEncoder(handle_unknown='ignore') para categóricos, envuelto en un solo Pipeline para que el preprocesamiento al predecir coincida exactamente al entrenamiento.

Entorno Python Requerido

Si ejecutas localmente y no usas la imagen Docker, instala los paquetes requeridos:

pip install pandas==2.1.4 numpy==1.26.3 scikit-learn==1.4.0

Estas versiones coinciden con las dependencias fijadas en mindzie_windows_python3_11:V01, garantizando que el comportamiento sea idéntico ya sea que corras localmente o en el contenedor Docker.

Salida

Cuando el enriquecimiento Predicción de Casos con IA se ejecuta correctamente, crea un nuevo atributo en tu conjunto de datos con el nombre que especificaste en la configuración de "Nueva Columna de Predicción". Este atributo se añade como columna derivada a la tabla de casos y aparece junto con otros atributos en todos los dashboards, filtros y visualizaciones.

Valores de Predicción

Los valores almacenados en la nueva columna dependen del tipo de dato de tu Columna de Valor a Predecir:

Para predicciones de texto (String):

  • La columna contiene valores de texto que coinciden con las categorías de tus datos de entrenamiento
  • Ejemplo: "Aprobado", "Rechazado", "Alto Riesgo", "Bajo Riesgo", "Retrasado", "A Tiempo"
  • Pueden usarse para filtros, agrupamientos y codificación por color en dashboards

Para predicciones booleanas:

  • La columna contiene valores Verdadero o Falso
  • Ejemplo: Verdadero = "Incumplirá", Falso = "No Incumplirá"
  • Ideal para predicciones binarias y clasificaciones simples sí/no

Para predicciones enteras:

  • La columna contiene códigos numéricos que representan categorías
  • Ejemplo: 0 = "Bajo Riesgo", 1 = "Riesgo Medio", 2 = "Alto Riesgo"
  • Útil cuando las categorías tienen un orden numérico natural

Uso de Resultados de Predicción

Una vez creada la columna de predicción, puedes aprovecharla en todo mindzieStudio:

En filtros:

  • Filtra casos para mostrar solo predicciones de alto riesgo: "Riesgo Predicho igual a 'Alto Riesgo'"
  • Excluye casos de bajo riesgo de análisis detallado: "Resultado Predicho diferente de 'Bajo Riesgo'"
  • Combina predicciones con otros criterios: "Retraso Predicho igual a 'Sí' Y Monto Pedido > $10,000"

En dashboards:

  • Crea gráficos de desempeño agrupados por resultado predicho
  • Usa predicciones para codificación por color en mapas de proceso para visualizar riesgos en rutas de proceso
  • Construye métricas KPI mostrando precisión de predicciones comparando predicho vs real
  • Crea mapas de calor mostrando riesgo predicho por departamento, producto o periodo

En otros enriquecimientos:

  • Usa predicciones como entradas para calculadoras (Ejemplo: calculadora "Puntaje de Alto Riesgo" que considera riesgo predicho)
  • Combina con otros enriquecimientos para crear puntajes compuestos de riesgo
  • Usa como criterio para enriquecimientos dirigidos (Ejemplo: "Añadir chequeo de cumplimiento solo para casos predichos no conformes")

Para mejora de procesos:

  • Identifica patrones que llevan a desenlaces negativos predichos
  • Prioriza rediseños en actividades que más influyen en resultados negativos
  • Monitorea tendencias de predicción para medir efectividad de mejoras
  • Compara resultados predichos vs reales para validar y refinar el modelo

Archivos Generados Durante Entrenamiento

Cuando se entrena un modelo nuevo (sin Id de Modelo provisto), el enriquecimiento genera artefactos adicionales:

Archivos de Entrenamiento:

  • Training.csv: datos filtrados de casos para entrenamiento
  • Training.schema: definiciones de tipos de dato para columnas de entrenamiento
  • Prediction.csv: datos filtrados de casos para predicción
  • Prediction.schema: definiciones de tipos para columnas de predicción

Archivos del Modelo:

  • script.py: script Python que entrena y aplica el modelo
  • model_trainer.py: lógica de entrenamiento del modelo
  • mindzie_helper.py: funciones utilitarias para carga y procesamiento de datos

Salida de consola: Los logs de ejecución muestran:

  • "Cargando datos de entrenamiento..." con conteo de filas
  • "Entrenando modelo con datos de entrenamiento..." con indicadores de progreso
  • "¡Entrenamiento completado con éxito!"
  • "Cargando datos para predicción..." con conteo de filas
  • "Generando predicciones..." y estado de finalización
  • "Predicciones guardadas con éxito en: out/Prediction.csv"

Esta salida detallada te ayuda a verificar que el entrenamiento fue exitoso y entender el alcance de las predicciones generadas.

Indicadores de Calidad de Predicción

Para uso en producción, considera monitorear estos indicadores:

  • Cobertura de Predicción: Porcentaje de casos que recibieron predicciones vs casos fallidos por valores faltantes en características
  • Distribución de Predicción: Si las predicciones están balanceadas o sesgadas hacia un desenlace
  • **Precisión de Validación