Generar Datos Sintéticos

La función Generar Datos Sintéticos crea conjuntos de datos completamente nuevos y fabricados que preservan las propiedades estadísticas de tus datos originales sin contener valores reales de tu fuente. Esto es útil para:

  • Demostraciones - Crear datos con apariencia realista para mostrar tus capacidades de minería de procesos
  • Pruebas - Generar conjuntos de datos de prueba con propiedades conocidas
  • Compartir - Compartir patrones de datos externamente sin exponer información sensible
  • Entrenamiento - Crear conjuntos de datos para entrenar modelos de aprendizaje automático

Importante: Esto NO es anonimización. Los datos sintéticos son completamente fabricados; no existen valores originales en la salida. El conjunto de datos sintético es seguro para compartir externamente.

Cómo Acceder

  1. Navega a la página Datasets
  2. Haz clic en el menú de tres puntos en cualquier conjunto de datos
  3. Selecciona Generar Datos Sintéticos

Opciones de Configuración

Diálogo Generar Datos Sintéticos

Nombre del Conjunto de Datos

El nombre para tu conjunto de datos sintético. Por defecto, se establece como el nombre de tu conjunto de datos de origen con " - Sintético" añadido.

Número de Casos

Especifica cuántos casos generar en el conjunto de datos sintético:

  • Mínimo: 100 casos
  • Máximo: 100,000 casos
  • Recomendado: 1,000 - 10,000 casos para fines de demostración

Los conjuntos de datos más grandes tardan más en generarse y resultan en archivos de descarga más grandes.

Preservar Nombres de Actividades

Cuando está activado (recomendado), el conjunto de datos sintético mantiene los nombres originales de tus actividades como "Enviar Pedido", "Revisar Solicitud", etc. Esto produce mapas de procesos útiles que reflejan el flujo real de tu proceso.

Cuando está desactivado, los nombres de las actividades se reemplazan con etiquetas genéricas como "Actividad_1", "Actividad_2", etc. Usa esta opción si incluso los nombres de tus actividades contienen información sensible.

Qué Se Genera

El generador de datos sintéticos analiza tu conjunto de datos de origen y crea datos nuevos con:

Elemento Cómo se Genera
IDs de caso Nuevos IDs secuenciales: Case_1, Case_2, etc.
Nombres de Actividad Preservados del origen (o anonimizados si la opción está desactivada)
Marcas de Tiempo Fechas realistas con patrones de duración similares entre actividades
Atributos de Texto Reemplazados con valores genéricos como Customer_1, Region_2, etc., manteniendo la distribución (si el 60% de los casos era "Alta Prioridad", aproximadamente el 60% de los casos sintéticos tendrán Priority_1)
Atributos Numéricos Generados con propiedades estadísticas similares (media, dispersión, rango min/máx)
Flujo del Proceso Secuencias de actividades muestreadas de tus variantes reales de proceso

Qué NO Está Incluido

Las columnas calculadas se excluyen de la salida sintética ya que se recalcularán cuando importes los datos en mindzieStudio.

Salida

Cuando haces clic en Generar, mindzieStudio:

  1. Analiza tus datos de origen para extraer patrones estadísticos
  2. Genera el número especificado de casos sintéticos
  3. Descarga automáticamente el resultado como un archivo CSV

El nombre del archivo descargado coincide con el Nombre del Conjunto de Datos y tiene extensión .csv.

Ejemplo

Datos de origen:

CaseId,Activity,Timestamp,Customer,Amount
C001,Submit,2024-01-01 09:00,Acme Corp,1500.00
C001,Review,2024-01-01 11:00,Acme Corp,1500.00
C002,Submit,2024-01-02 10:00,Beta Inc,2300.00

Salida sintética (con Preservar Nombres de Actividad activado):

CaseId,Activity,Timestamp,Customer,Amount
Case_1,Submit,2020-03-15 14:23,Customer_1,1842.37
Case_1,Review,2020-03-15 16:45,Customer_1,1842.37
Case_2,Submit,2020-07-22 09:12,Customer_2,1523.89

Nota:

  • Los nombres de actividades se conservan
  • Los nombres de clientes se reemplazan con genéricos Customer_1, Customer_2
  • Los montos son similares en rango pero fabricados
  • Las marcas de tiempo son realistas pero totalmente nuevas

Casos de Uso

Crear Conjuntos de Datos para Demostraciones

Genera datos sintéticos de tu proceso de producción para crear conjuntos de datos seguros para demostraciones que muestren patrones reales de proceso sin exponer datos empresariales reales.

Compartir con Consultores Externos

Al trabajar con consultores o proveedores externos de minería de procesos, comparte conjuntos de datos sintéticos que preservan las características de tu proceso sin revelar información sensible.

Pruebas de Rendimiento

Genera conjuntos de datos sintéticos grandes (50,000+ casos) para probar cómo funcionan tus notebooks y dashboards con volúmenes mayores de datos.

Entrenamiento y Educación

Crea conjuntos de datos sintéticos para entrenar a nuevos miembros del equipo en conceptos de minería de procesos usando datos realistas pero seguros.