Formatos de Archivo
Formatos de Datos Soportados
Aprenda sobre los formatos de archivo compatibles, estructuras de datos y requisitos de asignación de columnas para conjuntos de datos de minería de procesos.
CSV (Valores Separados por Comas)
El formato más comúnmente utilizado para datos de minería de procesos con opciones flexibles de análisis.
Especificaciones del Formato
| Opción | Descripción | Predeterminado | Ejemplo |
|---|---|---|---|
delimiter |
Carácter separador de campos | coma (,) | punto y coma (;), tabulación (\t) |
encoding |
Codificación de caracteres | UTF-8 | ISO-8859-1, Windows-1252 |
hasHeader |
La primera fila contiene nombres de columnas | true | true, false |
quoteChar |
Carácter calificador de texto | comillas dobles (") | comillas simples (') |
Ejemplo de Estructura CSV
CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50
Configuración de Asignación de Columnas
{
"mapping": [
{
"sourceColumn": "CaseID",
"targetColumn": "CaseID",
"dataType": "string",
"role": "case_id"
},
{
"sourceColumn": "Activity",
"targetColumn": "Activity",
"dataType": "string",
"role": "activity"
},
{
"sourceColumn": "Timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime",
"role": "timestamp",
"format": "ISO8601"
}
],
"options": {
"hasHeader": true,
"delimiter": ",",
"encoding": "UTF-8"
}
}
Archivos Excel (.xlsx, .xls)
Libros de Microsoft Excel con soporte para múltiples hojas y formato avanzado.
Funcionalidades Soportadas
Tipos de Archivo
- .xlsx (Excel 2007+)
- .xls (Excel 97-2003)
- .xlsm (Habilitado para macros)
Manejo de Hojas de Trabajo
- Soporte para múltiples hojas
- Selección de hoja específica
- Importación basada en rango
Reconocimiento de Datos
- Detección automática de fecha/hora
- Preservación de formato numérico
- Limpieza de formato de texto
Configuración para Importación Excel
{
"worksheetName": "ProcessEvents",
"range": "A1:E1000",
"hasHeader": true,
"startRow": 1,
"mapping": [
{
"sourceColumn": "Order ID",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"sourceColumn": "Event Date",
"targetColumn": "Timestamp",
"dataType": "datetime",
"format": "MM/dd/yyyy HH:mm:ss"
}
]
}
XES (eXtensible Event Stream)
Formato estándar IEEE para minería de procesos con soporte completo para atributos de eventos y extensiones.
Soporte de Especificación XES
| Elemento | Nivel de Soporte | Descripción |
|---|---|---|
| Log | Completo | Atributos y metadata a nivel de log |
| Trace | Completo | Atributos y eventos a nivel de caso |
| Event | Completo | Datos y atributos a nivel de actividad |
| Extensions | Parcial | Extensiones estándar (concepto, tiempo, ciclo de vida) |
Ejemplo de Estructura XES
<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
<extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
<extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>
<trace>
<string key="concept:name" value="PO-001"/>
<event>
<string key="concept:name" value="Create Order"/>
<date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
<string key="org:resource" value="buyer.smith"/>
</event>
<event>
<string key="concept:name" value="Approve Order"/>
<date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
<string key="org:resource" value="manager.jones"/>
</event>
</trace>
</log>
JSON (Notación de Objetos de JavaScript)
Formato JSON estructurado para datos complejos de eventos con atributos anidados y esquema flexible.
Opciones de Esquema JSON
Array de Eventos
Estructura plana simple con objetos de evento.
[
{
"caseId": "PO-001",
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z",
"resource": "buyer.smith"
}
]
Estructura Anidada
Datos jerárquicos con anidamiento de casos y eventos.
{
"cases": [
{
"caseId": "PO-001",
"events": [
{
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z"
}
]
}
]
}
Configuración de Asignación JSON
{
"schema": "flat",
"mapping": [
{
"jsonPath": "$.caseId",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"jsonPath": "$.activity",
"targetColumn": "Activity",
"dataType": "string"
},
{
"jsonPath": "$.timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime"
}
]
}
Requisitos de Tipo de Datos
Comprensión de tipos de datos y reglas de validación para una estructura adecuada del conjunto de datos:
Campos de Texto (String)
Datos de texto con validación de longitud y caracteres.
- Se requiere codificación UTF-8
- Longitud máxima: 1000 caracteres
- Manejo de caracteres especiales
- Soporte para valores nulos
Campos de Fecha y Hora (DateTime)
Datos de marca de tiempo con soporte de zona horaria.
- Formato ISO 8601 preferido
- Soporte para formatos personalizados
- Conversión de zona horaria
- Precisión hasta milisegundos
Campos Numéricos
Manejo de números enteros y decimales.
- Soporte para enteros de 64 bits
- Decimales de doble precisión
- Notación científica
- Formato de moneda
Campos Booleanos
Interpretación de valores verdadero/falso.
- true/false (insensible a mayúsculas)
- Valores numéricos 1/0
- Valores de texto sí/no
- Opciones para manejo de nulos
Validación del Formato y Errores
Reglas comunes de validación y manejo de errores para diferentes formatos de archivo:
Columnas Requeridas
Cada conjunto de datos de minería de procesos debe incluir estas columnas esenciales:
- Case ID: Identificador único para cada instancia del proceso
- Activity: Nombre o descripción del paso del proceso
- Timestamp: Momento en que ocurrió la actividad (con zona horaria)
Errores Comunes de Validación
| Tipo de Error | Descripción | Resolución |
|---|---|---|
| Columna Requerida Faltante | No se encontró CaseID, Activity, o Timestamp | Agregar columna faltante o actualizar asignación |
| Formato de Fecha Inválido | Timestamp no está en formato reconocido | Especificar patrón personalizado de fecha |
| Case ID Vacío | Valores nulos o vacíos en columna Case ID | Limpiar datos o usar filtro de filas |
| Encabezados Duplicados | Múltiples columnas con mismo nombre | Renombrar columnas o usar índices de columna |
Mejores Prácticas
- Calidad de Datos: Validar datos antes de la importación usando opciones de validación integradas
- Rendimiento: Usar cargas por streaming para archivos mayores a 100MB
- Codificación: Siempre especificar codificación UTF-8 para soporte de caracteres internacionales
- Marcas de Tiempo: Incluir información de zona horaria en todos los datos de timestamp
- Pruebas: Usar archivos pequeños de muestra para probar asignaciones de columnas antes de la importación completa
- Documentación: Documentar formatos personalizados y asignaciones para referencia futura