Formats de Fichier
Formats de Données Pris en Charge
Découvrez les formats de fichiers pris en charge, les structures de données et les exigences de mapping des colonnes pour les jeux de données de process mining.
CSV (Comma-Separated Values)
Le format le plus couramment utilisé pour les données de process mining avec des options de parsing flexibles.
Spécifications du Format
| Option | Description | Par défaut | Exemple |
|---|---|---|---|
delimiter |
Caractère séparateur de champ | virgule (,) | point-virgule (;), tabulation (\t) |
encoding |
Encodage des caractères | UTF-8 | ISO-8859-1, Windows-1252 |
hasHeader |
La première ligne contient les noms de colonnes | vrai | vrai, faux |
quoteChar |
Caractère de qualification de texte | guillemet double (") | apostrophe (') |
Exemple de Structure CSV
CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50
Configuration du Mapping des Colonnes
{
"mapping": [
{
"sourceColumn": "CaseID",
"targetColumn": "CaseID",
"dataType": "string",
"role": "case_id"
},
{
"sourceColumn": "Activity",
"targetColumn": "Activity",
"dataType": "string",
"role": "activity"
},
{
"sourceColumn": "Timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime",
"role": "timestamp",
"format": "ISO8601"
}
],
"options": {
"hasHeader": true,
"delimiter": ",",
"encoding": "UTF-8"
}
}
Fichiers Excel (.xlsx, .xls)
Classeur Microsoft Excel avec prise en charge de plusieurs feuilles et mise en forme avancée.
Fonctionnalités Pris en Charge
Types de Fichiers
- .xlsx (Excel 2007 et versions ultérieures)
- .xls (Excel 97-2003)
- .xlsm (avec macros)
Gestion des Feuilles
- Prise en charge de plusieurs feuilles
- Sélection de feuille spécifique
- Import basé sur une plage
Reconnaissance des Données
- Détection automatique des dates/heures
- Préservation du format numérique
- Nettoyage de la mise en forme du texte
Configuration d’Import Excel
{
"worksheetName": "ProcessEvents",
"range": "A1:E1000",
"hasHeader": true,
"startRow": 1,
"mapping": [
{
"sourceColumn": "Order ID",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"sourceColumn": "Event Date",
"targetColumn": "Timestamp",
"dataType": "datetime",
"format": "MM/dd/yyyy HH:mm:ss"
}
]
}
XES (eXtensible Event Stream)
Format standard IEEE pour le process mining avec prise en charge complète des attributs d’événements et extensions.
Support de la Spécification XES
| Élément | Niveau de Support | Description |
|---|---|---|
| Log | Complet | Attributs et métadonnées au niveau du log |
| Trace | Complet | Attributs et événements au niveau du cas |
| Event | Complet | Données et attributs au niveau de l’activité |
| Extensions | Partiel | Extensions standards (concept, temps, cycle de vie) |
Exemple de Structure XES
<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
<extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
<extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>
<trace>
<string key="concept:name" value="PO-001"/>
<event>
<string key="concept:name" value="Create Order"/>
<date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
<string key="org:resource" value="buyer.smith"/>
</event>
<event>
<string key="concept:name" value="Approve Order"/>
<date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
<string key="org:resource" value="manager.jones"/>
</event>
</trace>
</log>
JSON (JavaScript Object Notation)
Format JSON structuré pour données d’événements complexes avec attributs imbriqués et schéma flexible.
Options de Schéma JSON
Tableau d’Événements
Structure simple plate avec objets événements.
[
{
"caseId": "PO-001",
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z",
"resource": "buyer.smith"
}
]
Structure Imbriquée
Données hiérarchiques avec imbrication cas et événements.
{
"cases": [
{
"caseId": "PO-001",
"events": [
{
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z"
}
]
}
]
}
Configuration de Mapping JSON
{
"schema": "flat",
"mapping": [
{
"jsonPath": "$.caseId",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"jsonPath": "$.activity",
"targetColumn": "Activity",
"dataType": "string"
},
{
"jsonPath": "$.timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime"
}
]
}
Exigences sur les Types de Données
Comprendre les types de données et règles de validation pour une structure correcte du jeu de données :
Champs Chaîne de Caractères
Données textuelles avec validation de longueur et caractères.
- Encodage UTF-8 requis
- Longueur maximale : 1000 caractères
- Gestion des caractères spéciaux
- Support des valeurs nulles
Champs DateHeure
Données d’horodatage avec support des fuseaux horaires.
- Format ISO 8601 préféré
- Support de formats personnalisés
- Conversion de fuseau horaire
- Précision au milliseconde près
Champs Numériques
Gestion des nombres entiers et décimaux.
- Support des entiers 64 bits
- Décimaux double précision
- Notation scientifique
- Formatage monétaire
Champs Booléens
Interprétation des valeurs vrai/faux.
- true/false (insensible à la casse)
- Valeurs numériques 1/0
- Valeurs textuelles oui/non
- Options de gestion des valeurs nulles
Validation du Format et Erreurs
Règles communes de validation et gestion des erreurs pour différents formats de fichier :
Colonnes Obligatoires
Chaque jeu de données de process mining doit contenir ces colonnes essentielles :
- Case ID : Identifiant unique de chaque instance de processus
- Activity : Nom ou description de l’étape du processus
- Timestamp : Moment où l’activité a eu lieu (avec fuseau horaire)
Erreurs de Validation Courantes
| Type d’Erreur | Description | Résolution |
|---|---|---|
| Colonne Obligatoire Manquante | CaseID, Activity ou Timestamp non trouvée | Ajouter la colonne manquante ou mettre à jour le mapping |
| Format de Date Invalide | Timestamp non reconnu | Spécifier un modèle de format de date personnalisé |
| Case ID Vide | Valeurs nulles ou vides dans la colonne Case ID | Nettoyer les données ou utiliser un filtre sur les lignes |
| En-têtes Dupliqués | Plusieurs colonnes avec le même nom | Renommer les colonnes ou utiliser des indices de colonnes |
Bonnes Pratiques
- Qualité des Données : Valider les données avant import avec les options de validation intégrées
- Performance : Utiliser les uploads en streaming pour les fichiers > 100Mo
- Encodage : Toujours spécifier l’encodage UTF-8 pour le support des caractères internationaux
- Horodatages : Inclure l’information de fuseau horaire dans tous les horodatages
- Tests : Utiliser de petits fichiers d’exemple pour tester les mappings avant l’import complet
- Documentation : Documenter les formats et mappings personnalisés pour référence future