Formats de Fichier

Formats de Données Pris en Charge

Découvrez les formats de fichiers pris en charge, les structures de données et les exigences de mapping des colonnes pour les jeux de données de process mining.

CSV (Comma-Separated Values)

Le format le plus couramment utilisé pour les données de process mining avec des options de parsing flexibles.

Spécifications du Format

Option Description Par défaut Exemple
delimiter Caractère séparateur de champ virgule (,) point-virgule (;), tabulation (\t)
encoding Encodage des caractères UTF-8 ISO-8859-1, Windows-1252
hasHeader La première ligne contient les noms de colonnes vrai vrai, faux
quoteChar Caractère de qualification de texte guillemet double (") apostrophe (')

Exemple de Structure CSV

CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50

Configuration du Mapping des Colonnes

{
  "mapping": [
    {
      "sourceColumn": "CaseID",
      "targetColumn": "CaseID",
      "dataType": "string",
      "role": "case_id"
    },
    {
      "sourceColumn": "Activity",
      "targetColumn": "Activity",
      "dataType": "string",
      "role": "activity"
    },
    {
      "sourceColumn": "Timestamp",
      "targetColumn": "Timestamp",
      "dataType": "datetime",
      "role": "timestamp",
      "format": "ISO8601"
    }
  ],
  "options": {
    "hasHeader": true,
    "delimiter": ",",
    "encoding": "UTF-8"
  }
}

Fichiers Excel (.xlsx, .xls)

Classeur Microsoft Excel avec prise en charge de plusieurs feuilles et mise en forme avancée.

Fonctionnalités Pris en Charge

Types de Fichiers

  • .xlsx (Excel 2007 et versions ultérieures)
  • .xls (Excel 97-2003)
  • .xlsm (avec macros)

Gestion des Feuilles

  • Prise en charge de plusieurs feuilles
  • Sélection de feuille spécifique
  • Import basé sur une plage

Reconnaissance des Données

  • Détection automatique des dates/heures
  • Préservation du format numérique
  • Nettoyage de la mise en forme du texte

Configuration d’Import Excel

{
  "worksheetName": "ProcessEvents",
  "range": "A1:E1000",
  "hasHeader": true,
  "startRow": 1,
  "mapping": [
    {
      "sourceColumn": "Order ID",
      "targetColumn": "CaseID",
      "dataType": "string"
    },
    {
      "sourceColumn": "Event Date",
      "targetColumn": "Timestamp",
      "dataType": "datetime",
      "format": "MM/dd/yyyy HH:mm:ss"
    }
  ]
}

XES (eXtensible Event Stream)

Format standard IEEE pour le process mining avec prise en charge complète des attributs d’événements et extensions.

Support de la Spécification XES

Élément Niveau de Support Description
Log Complet Attributs et métadonnées au niveau du log
Trace Complet Attributs et événements au niveau du cas
Event Complet Données et attributs au niveau de l’activité
Extensions Partiel Extensions standards (concept, temps, cycle de vie)

Exemple de Structure XES

<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
  <extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
  <extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>

  <trace>
    <string key="concept:name" value="PO-001"/>

    <event>
      <string key="concept:name" value="Create Order"/>
      <date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
      <string key="org:resource" value="buyer.smith"/>
    </event>

    <event>
      <string key="concept:name" value="Approve Order"/>
      <date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
      <string key="org:resource" value="manager.jones"/>
    </event>
  </trace>
</log>

JSON (JavaScript Object Notation)

Format JSON structuré pour données d’événements complexes avec attributs imbriqués et schéma flexible.

Options de Schéma JSON

Tableau d’Événements

Structure simple plate avec objets événements.

[
  {
    "caseId": "PO-001",
    "activity": "Create Order",
    "timestamp": "2024-01-15T09:00:00Z",
    "resource": "buyer.smith"
  }
]

Structure Imbriquée

Données hiérarchiques avec imbrication cas et événements.

{
  "cases": [
    {
      "caseId": "PO-001",
      "events": [
        {
          "activity": "Create Order",
          "timestamp": "2024-01-15T09:00:00Z"
        }
      ]
    }
  ]
}

Configuration de Mapping JSON

{
  "schema": "flat",
  "mapping": [
    {
      "jsonPath": "$.caseId",
      "targetColumn": "CaseID",
      "dataType": "string"
    },
    {
      "jsonPath": "$.activity",
      "targetColumn": "Activity",
      "dataType": "string"
    },
    {
      "jsonPath": "$.timestamp",
      "targetColumn": "Timestamp",
      "dataType": "datetime"
    }
  ]
}

Exigences sur les Types de Données

Comprendre les types de données et règles de validation pour une structure correcte du jeu de données :

Champs Chaîne de Caractères

Données textuelles avec validation de longueur et caractères.

  • Encodage UTF-8 requis
  • Longueur maximale : 1000 caractères
  • Gestion des caractères spéciaux
  • Support des valeurs nulles

Champs DateHeure

Données d’horodatage avec support des fuseaux horaires.

  • Format ISO 8601 préféré
  • Support de formats personnalisés
  • Conversion de fuseau horaire
  • Précision au milliseconde près

Champs Numériques

Gestion des nombres entiers et décimaux.

  • Support des entiers 64 bits
  • Décimaux double précision
  • Notation scientifique
  • Formatage monétaire

Champs Booléens

Interprétation des valeurs vrai/faux.

  • true/false (insensible à la casse)
  • Valeurs numériques 1/0
  • Valeurs textuelles oui/non
  • Options de gestion des valeurs nulles

Validation du Format et Erreurs

Règles communes de validation et gestion des erreurs pour différents formats de fichier :

Colonnes Obligatoires

Chaque jeu de données de process mining doit contenir ces colonnes essentielles :

  • Case ID : Identifiant unique de chaque instance de processus
  • Activity : Nom ou description de l’étape du processus
  • Timestamp : Moment où l’activité a eu lieu (avec fuseau horaire)

Erreurs de Validation Courantes

Type d’Erreur Description Résolution
Colonne Obligatoire Manquante CaseID, Activity ou Timestamp non trouvée Ajouter la colonne manquante ou mettre à jour le mapping
Format de Date Invalide Timestamp non reconnu Spécifier un modèle de format de date personnalisé
Case ID Vide Valeurs nulles ou vides dans la colonne Case ID Nettoyer les données ou utiliser un filtre sur les lignes
En-têtes Dupliqués Plusieurs colonnes avec le même nom Renommer les colonnes ou utiliser des indices de colonnes

Bonnes Pratiques

  • Qualité des Données : Valider les données avant import avec les options de validation intégrées
  • Performance : Utiliser les uploads en streaming pour les fichiers > 100Mo
  • Encodage : Toujours spécifier l’encodage UTF-8 pour le support des caractères internationaux
  • Horodatages : Inclure l’information de fuseau horaire dans tous les horodatages
  • Tests : Utiliser de petits fichiers d’exemple pour tester les mappings avant l’import complet
  • Documentation : Documenter les formats et mappings personnalisés pour référence future