Générer des Données Synthétiques
La fonctionnalité Générer des Données Synthétiques crée des jeux de données entièrement nouveaux et fabriqués qui conservent les propriétés statistiques de vos données originales sans contenir aucune valeur réelle de votre source. Ceci est utile pour :
- Démonstrations - Créer des données au rendu réaliste pour mettre en valeur vos capacités d'analyse de processus
- Tests - Générer des jeux de données de test avec des propriétés connues
- Partage - Partager des motifs de données en externe sans exposer d’informations sensibles
- Formation - Créer des jeux de données pour l'entraînement de modèles de machine learning
Important : Ce n’est PAS de l’anonymisation. Les données synthétiques sont complètement fabriquées - aucune donnée originale n’apparaît dans le résultat. Le jeu de données synthétique peut être partagé en toute sécurité.
Comment y Accéder
- Naviguez vers la page Datasets
- Cliquez sur le menu à trois points d’un jeu de données
- Sélectionnez Générer des Données Synthétiques
Options de Configuration

Nom du Jeu de Données
Le nom de votre jeu de données synthétiques. Par défaut, il est défini sur le nom du jeu de données source suivi de " - Synthetic".
Nombre de Cas
Spécifiez le nombre de cas à générer dans le jeu de données synthétique :
- Minimum : 100 cas
- Maximum : 100 000 cas
- Recommandé : 1 000 - 10 000 cas pour des démonstrations
Les jeux de données plus volumineux prennent plus de temps à générer et entraînent des téléchargements de fichiers plus importants.
Conserver les Noms d’Activités
Lorsqu’activée (recommandée), cette option maintient les noms d’activité originaux comme « Submit Order », « Review Application », etc. Cela produit des cartes de processus utiles reflétant votre flux de processus réel.
Lorsqu’elle est désactivée, les noms des activités sont remplacés par des libellés génériques comme "Activity_1", "Activity_2", etc. Utilisez cette option si même les noms d’activité contiennent des informations sensibles.
Ce Qui Est Généré
Le générateur de données synthétiques analyse votre jeu de données source et crée de nouvelles données avec :
| Élément | Mode de Génération |
|---|---|
| IDs de Cas | Nouveaux IDs séquentiels : Case_1, Case_2, etc. |
| Noms d’Activité | Conservés depuis la source (ou anonymisés si l’option est désactivée) |
| Horodatages | Dates réalistes avec des durées similaires entre activités |
| Attributs Textuels | Remplacés par des valeurs génériques telles que Customer_1, Region_2, etc. tout en conservant la distribution (si 60 % des cas étaient "Haute Priorité", environ 60 % des cas synthétiques auront Priority_1) |
| Attributs Numériques | Générés avec des propriétés statistiques similaires (moyenne, dispersion, plage min/max) |
| Flux de Processus | Séquences d’activités échantillonnées à partir de vos variantes de processus réelles |
Ce Qui N’est PAS Inclus
Les colonnes calculées sont exclues du résultat synthétique car elles seraient recalculées lors de l’import dans mindzieStudio.
Résultat
Lorsque vous cliquez sur Générer, mindzieStudio va :
- Analyser vos données sources pour extraire les motifs statistiques
- Générer le nombre spécifié de cas synthétiques
- Télécharger automatiquement le fichier CSV résultant
Le nom de fichier téléchargé correspond au Nom du Jeu de Données avec une extension .csv.
Exemple
Données sources :
CaseId,Activity,Timestamp,Customer,Amount
C001,Submit,2024-01-01 09:00,Acme Corp,1500.00
C001,Review,2024-01-01 11:00,Acme Corp,1500.00
C002,Submit,2024-01-02 10:00,Beta Inc,2300.00
Résultat synthétique (avec Conserver les Noms d’Activité activé) :
CaseId,Activity,Timestamp,Customer,Amount
Case_1,Submit,2020-03-15 14:23,Customer_1,1842.37
Case_1,Review,2020-03-15 16:45,Customer_1,1842.37
Case_2,Submit,2020-07-22 09:12,Customer_2,1523.89
Remarques :
- Les noms d’activité sont conservés
- Les noms de clients sont remplacés par des génériques
Customer_1,Customer_2 - Les montants sont similaires en gamme mais fabriqués
- Les horodatages sont réalistes mais entièrement nouveaux
Cas d’Utilisation
Création de Jeux de Données de Démonstration
Générez des données synthétiques à partir de votre processus de production pour créer des jeux de données de démonstration sûrs qui mettent en valeur de vrais motifs de processus sans exposer vos données métier réelles.
Partage avec des Consultants Externes
Lorsque vous travaillez avec des consultants ou fournisseurs externes en process mining, partagez des jeux de données synthétiques qui préservent les caractéristiques de votre processus sans révéler d’informations sensibles.
Tests de Performance
Générez de grands jeux de données synthétiques (plus de 50 000 cas) pour tester la performance de vos notebooks et tableaux de bord avec de plus gros volumes.
Formation et Éducation
Créez des jeux de données synthétiques pour former de nouveaux membres d’équipe aux concepts d’analyse de processus à l’aide de données réalistes mais sûres.