Sentetik Veri Üretme

Sentetik Veri Üretme özelliği, orijinal verinizin istatistiksel özelliklerini koruyan ancak kaynağınızdan herhangi gerçek değer içermeyen tamamen yeni, kurgusal veri setleri oluşturur. Bu, şu amaçlar için faydalıdır:

  • Demonstartionlar – Süreç madenciliği yeteneklerinizi göstermek için gerçekçi görünen veriler oluşturun
  • Test – Bilinen özelliklere sahip test veri setleri üretin
  • Paylaşım – Hassas bilgileri açığa çıkarmadan dışarıya veri desenleri paylaşın
  • Eğitim – Makine öğrenimi modelleri için eğitim veri setleri oluşturun

Önemli: Bu, anonimizasyon değildir. Sentetik veriler tamamen kurgusaldır – çıktı içinde orijinal veri değerleri yoktur. Sentetik veri seti dış paylaşım için güvenlidir.

Erişim Yolu

  1. Datasets sayfasına gidin
  2. Herhangi bir veri seti üzerindeki üç nokta menüsüne tıklayın
  3. Generate Synthetic Data seçeneğini seçin

Yapılandırma Seçenekleri

Sentetik Veri Oluşturma Diyaloğu

Veri Seti Adı

Sentetik veri setiniz için isim. Varsayılan olarak, kaynak veri seti adınıza " - Synthetic" eki eklenir.

Vaka Sayısı

Sentetik veri setinde oluşturulacak vaka sayısını belirtin:

  • Minimum: 100 vaka
  • Maksimum: 100.000 vaka
  • Önerilen: Demo amaçlı 1.000 - 10.000 vaka

Daha büyük veri setlerinin oluşturulması daha uzun sürer ve dosya indirimi daha büyük olur.

Aktivite İsimlerini Koru

Etkinleştirildiğinde (önerilir), sentetik veri seti orijinal aktivitelerinizin adlarını (örneğin "Submit Order", "Review Application") korur. Bu, gerçek süreç akışınızı yansıtan faydalı süreç haritaları oluşturur.

Devre dışı bırakılırsa, aktivite isimleri "Activity_1", "Activity_2" gibi genel etiketlerle değiştirilir. Aktivite adlarınızda bile hassas bilgi varsa bu seçeneği kullanın.

Neler Üretilir

Sentetik veri üreticisi, kaynak veri setinizi analiz eder ve aşağıdaki öğeleri oluşturur:

Öğe Nasıl Üretilir
Vaka ID'leri Yeni sırayla ID'ler: Case_1, Case_2, vb.
Aktivite İsimleri Kaynaktan korunan (veya anonimleştirilmiş eğer seçenek devre dışıysa)
Zaman Damgaları Aktivite süreleriyle benzer gerçekçi tarih ve saatler
Metin Özellikleri Customer_1, Region_2 gibi genel değerlerle değiştirilir ve dağılım korunur (örneğin %60 vaka "High Priority" ise yaklaşık %60 sentetik vaka Priority_1 olur)
Sayısal Özellikler Benzer istatistiksel özelliklerle (ortalama, dağılım, min/maks aralık) üretilir
Süreç Akışı Gerçek süreç varyantlarından alınan aktivite sıralamaları

Dahil Olmayanlar

Hesaplanan sütunlar sentetik çıktıya dahil edilmez çünkü veri mindzieStudio’ya aktarıldığında yeniden hesaplanır.

Çıktı

Generate butonuna tıkladığınızda mindzieStudio şunları yapar:

  1. Kaynak verinizi analiz ederek istatistiksel desenleri çıkarır
  2. Belirtilen sayıda sentetik vaka oluşturur
  3. Sonucu CSV dosyası olarak otomatik indirir

İndirilen dosya adı, Veri Seti Adınız ile aynı olur ve .csv uzantısına sahiptir.

Örnek

Kaynak veri:

CaseId,Activity,Timestamp,Customer,Amount
C001,Submit,2024-01-01 09:00,Acme Corp,1500.00
C001,Review,2024-01-01 11:00,Acme Corp,1500.00
C002,Submit,2024-01-02 10:00,Beta Inc,2300.00

Sentetik çıktı (Aktivite İsimlerini Koru etkin):

CaseId,Activity,Timestamp,Customer,Amount
Case_1,Submit,2020-03-15 14:23,Customer_1,1842.37
Case_1,Review,2020-03-15 16:45,Customer_1,1842.37
Case_2,Submit,2020-07-22 09:12,Customer_2,1523.89

Dikkat edin:

  • Aktivite isimleri korunur
  • Müşteri isimleri Customer_1, Customer_2 gibi genel isimlerle değiştirilir
  • Tutarlar benzer aralıktadır fakat kurgusaldır
  • Zaman damgaları gerçekçi ama tamamen yenidir

Kullanım Senaryoları

Demo Veri Setleri Oluşturma

Üretim sürecinizden sentetik veri üreterek, gerçek iş verisini açığa çıkarmadan gerçek süreç desenlerini gösteren güvenli demo veri setleri yaratın.

Dış Danışmanlarla Paylaşım

Dış süreç madenciliği danışmanları veya satıcılarla çalışırken, hassas bilgileri açıklamadan süreç özelliklerinizi koruyan sentetik veri setleri paylaşın.

Performans Testi

Not defterlerinizin ve kontrol panellerinizin büyük veri hacimleriyle nasıl performans gösterdiğini test etmek için büyük (50.000+ vaka) sentetik veri setleri üretin.

Eğitim ve Öğretim

Yeni ekip üyelerine süreç madenciliği kavramlarını öğretmek için gerçekçi ama güvenli sentetik veri setleri oluşturun.