Dosya Formatları

Desteklenen Veri Formatları

Süreç madenciliği veri setleri için desteklenen dosya formatları, veri yapıları ve sütun eşleme gereksinimleri hakkında bilgi edinin.

CSV (Virgülle Ayrılmış Değerler)

Süreç madenciliği verileri için en yaygın kullanılan, esnek ayrıştırma seçeneklerine sahip format.

Format Spesifikasyonları

Seçenek Açıklama Varsayılan Örnek
delimiter Alan ayırıcı karakter virgül (,) noktalı virgül (;), tab (\t)
encoding Karakter kodlaması UTF-8 ISO-8859-1, Windows-1252
hasHeader İlk satır sütun adlarını içerir true true, false
quoteChar Metin ayırıcı karakter çift tırnak (") tek tırnak (')

Örnek CSV Yapısı

CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50

Sütun Eşleme Yapılandırması

{
  "mapping": [
    {
      "sourceColumn": "CaseID",
      "targetColumn": "CaseID",
      "dataType": "string",
      "role": "case_id"
    },
    {
      "sourceColumn": "Activity",
      "targetColumn": "Activity",
      "dataType": "string",
      "role": "activity"
    },
    {
      "sourceColumn": "Timestamp",
      "targetColumn": "Timestamp",
      "dataType": "datetime",
      "role": "timestamp",
      "format": "ISO8601"
    }
  ],
  "options": {
    "hasHeader": true,
    "delimiter": ",",
    "encoding": "UTF-8"
  }
}

Excel Dosyaları (.xlsx, .xls)

Microsoft Excel çalışma kitapları, çoklu çalışma sayfası ve gelişmiş biçimlendirme desteği ile.

Desteklenen Özellikler

Dosya Türleri

  • .xlsx (Excel 2007 ve sonrası)
  • .xls (Excel 97-2003)
  • .xlsm (Makro destekli)

Çalışma Sayfası İşleme

  • Çoklu çalışma sayfası desteği
  • Belirli sayfa seçimi
  • Aralık bazlı içe aktarma

Veri Tanıma

  • Otomatik tarih/saat algılama
  • Sayısal format korunumu
  • Metin biçimlendirme temizliği

Excel İçe Aktarma Yapılandırması

{
  "worksheetName": "ProcessEvents",
  "range": "A1:E1000",
  "hasHeader": true,
  "startRow": 1,
  "mapping": [
    {
      "sourceColumn": "Order ID",
      "targetColumn": "CaseID",
      "dataType": "string"
    },
    {
      "sourceColumn": "Event Date",
      "targetColumn": "Timestamp",
      "dataType": "datetime",
      "format": "MM/dd/yyyy HH:mm:ss"
    }
  ]
}

XES (eXtensible Event Stream)

Süreç madenciliği için IEEE standart formatı, olay nitelikleri ve uzantıları için tam destek sağlar.

XES Spesifikasyon Desteği

Öğe Destek Seviyesi Açıklama
Log Tam Günlük seviyesinde nitelikler ve meta veriler
Trace Tam Vaka seviyesinde nitelikler ve olaylar
Event Tam Aktivite seviyesi veri ve nitelikler
Extensions Kısmi Standart uzantılar (concept, time, lifecycle)

Örnek XES Yapısı

<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
  <extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
  <extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>

  <trace>
    <string key="concept:name" value="PO-001"/>

    <event>
      <string key="concept:name" value="Create Order"/>
      <date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
      <string key="org:resource" value="buyer.smith"/>
    </event>

    <event>
      <string key="concept:name" value="Approve Order"/>
      <date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
      <string key="org:resource" value="manager.jones"/>
    </event>
  </trace>
</log>

JSON (JavaScript Object Notation)

İç içe niteliklere ve esnek şemaya sahip karmaşık olay verileri için yapılandırılmış JSON formatı.

JSON Şema Seçenekleri

Olaylar Dizisi

Olay nesneleriyle basit düz yapı.

[
  {
    "caseId": "PO-001",
    "activity": "Create Order",
    "timestamp": "2024-01-15T09:00:00Z",
    "resource": "buyer.smith"
  }
]

İç İçe Yapı

Vaka ve olay iç içe geçen hiyerarşik veri.

{
  "cases": [
    {
      "caseId": "PO-001",
      "events": [
        {
          "activity": "Create Order",
          "timestamp": "2024-01-15T09:00:00Z"
        }
      ]
    }
  ]
}

JSON Eşleme Yapılandırması

{
  "schema": "flat",
  "mapping": [
    {
      "jsonPath": "$.caseId",
      "targetColumn": "CaseID",
      "dataType": "string"
    },
    {
      "jsonPath": "$.activity",
      "targetColumn": "Activity",
      "dataType": "string"
    },
    {
      "jsonPath": "$.timestamp",
      "targetColumn": "Timestamp",
      "dataType": "datetime"
    }
  ]
}

Veri Tipi Gereksinimleri

Doğru veri seti yapısı için veri tipleri ve doğrulama kurallarının anlaşılması:

Metin Alanları

Uzunluk ve karakter doğrulamasına sahip metin verileri.

  • UTF-8 kodlaması zorunlu
  • Maksimum uzunluk: 1000 karakter
  • Özel karakter işleme
  • Null değer desteği

TarihSaat Alanları

Zaman damgası verileri, zaman dilimi desteği ile.

  • Tercihen ISO 8601 formatı
  • Özel format desteği
  • Zaman dilimi dönüşümü
  • Milisaniye hassasiyeti

Sayısal Alanlar

Tamsayı ve ondalık sayı işleme.

  • 64 bit tamsayı desteği
  • Çift hassasiyetli ondalık
  • Bilimsel gösterim
  • Para birimi formatlama

Boolean Alanlar

Doğru/yanlış değer yorumlama.

  • true/false (küçük/büyük harf duyarsız)
  • 1/0 sayısal değerler
  • evet/hayır metin değerleri
  • Null işleme seçenekleri

Format Doğrulama ve Hatalar

Farklı dosya formatları için yaygın doğrulama kuralları ve hata yönetimi:

Gerekli Sütunlar

Her süreç madenciliği veri setinde bulunması gereken temel sütunlar:

  • Case ID: Her süreç örneği için benzersiz tanımlayıcı
  • Activity: Süreç adımı adı veya açıklaması
  • Timestamp: Aktivitenin gerçekleştiği zaman (zaman dilimi ile birlikte)

Yaygın Doğrulama Hataları

Hata Türü Açıklama Çözüm
Gerekli Sütun Eksik CaseID, Activity veya Timestamp bulunamadı Eksik sütunu ekleyin veya eşlemeyi güncelleyin
Geçersiz Tarih Formatı Timestamp tanınmayan formatta Özel tarih formatı şablonu belirtin
Boş Case ID Case ID sütununda boş veya null değerler Veriyi temizleyin veya satır filtresi kullanın
Çoğaltılmış Başlıklar Aynı isimde birden fazla sütun var Sütun adlarını değiştirin veya sütun indekslerini kullanın

En İyi Uygulamalar

  • Veri Kalitesi: İçe aktarmadan önce yerleşik doğrulama seçenekleriyle veriyi kontrol edin
  • Performans: 100MB üzeri dosyalar için akışlı yüklemeler kullanın
  • Kodlama: Uluslararası karakter desteği için her zaman UTF-8 kodlaması belirtin
  • Zaman Damgaları: Tüm zaman damgası verilerinde zaman dilimi bilgisini dahil edin
  • Test: Tam içe aktarım öncesi sütun eşlemelerini küçük örnek dosyalarla test edin
  • Dokümantasyon: Özel formatlar ve eşlemeleri gelecekte referans için belgeleyin