Dosya Formatları
Desteklenen Veri Formatları
Süreç madenciliği veri setleri için desteklenen dosya formatları, veri yapıları ve sütun eşleme gereksinimleri hakkında bilgi edinin.
CSV (Virgülle Ayrılmış Değerler)
Süreç madenciliği verileri için en yaygın kullanılan, esnek ayrıştırma seçeneklerine sahip format.
Format Spesifikasyonları
| Seçenek | Açıklama | Varsayılan | Örnek |
|---|---|---|---|
delimiter |
Alan ayırıcı karakter | virgül (,) | noktalı virgül (;), tab (\t) |
encoding |
Karakter kodlaması | UTF-8 | ISO-8859-1, Windows-1252 |
hasHeader |
İlk satır sütun adlarını içerir | true | true, false |
quoteChar |
Metin ayırıcı karakter | çift tırnak (") | tek tırnak (') |
Örnek CSV Yapısı
CaseID,Activity,Timestamp,Resource,Amount
PO-001,Create Order,2024-01-15T09:00:00Z,buyer.smith,1500.00
PO-001,Approve Order,2024-01-15T10:30:00Z,manager.jones,1500.00
PO-001,Send to Supplier,2024-01-15T11:00:00Z,system.auto,1500.00
PO-002,Create Order,2024-01-15T09:15:00Z,buyer.brown,2750.50
Sütun Eşleme Yapılandırması
{
"mapping": [
{
"sourceColumn": "CaseID",
"targetColumn": "CaseID",
"dataType": "string",
"role": "case_id"
},
{
"sourceColumn": "Activity",
"targetColumn": "Activity",
"dataType": "string",
"role": "activity"
},
{
"sourceColumn": "Timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime",
"role": "timestamp",
"format": "ISO8601"
}
],
"options": {
"hasHeader": true,
"delimiter": ",",
"encoding": "UTF-8"
}
}
Excel Dosyaları (.xlsx, .xls)
Microsoft Excel çalışma kitapları, çoklu çalışma sayfası ve gelişmiş biçimlendirme desteği ile.
Desteklenen Özellikler
Dosya Türleri
- .xlsx (Excel 2007 ve sonrası)
- .xls (Excel 97-2003)
- .xlsm (Makro destekli)
Çalışma Sayfası İşleme
- Çoklu çalışma sayfası desteği
- Belirli sayfa seçimi
- Aralık bazlı içe aktarma
Veri Tanıma
- Otomatik tarih/saat algılama
- Sayısal format korunumu
- Metin biçimlendirme temizliği
Excel İçe Aktarma Yapılandırması
{
"worksheetName": "ProcessEvents",
"range": "A1:E1000",
"hasHeader": true,
"startRow": 1,
"mapping": [
{
"sourceColumn": "Order ID",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"sourceColumn": "Event Date",
"targetColumn": "Timestamp",
"dataType": "datetime",
"format": "MM/dd/yyyy HH:mm:ss"
}
]
}
XES (eXtensible Event Stream)
Süreç madenciliği için IEEE standart formatı, olay nitelikleri ve uzantıları için tam destek sağlar.
XES Spesifikasyon Desteği
| Öğe | Destek Seviyesi | Açıklama |
|---|---|---|
| Log | Tam | Günlük seviyesinde nitelikler ve meta veriler |
| Trace | Tam | Vaka seviyesinde nitelikler ve olaylar |
| Event | Tam | Aktivite seviyesi veri ve nitelikler |
| Extensions | Kısmi | Standart uzantılar (concept, time, lifecycle) |
Örnek XES Yapısı
<?xml version="1.0" encoding="UTF-8" ?>
<log xes.version="1.0" xmlns="http://www.xes-standard.org/">
<extension name="Concept" prefix="concept" uri="http://www.xes-standard.org/concept.xesext"/>
<extension name="Time" prefix="time" uri="http://www.xes-standard.org/time.xesext"/>
<trace>
<string key="concept:name" value="PO-001"/>
<event>
<string key="concept:name" value="Create Order"/>
<date key="time:timestamp" value="2024-01-15T09:00:00.000Z"/>
<string key="org:resource" value="buyer.smith"/>
</event>
<event>
<string key="concept:name" value="Approve Order"/>
<date key="time:timestamp" value="2024-01-15T10:30:00.000Z"/>
<string key="org:resource" value="manager.jones"/>
</event>
</trace>
</log>
JSON (JavaScript Object Notation)
İç içe niteliklere ve esnek şemaya sahip karmaşık olay verileri için yapılandırılmış JSON formatı.
JSON Şema Seçenekleri
Olaylar Dizisi
Olay nesneleriyle basit düz yapı.
[
{
"caseId": "PO-001",
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z",
"resource": "buyer.smith"
}
]
İç İçe Yapı
Vaka ve olay iç içe geçen hiyerarşik veri.
{
"cases": [
{
"caseId": "PO-001",
"events": [
{
"activity": "Create Order",
"timestamp": "2024-01-15T09:00:00Z"
}
]
}
]
}
JSON Eşleme Yapılandırması
{
"schema": "flat",
"mapping": [
{
"jsonPath": "$.caseId",
"targetColumn": "CaseID",
"dataType": "string"
},
{
"jsonPath": "$.activity",
"targetColumn": "Activity",
"dataType": "string"
},
{
"jsonPath": "$.timestamp",
"targetColumn": "Timestamp",
"dataType": "datetime"
}
]
}
Veri Tipi Gereksinimleri
Doğru veri seti yapısı için veri tipleri ve doğrulama kurallarının anlaşılması:
Metin Alanları
Uzunluk ve karakter doğrulamasına sahip metin verileri.
- UTF-8 kodlaması zorunlu
- Maksimum uzunluk: 1000 karakter
- Özel karakter işleme
- Null değer desteği
TarihSaat Alanları
Zaman damgası verileri, zaman dilimi desteği ile.
- Tercihen ISO 8601 formatı
- Özel format desteği
- Zaman dilimi dönüşümü
- Milisaniye hassasiyeti
Sayısal Alanlar
Tamsayı ve ondalık sayı işleme.
- 64 bit tamsayı desteği
- Çift hassasiyetli ondalık
- Bilimsel gösterim
- Para birimi formatlama
Boolean Alanlar
Doğru/yanlış değer yorumlama.
- true/false (küçük/büyük harf duyarsız)
- 1/0 sayısal değerler
- evet/hayır metin değerleri
- Null işleme seçenekleri
Format Doğrulama ve Hatalar
Farklı dosya formatları için yaygın doğrulama kuralları ve hata yönetimi:
Gerekli Sütunlar
Her süreç madenciliği veri setinde bulunması gereken temel sütunlar:
- Case ID: Her süreç örneği için benzersiz tanımlayıcı
- Activity: Süreç adımı adı veya açıklaması
- Timestamp: Aktivitenin gerçekleştiği zaman (zaman dilimi ile birlikte)
Yaygın Doğrulama Hataları
| Hata Türü | Açıklama | Çözüm |
|---|---|---|
| Gerekli Sütun Eksik | CaseID, Activity veya Timestamp bulunamadı | Eksik sütunu ekleyin veya eşlemeyi güncelleyin |
| Geçersiz Tarih Formatı | Timestamp tanınmayan formatta | Özel tarih formatı şablonu belirtin |
| Boş Case ID | Case ID sütununda boş veya null değerler | Veriyi temizleyin veya satır filtresi kullanın |
| Çoğaltılmış Başlıklar | Aynı isimde birden fazla sütun var | Sütun adlarını değiştirin veya sütun indekslerini kullanın |
En İyi Uygulamalar
- Veri Kalitesi: İçe aktarmadan önce yerleşik doğrulama seçenekleriyle veriyi kontrol edin
- Performans: 100MB üzeri dosyalar için akışlı yüklemeler kullanın
- Kodlama: Uluslararası karakter desteği için her zaman UTF-8 kodlaması belirtin
- Zaman Damgaları: Tüm zaman damgası verilerinde zaman dilimi bilgisini dahil edin
- Test: Tam içe aktarım öncesi sütun eşlemelerini küçük örnek dosyalarla test edin
- Dokümantasyon: Özel formatlar ve eşlemeleri gelecekte referans için belgeleyin