Sütun Bilgisi
Genel Bakış
Sütun Bilgisi hesaplayıcısı, etkinlik kayıt veri setinizdeki tüm öznitelikler (sütunlar) hakkında detaylı meta veriler ve istatistikler sağlar. Bu yönetim aracı, veri tipleri, değer dağılımları, boş (null) sayıları ve örnek değerler dahil olmak üzere her öznitelik hakkında kapsamlı bilgiler sunar.
ÖNEMLİ: Bu, yalnızca yönetici kullanıcılar için tasarlanmış teknik analiz ve araştırma amaçlı bir hesaplayıcıdır. Üretim kullanımı için optimize edilmemiş olup, büyük veri setlerinde işlem süresi uzun olabilir. Genel veri seti inceleme ihtiyaçları için düzenli kullanıcıların Veri Seti Bilgisi hesaplayıcısını kullanması önerilir.
Bu hesaplayıcı ağırlıklı olarak sistem yöneticileri, veri analistleri ve veri yapısı ile kalitesine dair derin içgörülere ihtiyaç duyan teknik kullanıcılar tarafından sorun giderme, veri doğrulama veya veri seti optimizasyonu için kullanılır.
Yaygın Kullanım Alanları
- Etkinlik kaydındaki tüm öznitelikler üzerinde kapsamlı veri kalitesi denetimleri yapmak
- Yüksek oranda boş veya eksik veri içeren öznitelikleri belirlemek
- Veri tipi tutarlılığını analiz etmek ve potansiyel tür dönüşüm sorunlarını tespit etmek
- Öznitelik kardinalitesi (benzersiz değer sayısı) inceleyerek kategorik analiz için adayları belirlemek
- Öznitelik seviyesinde istatistikleri inceleyerek veri çıkarımı sonuçlarını doğrulamak
- Beklenmeyen değer dağılımları olan öznitelikleri tespit ederek performans sorunlarını teşhis etmek
- Teknik spesifikasyonlar için veri seti şeması ve özelliklerini belgelemek
Ayarlar
Bu hesaplayıcının özel bir yapılandırma ayarına ihtiyacı yoktur. Çalıştırıldığında, mevcut veri setindeki tüm öznitelikleri (hem vaka seviyesinde hem etkinlik seviyesinde) otomatik olarak tarar ve her biri için kapsamlı istatistikler oluşturur.
Not: İşlem süresi, veri seti büyüklüğüne ve öznitelik sayısına bağlıdır. Çok büyük veri setlerinde bu hesaplayıcı tamamlanması birkaç dakika sürebilir.
Örnekler
Örnek 1: ETL Sonrası Veri Kalitesi Denetimi
Senaryo: ERP sisteminizden siparişten nakde veri çıkarmak için bir ETL süreci tamamladınız. Veri setini iş kullanıcılarına sunmadan önce, tüm özniteliklerin doğru çıkarıldığını ve veri tamlığının yeterli olduğunu doğrulamanız gerekiyor.
Ayarlar:
- Başlık: "ETL Sonrası Veri Kalitesi Doğrulaması"
- Açıklama: "O2C veri seti - Ocak 2025 çıkarımı"
Çıktı:
Hesaplayıcı, her öznitelik için aşağıdaki bilgileri içeren kapsamlı bir tablo gösterir:
| Öznitelik Adı | Tip | Toplam Değer | Boş Sayısı | Boş % | Benzersiz Değerler | Örnek Değerler |
|---|---|---|---|---|---|---|
| CaseID | Vaka | 2,456 | 0 | 0% | 2,456 | ORD-001, ORD-002, ORD-003 |
| CustomerName | Vaka | 2,456 | 12 | 0.5% | 847 | Acme Corp, TechStart Inc, Global... |
| OrderAmount | Vaka | 2,456 | 0 | 0% | 1,823 | 1250.00, 3400.50, 875.25 |
| Region | Vaka | 2,456 | 156 | 6.4% | 4 | Kuzey, Güney, Doğu, Batı |
| ActivityName | Etkinlik | 18,945 | 0 | 0% | 15 | Sipariş Oluştur, Sipariş Onayla, Gönder... |
| Timestamp | Etkinlik | 18,945 | 0 | 0% | 18,893 | 2025-01-15 08:23:00, 2025-01-15... |
| ApprovalLevel | Etkinlik | 18,945 | 8,234 | 43.5% | 3 | L1, L2, L3 |
| Department | Etkinlik | 18,945 | 3,456 | 18.2% | 8 | Satış, Finans, Operasyon... |
İçgörüler: Denetim, bir dizi veri kalitesi sorunu ortaya koydu. Region özniteliğinin %6.4 boş değeri ve 156 etkilenen vakası bulunuyor - bu vakalar elle incelenmeli veya veri düzeltilmeli. Daha kritik olarak, ApprovalLevel özniteliğinde %43.5 boş değer var; bu, tüm aktivitelerin onay gerektirmediğini (beklenen) ya da onay verilerinin eksik olduğunu (araştırma gerekli) gösterebilir. CustomerName’deki düşük boş oranı (%0.5) kabul edilebilir ve test siparişlerini temsil ediyor olabilir. Tüm kritik tanımlayıcılar (CaseID, Timestamp) boş değer içermemekte, veri bütünlüğü doğrulanmaktadır.
Örnek 2: Performans Sorun Giderme
Senaryo: Kullanıcılar belirli özniteliklerde filtreleme yaparken yavaş performans bildiriyor. Hangi özniteliklerin yüksek kardinaliteye (çok sayıda benzersiz değer) sahip olup, verimsiz filtrelemeye yol açtığını belirlemeniz gerekiyor.
Ayarlar:
- Başlık: "Öznitelik Kardinalite Analizi"
- Açıklama: "Filtre performans sorunları araştırması"
Çıktı:
| Öznitelik Adı | Tip | Toplam Değer | Benzersiz Değerler | Kardinalite Oranı | Veri Tipi |
|---|---|---|---|---|---|
| CaseID | Vaka | 45,678 | 45,678 | %100 | Metin |
| TransactionID | Etkinlik | 367,824 | 367,824 | %100 | Metin |
| UserComments | Etkinlik | 367,824 | 89,234 | %24.3 | Metin |
| ProductSKU | Etkinlik | 367,824 | 12,456 | %3.4 | Metin |
| Status | Vaka | 45,678 | 8 | %0.02 | Metin |
| Priority | Vaka | 45,678 | 3 | %0.007 | Metin |
İçgörüler: Analiz, öznitelikler arasında geniş bir kardinalite yelpazesi ortaya koymaktadır. CaseID ve TransactionID %100 kardinaliteye sahip (her değer benzersizdir), bu onları vaka tanımlaması için mükemmel ancak kategorik filtreleme için kötü adaylar yapar. UserComments beklenmedik şekilde yüksek kardinaliteye (%24.3) sahip, bu da standart değerler yerine serbest metin içerdiğini düşündürür - bu öznitelikte filtreleme yavaş olacaktır ve tam metin arama optimizasyonundan yararlanabilir. Buna karşılık Status (8 değer) ve Priority (3 değer) etkin filtreleme için idealdir. Bu analiz, filtre tasarımını optimize etmeye ve kullanıcıları yüksek performanslı öznitelik seçimine yönlendirmeye yardımcı olur.
Örnek 3: Entegrasyon İçin Şema Belgeleme
Senaryo: Üçüncü taraf bir satıcı ile süreç madenciliği ortamınızda entegrasyon yapılacak. Onlara mevcut öznitelikler, veri tipleri ve beklenen değer aralıkları hakkında detaylı teknik dokümantasyon sunmanız gerekiyor.
Ayarlar:
- Başlık: "Satın Alma Süreci Şema Dokümantasyonu"
- Açıklama: "API entegrasyonu için teknik spesifikasyon"
Çıktı:
| Öznitelik Adı | Öznitelik Tipi | Veri Tipi | Toplam Değer | Benzersiz Değerler | Boş Sayısı | Örnek Değerler |
|---|---|---|---|---|---|---|
| PO_Number | Vaka | Metin | 8,945 | 8,945 | 0 | PO-2025-00001, PO-2025-00002 |
| Vendor_ID | Vaka | Metin | 8,945 | 234 | 0 | V12345, V67890, V45678 |
| Total_Amount | Vaka | Ondalık | 8,945 | 7,823 | 0 | 15750.50, 2340.00, 987.25 |
| Currency | Vaka | Metin | 8,945 | 3 | 12 | USD, EUR, GBP |
| RequestDate | Vaka | TarihSaat | 8,945 | 2,456 | 0 | 2025-01-15, 2025-01-16 |
| Activity | Etkinlik | Metin | 71,560 | 12 | 0 | PO Oluştur, PO Onayla, Gönder... |
| Resource | Etkinlik | Metin | 71,560 | 145 | 234 | john.smith, sarah.jones... |
| Cost_Center | Etkinlik | Metin | 71,560 | 67 | 1,234 | CC-1001, CC-2045, CC-3012 |
İçgörüler: Şema dokümantasyonu, PO_Number’in benzersiz ve boş değeri olmayan birincil vaka tanımlayıcısı olduğunu gösterir. Tüm parasal değerler Total_Amount (ondalık türü) alanında ve Currency ayrı ayrı belirtilmiştir. Süreç, USD, EUR, GBP olmak üzere üç para birimini destekler ve 12 vakanın para birimi verisi eksik olup düzeltilmesi gerekir. Kaynak bilgisi 145 benzersiz kullanıcıya ait olup, etkinlik seviyesinde 234 boş değer var; bu bazı otomatik aktiviteleri gösterir. Cost_Center özniteliği %1.7 boş değere sahip, bazı aktiviteler için veri girişinin tamamlanmadığını işaret etmektedir. Bu kapsamlı görünüm doğru entegrasyon planlamasını sağlar.
Örnek 4: Veri Tipi Tutarsızlıklarının Tespiti
Senaryo: Çok sayıda kaynak sistemden veri birleştirdikten sonra, hesaplama hataları veya beklenmeyen analitik davranışlar yaratabilecek veri tipi tutarsızlıklarından şüpheleniyorsunuz.
Ayarlar:
- Başlık: "Veri Tipi Tutarlılık Kontrolü"
- Açıklama: "Çoklu kaynak veri doğrulaması"
Çıktı:
| Öznitelik Adı | Algılanan Tip | Toplam Değer | Tip Çakışmaları | Örnek Tutarsız Değerler |
|---|---|---|---|---|
| OrderDate | TarihSaat | 5,678 | 0 | - |
| OrderValue | Karışık | 5,678 | 23 | "1250.50", "$1,250.50", "1250,50" |
| QuantityOrdered | Tamsayı | 5,678 | 8 | "100", "100.0", "100 units" |
| CustomerID | Metin | 5,678 | 0 | - |
| IsRush | Karışık | 5,678 | 145 | "Evet", "E", "1", "true", "TRUE" |
İçgörüler: Analiz, kritik veri tipi tutarsızlıklarını ortaya koydu. OrderValue özniteliği karışık formatta - bazı değerlerde para birimi sembolleri ve farklı ondalık ayraçlar (virgül ve nokta) var; hesaplamalar öncesi veri temizlemesi gerektirir. QuantityOrdered’da 8 örnek metin eklemesi ("100 units") içeriyor, bu sayısal toplama hatalarına yol açabilir. IsRush bayrağı boolean değerlerin beş farklı temsilini içeriyor, güvenilir filtreleme için “true/false” ya da “1/0” şeklinde standartlaştırılması gereklidir. Bu sorunlar veri tutarlı kullanımı için ETL işleminde çözülmelidir.
Örnek 5: Zenginleştirme Fırsatlarının Belirlenmesi
Senaryo: Analizleri daha kullanıcı dostu yapmak için ek açıklayıcı bilgilerle zenginleştirilebilecek düşük kardinaliteli öznitelikleri belirlemek istiyorsunuz.
Ayarlar:
- Başlık: "Zenginleştirme Fırsatı Analizi"
- Açıklama: "Arama zenginleştirmesi için aday tespiti"
Çıktı:
| Öznitelik Adı | Tip | Benzersiz Değerler | Boş % | Örnek Değerler | Zenginleştirme Potansiyeli |
|---|---|---|---|---|---|
| ProductCode | Etkinlik | 45 | 0% | P001, P002, P003 | YÜKSEK - ürün adları ekle |
| StatusCode | Vaka | 8 | 0% | ST-01, ST-02, ST-03 | YÜKSEK - durum açıklamaları ekle |
| RegionCode | Vaka | 4 | 0% | R1, R2, R3, R4 | YÜKSEK - bölge isimleri ekle |
| CurrencyCode | Vaka | 3 | 0% | USD, EUR, GBP | ORTA - genel olarak anlaşılır |
| EmployeeID | Etkinlik | 234 | 2.1% | E12345, E67890 | YÜKSEK - çalışan isimleri ekle |
İçgörüler: Birkaç öznitelik, kodların zenginleştirilmesinden fayda sağlar. Sadece 45 benzersiz ürün kodu var, ürün isimlerinin eklenmesi iş kullanıcıları için analizleri çok daha okunabilir kılar. 8 durum kodu, kullanıcıların kod tablolarına başvurmaması için sade dil açıklamalarıyla desteklenmelidir. Çalışan kimlikleri gizlilik uyumuna dikkat ederek isimlerle zenginleştirilmeli. Bu zenginleştirmeler veri hacmini önemli ölçüde artırmadan kullanıcı deneyimini büyük ölçüde geliştirir.
Örnek 6: Veri Tamlığı Trendlerinin İzlenmesi
Senaryo: Düzenli veri çıkarımları yapıyorsunuz ve mevcut çıkarım istatistiklerini önceki temel verilerle karşılaştırarak veri tamlığının zamanla iyileşip iyileşmediğini veya bozulup bozulmadığını izlemek istiyorsunuz.
Ayarlar:
- Başlık: "Veri Tamlığı İzleme - Şubat 2025"
- Açıklama: "Ocak temel verisi ile karşılaştır"
Çıktı:
| Öznitelik Adı | Tip | Ocak Boş % | Şubat Boş % | Değişim | Trend |
|---|---|---|---|---|---|
| ApproverName | Etkinlik | %5.2 | %3.1 | -%2.1 | İYİLEŞTİ |
| Department | Vaka | %8.4 | %8.9 | +%0.5 | KÖTÜLEŞTİ |
| CostCenter | Etkinlik | %12.3 | %18.7 | +%6.4 | KÖTÜLEŞTİ |
| Priority | Vaka | %1.2 | %1.1 | -%0.1 | STABİL |
| DueDate | Vaka | %15.6 | %9.2 | -%6.4 | İYİLEŞTİ |
İçgörüler: Karşılaştırma değişken veri kalitesi eğilimleri gösteriyor. ApproverName boş oranı %5.2’den %3.1’e düşerek onay aşamasında veri yakalamanın iyileştiğini gösteriyor - muhtemelen yakın zamanda uygulanan süreç değişiklikleri sonucu onaylayıcı seçimi zorunlu hale gelmiş olabilir. Ancak CostCenter boş oranı %12.3’ten %18.7’ye önemli ölçüde arttı; bu, maliyet merkezi atanmasında kötüleşme olduğunu ve acilen ilgilenilmesi gerektiğini gösterir. DueDate tamlığındaki dramatik iyileşme (yüzde 15.6’dan 9.2’ye) zorunlu teslim tarihi girişinin başarılı uygulandığını yansıtır. Bu trendler devam eden veri kalitesi çalışmalarını yönlendirir.
Çıktı
Sütun Bilgisi hesaplayıcısı, etkinlik kaydınızdaki her öznitelik için detaylı istatistiklerin yer aldığı kapsamlı bir tablo gösterir. Tablo, hem vaka seviyesinde hem etkinlik seviyesinde öznitelikleri içerir ve şu bilgileri sunar:
Öznitelik Adı: Veri setinde öznitelik adı.
Öznitelik Tipi: Bu öznitelik vaka seviyesinde mi (her vaka için bir değer) yoksa etkinlik seviyesinde mi (her etkinlik için bir değer) olduğunu belirtir.
Veri Tipi: Özniteliğin algılanan veri tipi (Metin, Tamsayı, Ondalık, TarihSaat, Boolean vb.).
Toplam Değer: Bu öznitelikte mevcut toplam değer sayısı (vaka öznitelikleri için toplam vaka sayısı, etkinlik öznitelikleri için toplam etkinlik sayısı).
Boş Sayısı: Bu öznitelikteki boş veya eksik değer sayısı.
Boş Yüzdesi: Boş değerlerin yüzdesi, (Boş Sayısı / Toplam Değer) * 100 olarak hesaplanır.
Benzersiz Değerler: Bu öznitelikteki farklı benzersiz değerlerin sayısı.
Kardinalite Oranı: Benzersiz değerlerin toplam değerlere oranı (yüzde cinsinden). Yüksek kardinalite (%100’e yakın) çoğunlukla benzersiz değerlere işaret eder; düşük kardinalite birden fazla tekrar eden değer anlamına gelir.
Örnek Değerler: Özniteliğin veri biçimini ve içeriğini göstermek için genellikle 3-5 farklı örnek değer.
Min Değer: Sayısal ve tarihsel öznitelikler için minimum (en küçük/en erken) değer.
Max Değer: Sayısal ve tarihsel öznitelikler için maksimum (en büyük/en geç) değer.
Etkileşimli Özellikler
Sırala ve Filtrele: Herhangi bir metrik sütun başlığına tıklayarak sıralama yapabilirsiniz. Arama kutusunu kullanarak ilgilendiğiniz özniteliklere filtre uygulayabilirsiniz.
Sonuçları Dışa Aktar: Kapsamlı öznitelik analizini belgeler, karşılaştırmalar veya teknik ekiplerle paylaşım için Excel veya CSV formatında dışa aktarabilirsiniz.
Detaylı Analiz: Bir öznelik adına tıklayarak değer sıklık dağılımı ve daha kapsamlı örnek değerler dahil ek detaylı istatistikleri görebilirsiniz.
Performans Dikkat Edilmesi Gerekenler
- Büyük Veri Setleri: Milyonlarca etkinlik veya yüzlerce öznitelik içeren veri setlerinde analiz tamamlanması birkaç dakika sürebilir.
- Kaynak Kullanımı: Hesaplayıcı, tüm öznitelik değerleri üzerinde kapsamlı taramalar yapar, bu da yüksek bellek ve işlemci kullanımı demektir.
- En İyi Uygulamalar: Çok büyük veri setleri için bu hesaplayıcıyı yoğun olmayan zamanlarda çalıştırmak ya da işlem öncesinde filtreleme yaparak veri setini küçültmek önerilir.
Yönetici Erişimi
Bu hesaplayıcı yalnızca Yönetici rolündeki kullanıcılarla sınırlıdır. Genel kullanıcılar, kapsamlı sütun analizinin performans yükü olmadan ana metrikler sağlayan Veri Seti Bilgisi hesaplayıcısını kullanmalıdır.
Bu dokümantasyon mindzie Studio süreç madenciliği platformunun bir parçasıdır.