Sütun Bilgisi

Genel Bakış

Sütun Bilgisi hesaplayıcısı, etkinlik kayıt veri setinizdeki tüm öznitelikler (sütunlar) hakkında detaylı meta veriler ve istatistikler sağlar. Bu yönetim aracı, veri tipleri, değer dağılımları, boş (null) sayıları ve örnek değerler dahil olmak üzere her öznitelik hakkında kapsamlı bilgiler sunar.

ÖNEMLİ: Bu, yalnızca yönetici kullanıcılar için tasarlanmış teknik analiz ve araştırma amaçlı bir hesaplayıcıdır. Üretim kullanımı için optimize edilmemiş olup, büyük veri setlerinde işlem süresi uzun olabilir. Genel veri seti inceleme ihtiyaçları için düzenli kullanıcıların Veri Seti Bilgisi hesaplayıcısını kullanması önerilir.

Bu hesaplayıcı ağırlıklı olarak sistem yöneticileri, veri analistleri ve veri yapısı ile kalitesine dair derin içgörülere ihtiyaç duyan teknik kullanıcılar tarafından sorun giderme, veri doğrulama veya veri seti optimizasyonu için kullanılır.

Yaygın Kullanım Alanları

  • Etkinlik kaydındaki tüm öznitelikler üzerinde kapsamlı veri kalitesi denetimleri yapmak
  • Yüksek oranda boş veya eksik veri içeren öznitelikleri belirlemek
  • Veri tipi tutarlılığını analiz etmek ve potansiyel tür dönüşüm sorunlarını tespit etmek
  • Öznitelik kardinalitesi (benzersiz değer sayısı) inceleyerek kategorik analiz için adayları belirlemek
  • Öznitelik seviyesinde istatistikleri inceleyerek veri çıkarımı sonuçlarını doğrulamak
  • Beklenmeyen değer dağılımları olan öznitelikleri tespit ederek performans sorunlarını teşhis etmek
  • Teknik spesifikasyonlar için veri seti şeması ve özelliklerini belgelemek

Ayarlar

Bu hesaplayıcının özel bir yapılandırma ayarına ihtiyacı yoktur. Çalıştırıldığında, mevcut veri setindeki tüm öznitelikleri (hem vaka seviyesinde hem etkinlik seviyesinde) otomatik olarak tarar ve her biri için kapsamlı istatistikler oluşturur.

Not: İşlem süresi, veri seti büyüklüğüne ve öznitelik sayısına bağlıdır. Çok büyük veri setlerinde bu hesaplayıcı tamamlanması birkaç dakika sürebilir.

Örnekler

Örnek 1: ETL Sonrası Veri Kalitesi Denetimi

Senaryo: ERP sisteminizden siparişten nakde veri çıkarmak için bir ETL süreci tamamladınız. Veri setini iş kullanıcılarına sunmadan önce, tüm özniteliklerin doğru çıkarıldığını ve veri tamlığının yeterli olduğunu doğrulamanız gerekiyor.

Ayarlar:

  • Başlık: "ETL Sonrası Veri Kalitesi Doğrulaması"
  • Açıklama: "O2C veri seti - Ocak 2025 çıkarımı"

Çıktı:

Hesaplayıcı, her öznitelik için aşağıdaki bilgileri içeren kapsamlı bir tablo gösterir:

Öznitelik Adı Tip Toplam Değer Boş Sayısı Boş % Benzersiz Değerler Örnek Değerler
CaseID Vaka 2,456 0 0% 2,456 ORD-001, ORD-002, ORD-003
CustomerName Vaka 2,456 12 0.5% 847 Acme Corp, TechStart Inc, Global...
OrderAmount Vaka 2,456 0 0% 1,823 1250.00, 3400.50, 875.25
Region Vaka 2,456 156 6.4% 4 Kuzey, Güney, Doğu, Batı
ActivityName Etkinlik 18,945 0 0% 15 Sipariş Oluştur, Sipariş Onayla, Gönder...
Timestamp Etkinlik 18,945 0 0% 18,893 2025-01-15 08:23:00, 2025-01-15...
ApprovalLevel Etkinlik 18,945 8,234 43.5% 3 L1, L2, L3
Department Etkinlik 18,945 3,456 18.2% 8 Satış, Finans, Operasyon...

İçgörüler: Denetim, bir dizi veri kalitesi sorunu ortaya koydu. Region özniteliğinin %6.4 boş değeri ve 156 etkilenen vakası bulunuyor - bu vakalar elle incelenmeli veya veri düzeltilmeli. Daha kritik olarak, ApprovalLevel özniteliğinde %43.5 boş değer var; bu, tüm aktivitelerin onay gerektirmediğini (beklenen) ya da onay verilerinin eksik olduğunu (araştırma gerekli) gösterebilir. CustomerName’deki düşük boş oranı (%0.5) kabul edilebilir ve test siparişlerini temsil ediyor olabilir. Tüm kritik tanımlayıcılar (CaseID, Timestamp) boş değer içermemekte, veri bütünlüğü doğrulanmaktadır.

Örnek 2: Performans Sorun Giderme

Senaryo: Kullanıcılar belirli özniteliklerde filtreleme yaparken yavaş performans bildiriyor. Hangi özniteliklerin yüksek kardinaliteye (çok sayıda benzersiz değer) sahip olup, verimsiz filtrelemeye yol açtığını belirlemeniz gerekiyor.

Ayarlar:

  • Başlık: "Öznitelik Kardinalite Analizi"
  • Açıklama: "Filtre performans sorunları araştırması"

Çıktı:

Öznitelik Adı Tip Toplam Değer Benzersiz Değerler Kardinalite Oranı Veri Tipi
CaseID Vaka 45,678 45,678 %100 Metin
TransactionID Etkinlik 367,824 367,824 %100 Metin
UserComments Etkinlik 367,824 89,234 %24.3 Metin
ProductSKU Etkinlik 367,824 12,456 %3.4 Metin
Status Vaka 45,678 8 %0.02 Metin
Priority Vaka 45,678 3 %0.007 Metin

İçgörüler: Analiz, öznitelikler arasında geniş bir kardinalite yelpazesi ortaya koymaktadır. CaseID ve TransactionID %100 kardinaliteye sahip (her değer benzersizdir), bu onları vaka tanımlaması için mükemmel ancak kategorik filtreleme için kötü adaylar yapar. UserComments beklenmedik şekilde yüksek kardinaliteye (%24.3) sahip, bu da standart değerler yerine serbest metin içerdiğini düşündürür - bu öznitelikte filtreleme yavaş olacaktır ve tam metin arama optimizasyonundan yararlanabilir. Buna karşılık Status (8 değer) ve Priority (3 değer) etkin filtreleme için idealdir. Bu analiz, filtre tasarımını optimize etmeye ve kullanıcıları yüksek performanslı öznitelik seçimine yönlendirmeye yardımcı olur.

Örnek 3: Entegrasyon İçin Şema Belgeleme

Senaryo: Üçüncü taraf bir satıcı ile süreç madenciliği ortamınızda entegrasyon yapılacak. Onlara mevcut öznitelikler, veri tipleri ve beklenen değer aralıkları hakkında detaylı teknik dokümantasyon sunmanız gerekiyor.

Ayarlar:

  • Başlık: "Satın Alma Süreci Şema Dokümantasyonu"
  • Açıklama: "API entegrasyonu için teknik spesifikasyon"

Çıktı:

Öznitelik Adı Öznitelik Tipi Veri Tipi Toplam Değer Benzersiz Değerler Boş Sayısı Örnek Değerler
PO_Number Vaka Metin 8,945 8,945 0 PO-2025-00001, PO-2025-00002
Vendor_ID Vaka Metin 8,945 234 0 V12345, V67890, V45678
Total_Amount Vaka Ondalık 8,945 7,823 0 15750.50, 2340.00, 987.25
Currency Vaka Metin 8,945 3 12 USD, EUR, GBP
RequestDate Vaka TarihSaat 8,945 2,456 0 2025-01-15, 2025-01-16
Activity Etkinlik Metin 71,560 12 0 PO Oluştur, PO Onayla, Gönder...
Resource Etkinlik Metin 71,560 145 234 john.smith, sarah.jones...
Cost_Center Etkinlik Metin 71,560 67 1,234 CC-1001, CC-2045, CC-3012

İçgörüler: Şema dokümantasyonu, PO_Number’in benzersiz ve boş değeri olmayan birincil vaka tanımlayıcısı olduğunu gösterir. Tüm parasal değerler Total_Amount (ondalık türü) alanında ve Currency ayrı ayrı belirtilmiştir. Süreç, USD, EUR, GBP olmak üzere üç para birimini destekler ve 12 vakanın para birimi verisi eksik olup düzeltilmesi gerekir. Kaynak bilgisi 145 benzersiz kullanıcıya ait olup, etkinlik seviyesinde 234 boş değer var; bu bazı otomatik aktiviteleri gösterir. Cost_Center özniteliği %1.7 boş değere sahip, bazı aktiviteler için veri girişinin tamamlanmadığını işaret etmektedir. Bu kapsamlı görünüm doğru entegrasyon planlamasını sağlar.

Örnek 4: Veri Tipi Tutarsızlıklarının Tespiti

Senaryo: Çok sayıda kaynak sistemden veri birleştirdikten sonra, hesaplama hataları veya beklenmeyen analitik davranışlar yaratabilecek veri tipi tutarsızlıklarından şüpheleniyorsunuz.

Ayarlar:

  • Başlık: "Veri Tipi Tutarlılık Kontrolü"
  • Açıklama: "Çoklu kaynak veri doğrulaması"

Çıktı:

Öznitelik Adı Algılanan Tip Toplam Değer Tip Çakışmaları Örnek Tutarsız Değerler
OrderDate TarihSaat 5,678 0 -
OrderValue Karışık 5,678 23 "1250.50", "$1,250.50", "1250,50"
QuantityOrdered Tamsayı 5,678 8 "100", "100.0", "100 units"
CustomerID Metin 5,678 0 -
IsRush Karışık 5,678 145 "Evet", "E", "1", "true", "TRUE"

İçgörüler: Analiz, kritik veri tipi tutarsızlıklarını ortaya koydu. OrderValue özniteliği karışık formatta - bazı değerlerde para birimi sembolleri ve farklı ondalık ayraçlar (virgül ve nokta) var; hesaplamalar öncesi veri temizlemesi gerektirir. QuantityOrdered’da 8 örnek metin eklemesi ("100 units") içeriyor, bu sayısal toplama hatalarına yol açabilir. IsRush bayrağı boolean değerlerin beş farklı temsilini içeriyor, güvenilir filtreleme için “true/false” ya da “1/0” şeklinde standartlaştırılması gereklidir. Bu sorunlar veri tutarlı kullanımı için ETL işleminde çözülmelidir.

Örnek 5: Zenginleştirme Fırsatlarının Belirlenmesi

Senaryo: Analizleri daha kullanıcı dostu yapmak için ek açıklayıcı bilgilerle zenginleştirilebilecek düşük kardinaliteli öznitelikleri belirlemek istiyorsunuz.

Ayarlar:

  • Başlık: "Zenginleştirme Fırsatı Analizi"
  • Açıklama: "Arama zenginleştirmesi için aday tespiti"

Çıktı:

Öznitelik Adı Tip Benzersiz Değerler Boş % Örnek Değerler Zenginleştirme Potansiyeli
ProductCode Etkinlik 45 0% P001, P002, P003 YÜKSEK - ürün adları ekle
StatusCode Vaka 8 0% ST-01, ST-02, ST-03 YÜKSEK - durum açıklamaları ekle
RegionCode Vaka 4 0% R1, R2, R3, R4 YÜKSEK - bölge isimleri ekle
CurrencyCode Vaka 3 0% USD, EUR, GBP ORTA - genel olarak anlaşılır
EmployeeID Etkinlik 234 2.1% E12345, E67890 YÜKSEK - çalışan isimleri ekle

İçgörüler: Birkaç öznitelik, kodların zenginleştirilmesinden fayda sağlar. Sadece 45 benzersiz ürün kodu var, ürün isimlerinin eklenmesi iş kullanıcıları için analizleri çok daha okunabilir kılar. 8 durum kodu, kullanıcıların kod tablolarına başvurmaması için sade dil açıklamalarıyla desteklenmelidir. Çalışan kimlikleri gizlilik uyumuna dikkat ederek isimlerle zenginleştirilmeli. Bu zenginleştirmeler veri hacmini önemli ölçüde artırmadan kullanıcı deneyimini büyük ölçüde geliştirir.

Örnek 6: Veri Tamlığı Trendlerinin İzlenmesi

Senaryo: Düzenli veri çıkarımları yapıyorsunuz ve mevcut çıkarım istatistiklerini önceki temel verilerle karşılaştırarak veri tamlığının zamanla iyileşip iyileşmediğini veya bozulup bozulmadığını izlemek istiyorsunuz.

Ayarlar:

  • Başlık: "Veri Tamlığı İzleme - Şubat 2025"
  • Açıklama: "Ocak temel verisi ile karşılaştır"

Çıktı:

Öznitelik Adı Tip Ocak Boş % Şubat Boş % Değişim Trend
ApproverName Etkinlik %5.2 %3.1 -%2.1 İYİLEŞTİ
Department Vaka %8.4 %8.9 +%0.5 KÖTÜLEŞTİ
CostCenter Etkinlik %12.3 %18.7 +%6.4 KÖTÜLEŞTİ
Priority Vaka %1.2 %1.1 -%0.1 STABİL
DueDate Vaka %15.6 %9.2 -%6.4 İYİLEŞTİ

İçgörüler: Karşılaştırma değişken veri kalitesi eğilimleri gösteriyor. ApproverName boş oranı %5.2’den %3.1’e düşerek onay aşamasında veri yakalamanın iyileştiğini gösteriyor - muhtemelen yakın zamanda uygulanan süreç değişiklikleri sonucu onaylayıcı seçimi zorunlu hale gelmiş olabilir. Ancak CostCenter boş oranı %12.3’ten %18.7’ye önemli ölçüde arttı; bu, maliyet merkezi atanmasında kötüleşme olduğunu ve acilen ilgilenilmesi gerektiğini gösterir. DueDate tamlığındaki dramatik iyileşme (yüzde 15.6’dan 9.2’ye) zorunlu teslim tarihi girişinin başarılı uygulandığını yansıtır. Bu trendler devam eden veri kalitesi çalışmalarını yönlendirir.

Çıktı

Sütun Bilgisi hesaplayıcısı, etkinlik kaydınızdaki her öznitelik için detaylı istatistiklerin yer aldığı kapsamlı bir tablo gösterir. Tablo, hem vaka seviyesinde hem etkinlik seviyesinde öznitelikleri içerir ve şu bilgileri sunar:

Öznitelik Adı: Veri setinde öznitelik adı.

Öznitelik Tipi: Bu öznitelik vaka seviyesinde mi (her vaka için bir değer) yoksa etkinlik seviyesinde mi (her etkinlik için bir değer) olduğunu belirtir.

Veri Tipi: Özniteliğin algılanan veri tipi (Metin, Tamsayı, Ondalık, TarihSaat, Boolean vb.).

Toplam Değer: Bu öznitelikte mevcut toplam değer sayısı (vaka öznitelikleri için toplam vaka sayısı, etkinlik öznitelikleri için toplam etkinlik sayısı).

Boş Sayısı: Bu öznitelikteki boş veya eksik değer sayısı.

Boş Yüzdesi: Boş değerlerin yüzdesi, (Boş Sayısı / Toplam Değer) * 100 olarak hesaplanır.

Benzersiz Değerler: Bu öznitelikteki farklı benzersiz değerlerin sayısı.

Kardinalite Oranı: Benzersiz değerlerin toplam değerlere oranı (yüzde cinsinden). Yüksek kardinalite (%100’e yakın) çoğunlukla benzersiz değerlere işaret eder; düşük kardinalite birden fazla tekrar eden değer anlamına gelir.

Örnek Değerler: Özniteliğin veri biçimini ve içeriğini göstermek için genellikle 3-5 farklı örnek değer.

Min Değer: Sayısal ve tarihsel öznitelikler için minimum (en küçük/en erken) değer.

Max Değer: Sayısal ve tarihsel öznitelikler için maksimum (en büyük/en geç) değer.

Etkileşimli Özellikler

Sırala ve Filtrele: Herhangi bir metrik sütun başlığına tıklayarak sıralama yapabilirsiniz. Arama kutusunu kullanarak ilgilendiğiniz özniteliklere filtre uygulayabilirsiniz.

Sonuçları Dışa Aktar: Kapsamlı öznitelik analizini belgeler, karşılaştırmalar veya teknik ekiplerle paylaşım için Excel veya CSV formatında dışa aktarabilirsiniz.

Detaylı Analiz: Bir öznelik adına tıklayarak değer sıklık dağılımı ve daha kapsamlı örnek değerler dahil ek detaylı istatistikleri görebilirsiniz.

Performans Dikkat Edilmesi Gerekenler

  • Büyük Veri Setleri: Milyonlarca etkinlik veya yüzlerce öznitelik içeren veri setlerinde analiz tamamlanması birkaç dakika sürebilir.
  • Kaynak Kullanımı: Hesaplayıcı, tüm öznitelik değerleri üzerinde kapsamlı taramalar yapar, bu da yüksek bellek ve işlemci kullanımı demektir.
  • En İyi Uygulamalar: Çok büyük veri setleri için bu hesaplayıcıyı yoğun olmayan zamanlarda çalıştırmak ya da işlem öncesinde filtreleme yaparak veri setini küçültmek önerilir.

Yönetici Erişimi

Bu hesaplayıcı yalnızca Yönetici rolündeki kullanıcılarla sınırlıdır. Genel kullanıcılar, kapsamlı sütun analizinin performans yükü olmadan ana metrikler sağlayan Veri Seti Bilgisi hesaplayıcısını kullanmalıdır.


Bu dokümantasyon mindzie Studio süreç madenciliği platformunun bir parçasıdır.