Büyük Harf
Genel Bakış
Büyük Harf zenginleştirmesi, seçilen niteliklerdeki tüm metin değerlerini veri kümeniz boyunca büyük harflerle dönüştüren bir veri standartlaştırma operatörüdür. Bu dönüşüm, süreç verilerinizde tutarlı metin biçimlendirmesi sağlar ve büyük/küçük harf duyarsız eşleştirme, filtreleme ve analiz işlemlerinin güvenilir şekilde yapılmasına olanak tanır. Müşteri isimlerinin sistemler arasında farklı şekilde girildiği veya ürün kodlarının karışık büyük-küçük harf kullanımı olduğu birden çok kaynaktan gelen verilerle çalışırken, bu zenginleştirme büyük harfle standartlaştırılmış tutarlı biçim oluşturur ve büyük/küçük harf ile ilgili veri kalitesi sorunlarını ortadan kaldırır.
Metni büyük harfe standartlaştırarak, bu zenginleştirme, aynı varlığın büyük/küçük harf farklılıkları nedeniyle farklı göründüğü süreç madenciliğinde yaygın olarak karşılaşılan zorlukları çözer. Örneğin, "Acme Corp", "ACME CORP" ve "acme corp" gibi müşteri isimleri standartlaştırma yapılmazsa üç ayrı değer olarak değerlendirilir ve analiziniz parçalanır. Büyük Harf zenginleştirmesi bu farklılıkları birleştirerek müşteri analizi, ürün kategorilendirme ve kaynak kullanımında doğru metrikler sağlar. Bu standartlaştırma, örüntü tanıma için tutarlı etkinlik isimleri ve niteliklerin kritik olduğu uygunluk kontrolü için veri hazırlarken özellikle önemlidir.
Zenginleştirme, metin niteliklerini vaka seviyesinde işler ve orijinal veri yapısını koruyarak her metin değerini dönüştürür. Manuel metin manipülasyonunun neden olduğu hata ve tutarsızlık risklerinin aksine, otomatik bu yaklaşım seçilen niteliğin her örneğinin tüm vakalarda tutarlı biçimde dönüştürülmesini sağlar.
Yaygın Kullanımlar
- Müşteri yolculuğu analizi ve segmentasyonu için müşteri isimlerini ve şirket tanımlayıcılarını standartlaştırmak
- Farklı sistemlerde büyük/küçük harf tutarsızlığı olan ürün kodlarını ve SKU'ları normalize etmek
- Çoklu kaynaklardan gelen verilerin büyük/küçük harfe duyarsız birleştirmesi için metin niteliklerini hazırlamak
- Kaynak sistemlerin farklı büyük/küçük harf kullanımı konvansiyonları uyguladığı durumlarda süreç keşfi için tutarlı etkinlik isimleri oluşturmak
- Yer kodları, bölüm isimleri ve organizasyon birimlerini doğru kaynak analizleri için standartlaştırmak
- Referans numaraları ve tanımlayıcıları güvenilir filtreleme ve gruplama işlemleri için tutarlı biçimde formatlamak
- Harici sistemlerle entegrasyon için metin verilerini büyük harf gereksinimine göre hazırlamak
Ayarlar
Nitelik Adı: Değerlerini büyük harfe dönüştürmek istediğiniz metin niteliğini seçin. Açılır liste veri kümenizden gizli sütunlar hariç tüm mevcut metin (string) niteliklerini gösterir. Dönüştürmek için tam olarak bir nitelik seçmelisiniz. Zenginleştirme, seçilen niteliğin tüm vakalarındaki her değeri işleyerek küçük harf ve karışık harfli metinleri büyük harfe dönüştürür, zaten büyük harf olan metinleri değiştirmez. Sadece string veri türündeki nitelikler seçim için uygundur.
Örnekler
Örnek 1: Sipariş İşleme Sürecinde Müşteri İsimlerinin Standartlaştırılması
Senaryo: Bir dağıtım şirketinin sipariş yönetim sistemi, web siparişleri, telefon siparişleri ve EDI aktarımları gibi farklı veri giriş noktalarından gelen tutarsız büyük/küçük harf kullanımına sahip müşteri isimleri içeriyor. Bu durum müşteri analizlerini parçalıyor ve sipariş hacmi hesaplamalarında hatalara neden oluyor.
Ayarlar:
- Nitelik Adı: Customer_Name
Zenginleştirme Öncesi: | Vaka ID | Customer_Name | Order_Value | Bölge | |---------|--------------|-------------|---------| | ORD-001 | Acme Corporation | 15000 | Kuzey | | ORD-002 | ACME CORPORATION | 22000 | Kuzey | | ORD-003 | acme corporation | 18500 | Kuzey | | ORD-004 | Beta Industries | 9500 | Güney | | ORD-005 | BETA INDUSTRIES | 11000 | Güney |
Zenginleştirme Sonrası: | Vaka ID | Customer_Name | Order_Value | Bölge | |---------|--------------|-------------|---------| | ORD-001 | ACME CORPORATION | 15000 | Kuzey | | ORD-002 | ACME CORPORATION | 22000 | Kuzey | | ORD-003 | ACME CORPORATION | 18500 | Kuzey | | ORD-004 | BETA INDUSTRIES | 9500 | Güney | | ORD-005 | BETA INDUSTRIES | 11000 | Güney |
Çıktı: Customer_Name niteliğindeki tüm değerler büyük harfe dönüştürülmüştür. "Acme Corporation"ın üç varyasyonu "ACME CORPORATION" olarak birleştirilmiş ve "Beta Industries" varyasyonları "BETA INDUSTRIES" olarak standartlaştırılmıştır.
Analiz: Standartlaştırma sonrası şirket, Acme Corporation’ın aslında toplamda 55.500 sipariş hacmine sahip olduğunu (üç ayrı müşteri olarak değil) keşfetmiş ve en büyük müşteri olduğunu tespit etmiştir. Bu doğru görünüm doğru hesap önceliği verilmesini sağlamış ve gelirlerin %30’unun adı büyük/küçük harf farklılığı olan müşterilerden geldiğini ortaya koymuştur.
Örnek 2: Üretimde Ürün Kodlarının Normalize Edilmesi
Senaryo: Bir üretim tesisinin kalite kontrol sistemi ürün koduna göre defektleri izliyor, ancak farklı vardiyalardaki operatörler kodları farklı büyük/küçük harf kalıplarıyla giriyor, bu da ürün bazında doğru defekt oranı analizini engelliyor.
Ayarlar:
- Nitelik Adı: Product_Code
Zenginleştirme Öncesi: | Vaka ID | Product_Code | Defect_Type | Vardiya | Ciddiyet | |---------|-------------|-------------|-------|----------| | QC-001 | prd-A1234 | Yüzey | Gün | Hafif | | QC-002 | PRD-A1234 | Yüzey | Gece | Hafif | | QC-003 | Prd-A1234 | Boyut | Akşam | Şiddetli | | QC-004 | prd-b5678 | Montaj | Gün | Kritik | | QC-005 | PRD-B5678 | Montaj | Gece | Kritik |
Zenginleştirme Sonrası: | Vaka ID | Product_Code | Defect_Type | Vardiya | Ciddiyet | |---------|-------------|-------------|-------|----------| | QC-001 | PRD-A1234 | Yüzey | Gün | Hafif | | QC-002 | PRD-A1234 | Yüzey | Gece | Hafif | | QC-003 | PRD-A1234 | Boyut | Akşam | Şiddetli | | QC-004 | PRD-B5678 | Montaj | Gün | Kritik | | QC-005 | PRD-B5678 | Montaj | Gece | Kritik |
Çıktı: Product_Code değerlerinin tümü büyük harfe dönüştürülmüş, ürün A1234’ün üç varyasyonu "PRD-A1234" olarak, ürün B5678’in iki varyasyonu "PRD-B5678" olarak birleştirilmiştir.
Analiz: Standartlaştırma, PRD-A1234 ürününün tüm vardiyalarda %60 defekt oranı olduğunu (5 üretimden 3 hata) ortaya çıkarmış ve hemen kalite incelemesi başlatmıştır. Önceden her büyük/küçük harf varyantı ayrı analiz edildiğinde kabul edilebilir defekt oranlarına sahip görünüyordu.
Örnek 3: Sağlıkta Bölüm Kodlarının Standartlaştırılması
Senaryo: Bir hastanenin hasta akış sistemi, personelin farklı büyük/küçük harf düzenlerinde girdiği bölüm kodlarını kullanıyor, bu durum hasta bekleme süreleri ve bölüm kullanımını doğru şekilde takip etmeyi engelliyor.
Ayarlar:
- Nitelik Adı: Department_Code
Zenginleştirme Öncesi: | Vaka ID | Hasta_ID | Department_Code | Bekleme_Süresi | Öncelik | |---------|----------|-----------------|----------------|---------| | ADM-001 | P1234 | ER-main | 45 | Yüksek | | ADM-002 | P1235 | er-Main | 38 | Yüksek | | ADM-003 | P1236 | ER-MAIN | 52 | Kritik | | ADM-004 | P1237 | icu-west | 15 | Orta | | ADM-005 | P1238 | ICU-West | 18 | Düşük |
Zenginleştirme Sonrası: | Vaka ID | Hasta_ID | Department_Code | Bekleme_Süresi | Öncelik | |---------|----------|-----------------|----------------|---------| | ADM-001 | P1234 | ER-MAIN | 45 | Yüksek | | ADM-002 | P1235 | ER-MAIN | 38 | Yüksek | | ADM-003 | P1236 | ER-MAIN | 52 | Kritik | | ADM-004 | P1237 | ICU-WEST | 15 | Orta | | ADM-005 | P1238 | ICU-WEST | 18 | Düşük |
Çıktı: Department_Code değerleri büyük harfe standartlaştırılarak acil servis kodunun üç varyasyonu "ER-MAIN" ve yoğun bakım batı kodunun varyasyonları "ICU-WEST" olarak birleştirilmiştir.
Analiz: Standartlaştırmadan sonra hastane, ER-MAIN bölümündeki ortalama bekleme süresinin tüm hastalar için 45 dakika olduğunu (hedef 30 dakika) tespit etmiştir. Bu doğru bölüm görünümü kaynakların yeniden tahsis edilmesini sağlamış ve bekleme süresini %25 azaltmıştır.
Örnek 4: Lojistikte Bölge Kodlarının Birleştirilmesi
Senaryo: Bir lojistik firmasının sevkiyat takip sistemi, farklı rezervasyon kanallarından gelen karışık büyük/küçük harf kullanımlı bölge kodları içeriyor, bu da bölgesel performans analizini ve rota optimizasyonunu engelliyor.
Ayarlar:
- Nitelik Adı: Region_Code
Zenginleştirme Öncesi: | Vaka ID | Shipment_ID | Region_Code | Teslimat_Günleri | Hizmet_Tipi | |---------|------------|-------------|------------------|-------------| | SHP-001 | S1234 | na-west | 3 | Ekspres | | SHP-002 | S1235 | NA-WEST | 2 | Ekspres | | SHP-003 | S1236 | Na-West | 4 | Standart | | SHP-004 | S1237 | eu-central | 5 | Standart | | SHP-005 | S1238 | EU-Central | 6 | Ekonomik |
Zenginleştirme Sonrası: | Vaka ID | Shipment_ID | Region_Code | Teslimat_Günleri | Hizmet_Tipi | |---------|------------|-------------|------------------|-------------| | SHP-001 | S1234 | NA-WEST | 3 | Ekspres | | SHP-002 | S1235 | NA-WEST | 2 | Ekspres | | SHP-003 | S1236 | NA-WEST | 4 | Standart | | SHP-004 | S1237 | EU-CENTRAL | 5 | Standart | | SHP-005 | S1238 | EU-CENTRAL | 6 | Ekonomik |
Çıktı: Region_Code değerleri büyük harfe dönüştürülmüş ve farklı büyük/küçük harf biçimleri tutarlı bölge kodlarında birleştirilmiştir.
Analiz: Standartlaştırma, NA-WEST bölgesinin tüm teslimatlarda ortalama 3 günlük süre ile SLA gereksinimlerini karşıladığını göstermiştir. Önceden dağınık veriler, büyük/küçük harf varyantlarının analiz parçalanmasına neden olarak bazı bölgelerin düşük performans gösterdiği izlenimini yaratıyordu.
Örnek 5: Finansal İşlemede Durum Kodlarının Normalize Edilmesi
Senaryo: Bir bankanın kredi işlem sistemi, temsilcilerin farklı büyük/küçük harf kullanımıyla girdiği durum kodlarına sahiptir, bu da kredi süreci aşamalarının takip edilmesini ve darboğazların doğru tespitini zorlaştırmaktadır.
Ayarlar:
- Nitelik Adı: Status_Code
Zenginleştirme Öncesi: | Vaka ID | Loan_ID | Status_Code | Tutar | Durumdaki_Gün_Sayısı | |---------|---------|-------------|-------|----------------------| | LN-001 | L1234 | approved | 50000 | 2 | | LN-002 | L1235 | APPROVED | 75000 | 3 | | LN-003 | L1236 | Approved | 45000 | 2 | | LN-004 | L1237 | pending | 100000 | 5 | | LN-005 | L1238 | PENDING | 85000 | 7 |
Zenginleştirme Sonrası: | Vaka ID | Loan_ID | Status_Code | Tutar | Durumdaki_Gün_Sayısı | |---------|---------|-------------|-------|----------------------| | LN-001 | L1234 | APPROVED | 50000 | 2 | | LN-002 | L1235 | APPROVED | 75000 | 3 | | LN-003 | L1236 | APPROVED | 45000 | 2 | | LN-004 | L1237 | PENDING | 100000 | 5 | | LN-005 | L1238 | PENDING | 85000 | 7 |
Çıktı: Status_Code değerleri büyük harfe standartlaştırılmıştır. Durum varyasyonları tutarlı değerlere dönüştürülerek doğru borç pipeline analizine olanak sağlamıştır.
Analiz: Standartlaştırma sonrası banka, onaylı durumda olan kredilerin (daha önce düşünüldüğünün aksine 50.000 değil) 170.000 olduğunu ve bu nedenle hemen fonlama düzenlemesi yapılması gerektiğini keşfetmiştir. Beklemede olan başvurular ise ortalama 6 günlük inceleme süresine sahip 185.000 tutarındadır ve ek underwriting kaynaklarına ihtiyaç olduğunu göstermiştir.
Çıktı
Büyük Harf zenginleştirmesi, seçilen metin niteliğinde tüm string değerleri büyük harfe dönüştürür ve doğrudan yerinde değişiklik yapar. Dönüşüm yalnızca seçilen niteliğe uygulanırken diğer nitelikler değiştirilmeden kalır. Zenginleştirme standart tüm metin karakterlerini işleyerek küçük harfleri (a-z) büyük harf karşılıklarına (A-Z) dönüştürür, büyük harfleri, sayıları, özel karakterleri ve sembolleri değiştirmez.
Değiştirilen nitelik orijinal sütun adını ve veri yapısındaki konumunu korur. Tüm vaka seviyesindeki veri ilişkileri korunur ve nitelik filtreler, hesaplayıcılar ve diğer zenginleştirmelerde kullanılmaya devam eder. Boş stringler ve null değerler uygun şekilde işlenir — null değerler null olarak kalır, boş stringler boş string olarak kalır.
Bu zenginleştirmeyi uyguladıktan sonra standartlaştırılmış büyük harfli metin, mindzie Studio'da güvenilir büyük/küçük harfe duyarsız işlemleri mümkün kılar. Dönüştürülmüş niteliği uygunluk kontrolü gibi tutarlı metin eşleşmesinin kritik olduğu durumlarda rahatlıkla kullanabilirsiniz. Büyük harfli değerler Trim Text veya Replace Text gibi diğer metin tabanlı zenginleştirmelerle uyumlu çalışır ve hesaplayıcılar ile filtrelerde doğru gruplamayı destekler.
Ayrıca Bakınız
- Trim Text - Metin niteliklerinden baştaki ve sondaki boşlukları kaldırma
- Text Start - Metin değerlerinin başından belirli sayıda karakter çıkarma
- Text End - Metin değerlerinin sonundan belirli sayıda karakter çıkarma
- Replace Text - Nitelik değerleri içindeki belirli metin kalıplarını değiştirme
- Limit Text Length - Metin niteliklerini maksimum karakter uzunluğuna kısaltma
- Categorize Attribute Values - Metin değerlerini kalıplar veya kurallara göre kategorilere ayırma
Bu dokümantasyon mindzie Studio süreç madenciliği platformunun bir parçasıdır.