Metni Kırp
Genel Bakış
Trim Text (Metni Kırp) zenginleştirmesi, veri kümenizdeki metin niteliklerinin tüm başındaki ve sonundaki boşluk karakterlerini otomatik olarak kaldıran bir veri temizleme operatörüdür. Bu temel veri hijyeni aracı, metin alanlarında istenmeyen boşluklar, sekmeler ve diğer görünmez karakterleri ortadan kaldırarak veri eşleştirme, filtreleme ve analizde oluşabilecek sorunları engeller. ERP sistemleri, elektronik tablolar veya manuel giriş sistemleri gibi çeşitli kaynaklardan gelen veriyi işlerken, metin alanlarında sıklıkla doğru işlem madenciliği analizini engelleyen istemsiz boşluklar bulunur.
Manuel veri temizleme yaklaşımlarından farklı olarak, bu zenginleştirme, hem vaka düzeyindeki hem de olay düzeyindeki tüm metin niteliklerini tek bir işlemde işler. Zenginleştirme, boş dizeleri null değerlere dönüştürerek veri bütünlüğünüzün korunmasını sağlar. Bu otomatik temizlik, süreç desenleri ve sapmaları tanımlamak için kesin metin eşleşmelerinin kritik olduğu uyumluluk kontrolü için veri hazırlarken özellikle değerlidir.
Yaygın Kullanım Alanları
- Alanlarda sabit genişlikli veritabanı sütunları nedeniyle sondaki boşlukların bulunduğu ERP sistemlerinden aktarılan verinin temizlenmesi
- Operatörlerin istemeyerek ek boşluklar eklediği formlar veya manuel veri giriş sistemlerindeki kullanıcı tarafından girilen metin alanlarının standartlaştırılması
- Tutarlı metin biçimlendirmesi sağlanarak doğru eşleştirme ve filtreleme işlemleri için veri hazırlanması
- Açılır filtrelerde görünüp aslında kopya olan değerlerin oluşmasına neden olan görünmez boşluk karakterlerinin kaldırılması
- Doğru süreç keşfi ve uyumluluk analizi için etkinlik adları ve kaynak adlarının temizlenmesi
- Tutarsız boşluklar içerebilecek ürün kodları, müşteri kimlikleri ve referans numaralarının normalize edilmesi
- Fazladan boşlukların biçimlendirme sorunları yaratabileceği birleştirme veya birleştirme işlemleri için metin niteliklerinin hazırlanması
Ayarlar
Bu zenginleştirme herhangi bir yapılandırma gerektirmeden tüm metin niteliklerinde otomatik olarak çalışır. Veri kümeniz içindeki her dize sütununu işler ve vaka nitelikleri ile olay nitelikleri arasında tutarlı kırpma mantığı uygular.
Örnekler
Örnek 1: ERP Sistemi Dışa Aktarım Verisinin Temizlenmesi
Senaryo: Bir üretim şirketi, ürün kodları ve müşteri isimlerinde sabit genişlikli veritabanı alanları nedeniyle sondaki boşlukların bulunduğu SAP sisteminden sipariş verilerini dışa aktarıyor. Bu durum ürün kategorilendirme ve müşteri analizinde sorunlara yol açıyor.
Zenginleştirme Öncesi: | Case ID | Product_Code | Customer_Name | Order_Status | |---------|--------------|---------------|--------------| | ORD-001 | "PRD-1234 " | "Acme Corp " | "APPROVED " | | ORD-002 | " PRD-5678" | " Beta Inc " | "PENDING" | | ORD-003 | "PRD-1234" | "Acme Corp" | "APPROVED" |
Zenginleştirme Sonrası: | Case ID | Product_Code | Customer_Name | Order_Status | |---------|--------------|---------------|--------------| | ORD-001 | "PRD-1234" | "Acme Corp" | "APPROVED" | | ORD-002 | "PRD-5678" | "Beta Inc" | "PENDING" | | ORD-003 | "PRD-1234" | "Acme Corp" | "APPROVED" |
Çıktı: Tüm metin nitelikleri başındaki ve sonundaki boşluklar kaldırılarak kırpılmıştır. Artık ORD-001 ve ORD-003 siparişlerindeki PRD-1234 ürünleri doğru şekilde aynı ürün olarak tanımlanmakta ve müşteri isimleri tutarlı biçimlendirilmiştir.
İçgörüler: Kırpmadan sonra, şirket görünürde 150 benzersiz ürün kodu olduğunu düşünürken, aslında sadece 95 farklı ürün olduğu keşfedildi. Bu doğru veri envanter analizini sağladı ve Acme Corp’un siparişlerinin başlangıçta hesaplanandan %40 daha fazla olduğunu doğru isim eşleştirmesi sayesinde ortaya çıkardı.
Örnek 2: Sağlık Hizmetlerinde Manuel Giriş Verisinin Standartlaştırılması
Senaryo: Bir hastanenin hasta kabul sistemi, manuel veri girişlerinden kaynaklanan tutarsız boşluklar içeren etkinlik adları ve bölüm alanlarına sahiptir. Bu durum doğru süreç akışı analizi ve departman kullanım metriklerini engelliyor.
Olay Verisi Öncesi: | Case ID | Activity | Department | Resource | |---------|----------|------------|----------| | PAT-101 | " Patient Registration" | "Emergency " | "Nurse Johnson " | | PAT-101 | "Triage " | " Emergency" | "Dr. Smith" | | PAT-102 | "Patient Registration" | "Emergency" | " Nurse Johnson" |
Olay Verisi Sonrası: | Case ID | Activity | Department | Resource | |---------|----------|------------|----------| | PAT-101 | "Patient Registration" | "Emergency" | "Nurse Johnson" | | PAT-101 | "Triage" | "Emergency" | "Dr. Smith" | | PAT-102 | "Patient Registration" | "Emergency" | "Nurse Johnson" |
Çıktı: Etkinlik isimleri, bölümler ve kaynak isimleri tüm fazladan boşluklar kaldırılarak standartlaştırılmıştır. Süreç akışı artık iki farklı etkinlik yerine tek “Patient Registration” etkinliğini doğru gösterir.
İçgörüler: Temizlik sonrası, acil bölümden geçen gerçek hasta akışı ortaya çıktı ve hastaların %100'ünün aynı ilk kayıt işlemini takip ettiği gösterildi. Kaynak kullanım raporları artık Nurse Johnson’un kayıtların %75’ini gerçekleştirdiğini doğru şekilde gösteriyor, farklı iki kaynak gibi görünmüyor.
Örnek 3: Finansal İşlem Verilerinin Temizlenmesi
Senaryo: Bir bankanın kredi işlem sistemi, onay kodları ve işlem türlerinde farklı şube sistemlerinden gelen çeşitli boşluk sorunları nedeniyle onay desenlerini ve süreç uyumluluğunu doğru izleyememektedir.
Vaka Nitelikleri Öncesi: | Loan_ID | Loan_Type | Branch_Code | Approval_Level | |---------|-----------|-------------|----------------| | LN-5001 | "Personal Loan " | " NYC-01 " | "Manager " | | LN-5002 | " Personal Loan" | "NYC-01" | "Manager" | | LN-5003 | " Business Loan " | " LA-02" | " Director " |
Vaka Nitelikleri Sonrası: | Loan_ID | Loan_Type | Branch_Code | Approval_Level | |---------|-----------|-------------|----------------| | LN-5001 | "Personal Loan" | "NYC-01" | "Manager" | | LN-5002 | "Personal Loan" | "NYC-01" | "Manager" | | LN-5003 | "Business Loan" | "LA-02" | "Director" |
Çıktı: Tüm kredi türleri, şube kodları ve onay seviyeleri tutarlı biçimde biçimlendirilmiştir. LN-5001 ve LN-5002 kredi türü Personal Loan artık doğru şekilde gruplanmıştır ve bölge analizleri için şube kodları standartlaştırılmıştır.
İçgörüler: Temizlikten sonra, Personal Loan’ların portföyün %65’ini oluşturduğu ortaya çıktı, önceki raporlarda ise çeşitli boşluk varyasyonları farklı kredi türleri olarak sayılmıştı. Bu doğru risk değerlendirmesi ve kaynak tahsisi yapılabilmesini sağladı.
Örnek 4: Satın Alma Süreci Verilerinin Normalize Edilmesi
Senaryo: Bir satın alma sistemi, çeşitli satıcı platformlarından gelen verileri birleştirirken satıcı isimleri, malzeme kategorileri ve satın alma siparişi durumlarında tutarsız boşluklar vardır. Bu durum doğru harcama analizi ve satıcı performansının izlenmesini engeller.
Zenginleştirme Öncesi: | PO_Number | Vendor_Name | Material_Category | Status | |-----------|-------------|-------------------|---------| | PO-8001 | "TechSupply Inc " | " Electronics " | "Delivered " | | PO-8002 | " TechSupply Inc" | "Electronics" | " Delivered" | | PO-8003 | "TechSupply Inc" | " Electronics" | "Pending" |
Zenginleştirme Sonrası: | PO_Number | Vendor_Name | Material_Category | Status | |-----------|-------------|-------------------|---------| | PO-8001 | "TechSupply Inc" | "Electronics" | "Delivered" | | PO-8002 | "TechSupply Inc" | "Electronics" | "Delivered" | | PO-8003 | "TechSupply Inc" | "Electronics" | "Pending" |
Çıktı: Satıcı isimleri ve malzeme kategorileri tüm satın alma siparişlerinde standartlaştırıldı. Üç sipariş artık aynı satıcı ve kategori ile doğru şekilde ilişkilendiriliyor.
İçgörüler: Temizlik, TechSupply Inc’in şirketin yıllık 2,3M dolar harcaması ile en büyük satıcısı olduğunu ortaya çıkardı; önceki raporlarda üç ayrı küçük satıcı olarak görülüyordu. Bu konsolidasyon, daha iyi satıcı müzakereleri ve toplu indirim fırsatları sağladı.
Örnek 5: Süreç Keşfi İçin Etkinlik Adlarının Temizlenmesi
Senaryo: Bir lojistik şirketinin sevkiyat takip sistemi, çeşitli tarama cihazları ve manuel girişler nedeniyle etkinlik adlarında çeşitli boşluk sorunlarına sahiptir. Bu, süreç keşfinin parçalı ve hatalı süreç akışları göstermesine yol açar.
Olay Kaydı Öncesi: | Case_ID | Activity | Location | Timestamp | |---------|----------|----------|-----------| | SHIP-901 | "Package Received " | "Warehouse A " | 2024-01-10 08:00 | | SHIP-901 | " Sorting" | "Warehouse A" | 2024-01-10 09:00 | | SHIP-902 | "Package Received" | " Warehouse A" | 2024-01-10 08:30 | | SHIP-902 | "Sorting " | "Warehouse A " | 2024-01-10 09:30 |
Olay Kaydı Sonrası: | Case_ID | Activity | Location | Timestamp | |---------|----------|----------|-----------| | SHIP-901 | "Package Received" | "Warehouse A" | 2024-01-10 08:00 | | SHIP-901 | "Sorting" | "Warehouse A" | 2024-01-10 09:00 | | SHIP-902 | "Package Received" | "Warehouse A" | 2024-01-10 08:30 | | SHIP-902 | "Sorting" | "Warehouse A" | 2024-01-10 09:30 |
Çıktı: Tüm etkinlik isimleri ve lokasyonlar, boşluk varyasyonları kaldırılarak kırpılmıştır. Artık süreç, tüm sevkiyatlar için “Package Received” ardından “Sorting” adımlarını doğru şekilde gösteriyor.
İçgörüler: Süreç keşfi artık tüm paketler için standart iki adımlı süreci doğru şekilde gösteriyor; önceki sekiz farklı etkinlik varyasyonu ortadan kalktı. Bu da şirketin eğitimleri standartlaştırmasını ve Warehouse A’da kaynak tahsisini optimize etmesini sağladı.
Çıktı
Trim Text zenginleştirmesi, yeni nitelikler yaratmak yerine mevcut metin niteliklerini yerinde değiştirir. Veri kümenizdeki tüm dize türü sütunlar otomatik olarak işlenir; vaka ve olay nitelikleri dahil. Zenginleştirme aşağıdaki dönüşümleri uygular:
Metin İşleme Kuralları:
- Metin başlangıcındaki tüm baştaki boşlukları (boşluklar, sekmeler ve diğer görünmez karakterler) kaldırır
- Metin sonundaki tüm sondaki boşlukları kaldırır
- Metin içindeki boşlukları korur (sadece baş ve son kırpılır)
- Kırpmadan sonra boş kalan dizeleri null değerlere dönüştürür
- Zaten kırpılmış metinleri değiştirmeyerek performansı optimize eder
- Metin olmayan niteliklere dokunmaz (sayılar, tarihler, boolean değerler değişmez)
- Gizli sütunlarda işlem yapmaz, sistem verisini korur
Zenginleştirme, diğer mindzieStudio özellikleri ile sorunsuz çalışır. Kırpılmış metin nitelikleri, doğru eşleşme için filtrelerde, kesin birleştirme işlemleri için hesaplayıcılarda ve tutarlı metin biçimlendirmesine bağlı diğer zenginleştirmelerde hemen kullanılabilir. Veri yerinde değiştirildiğinden, mevcut tüm görselleştirmeler, panolar ve analizler herhangi bir yeniden yapılandırmaya gerek kalmadan temizlenmiş veriden otomatik olarak faydalanır.
Sonraki işlemler için temizlenmiş metin, uyumluluk kontrolü operatörlerinin eşleşen etkinlikleri doğru tespit etmesini, arama zenginleştirmelerinin veri setlerinde doğru eşleşmeleri bulmasını ve grupla işlemlerinin ilgili vakaları uygun şekilde toplamasını sağlar. Boş dizelerin null’a dönüşümü, veritabanı işlemlerindeki sorunları önler ve boş değerlerin platform genelinde tutarlı şekilde işlenmesini garantiler.
Bu dokümantasyon mindzie Studio süreç madenciliği platformunun bir parçasıdır.