Metin Uzunluğunu Sınırlama

Genel Bakış

Metin Uzunluğunu Sınırlama zenginleştirmesi, veri kümenizdeki metin değerlerini belirli bir maksimum karakter sayısına otomatik olarak kırparak veri temizliği sağlayan bir operatördür. Bu temel veri standartlaştırma aracı, istenilen uzunluk sınırlarını aşan metin alanlarını yönetmeye yardımcı olur, süreç madenciliği veri kümeniz genelinde tutarlılık sağlar ve sonraki analiz, görselleştirme ve sistem entegrasyonlarında sorunların önüne geçer. Farklı kaynaklardan gelen verilerle çalışırken, metin alanları genellikle performansı, okunabilirliği ve diğer sistemlerle uyumluluğu etkileyen aşırı uzun değerler içerir.

Bu zenginleştirme, olay ve vaka düzeyindeki metin niteliklerini akıllıca işleyerek orijinal anlamı korurken uzunluk kısıtlamalarını uygular. Veri bozulması veya tutarsızlık riski taşıyan manuel kırpma yaklaşımlarının aksine, bu operatör tüm veri kümenizde tutarlı kırpma kuralları uygular. Özellikle uzun metin değerlerinin yerleşimi bozabileceği panolar için veri hazırlarken veya belirli alanlarda sıkı karakter sınırları olan sistemlerle entegre olurken çok değerlidir.

Yaygın Kullanımlar

  • ERP sistemleri veya destek platformlarından gelen ayrıntılı açıklama alanlarını standartlaştırmak
  • Uzun metin değerlerinin tablo yerleşimini veya grafik okunabilirliğini bozduğu panolarda görselleştirme için veri hazırlamak
  • Sıkı alan uzunluğu gereksinimleri olan sistemlere veri aktarımından önce karakter sınırlarını uygulamak
  • Uzun yorum alanlarını en önemli ilk bilgileri koruyarak kırpmak
  • Ürün adlarını, müşteri isimlerini veya referans kodlarını tutarlı maksimum uzunluklarda standartlaştırmak
  • Aşırı uzun metin değerlerinden kaynaklanan bellek kullanımını azaltarak süreç madenciliği analiz performansını artırmak
  • Raporlarda ve dışa aktarılan belgelerde daha iyi hizalama için tutarlı metin alanları oluşturmak

Ayarlar

Öznitelik Adı: Sınırlandırmak istediğiniz metin özniteliğini seçin. Açılır liste, hem vaka hem de olay düzeyi verilerden tüm mevcut metin niteliklerini gösterir. Yalnızca string/metin türündeki nitelikler geçerli seçim olarak görünür. Bu, veri kümenizde kırpılacak değerlerin bulunduğu sütunu belirleyen zorunlu bir alandır.

Maksimum Uzunluk: Saklanacak maksimum karakter sayısını belirtin. Bu uzunluğu aşan metin değerleri tam olarak bu karakter sayısına kırpılır. Değer 0'dan büyük olmalıdır. Varsayılan değer 100 karakterdir. Yaygın değerler şunlardır:

  • Kısa açıklamalar veya kodlar için 50 karakter
  • Standart metin alanları için 100 karakter
  • Birçok veritabanı sistemiyle uyumluluk için 255 karakter
  • Okunabilirliği koruyarak daha uzun açıklamalar için 500 karakter

Örnekler

Örnek 1: İmalatta Ürün Açıklamalarını Standartlaştırma

Senaryo: Bir imalat şirketinin ürün kataloğu, 1000 karakteri aşabilen ayrıntılı teknik açıklamalara sahiptir; bu durum süreç madenciliği panolarında sorunlara yol açmakta ve raporların okunmasını zorlaştırmaktadır.

Ayarlar:

  • Öznitelik Adı: Product_Description
  • Maksimum Uzunluk: 150

Zenginleştirme Öncesi: | Case ID | Product_Description | Order_Value | |---------|-------------------|-------------| | ORD-001 | "High-precision CNC machined aluminum component with aerospace-grade 7075-T6 alloy, featuring complex 5-axis milling patterns, anodized finish in matte black, tolerances within 0.001 inches, designed for critical aviation applications requiring maximum strength-to-weight ratio and corrosion resistance in extreme environmental conditions including salt spray, temperature variations from -60C to 150C, and high vibration environments typical of turbine engine mounting applications" | $12,500 | | ORD-002 | "Standard steel bracket, zinc plated" | $45 | | ORD-003 | "Custom fabricated stainless steel assembly with multiple welded joints, polished to mirror finish, designed for pharmaceutical clean room applications with full FDA compliance and documentation package included" | $3,200 |

Zenginleştirme Sonrası: | Case ID | Product_Description | Order_Value | |---------|-------------------|-------------| | ORD-001 | "High-precision CNC machined aluminum component with aerospace-grade 7075-T6 alloy, featuring complex 5-axis milling patterns, anodized finis" | $12,500 | | ORD-002 | "Standard steel bracket, zinc plated" | $45 | | ORD-003 | "Custom fabricated stainless steel assembly with multiple welded joints, polished to mirror finish, designed for pharmaceutical clean room ap" | $3,200 |

Çıktı: Ürün açıklamaları tam olarak 150 karaktere kırpılmıştır. Kısa açıklamalar değişmeden kalırken, uzun olanlar karakter sınırında kesilmiştir.

Bilgi: Açıklama uzunlukları standartlaştırıldıktan sonra pano performansı %40 artmış ve ürün kategorisi raporları daha okunabilir hale gelmiştir. Ekip, kritik ürün bilgilerinin %85'inin ilk 150 karakterde yer aldığını keşfetmiş, böylece bu kırpma analiz için uygun olurken orijinal tam açıklamalar kaynak sistemde korunmuştur.

Örnek 2: Hizmet Süreçlerinde Müşteri Geri Bildirimlerini Yönetme

Senaryo: Bir telekomünikasyon şirketinin müşteri hizmetleri sistemi, birkaç paragraf uzunluğunda olabilen ayrıntılı müşteri şikayetlerini yakalamakta, bu da servis süreç madenciliğinde desenleri analiz etmeyi zorlaştırmaktadır.

Ayarlar:

  • Öznitelik Adı: Customer_Feedback
  • Maksimum Uzunluk: 200

Olay Verisi Öncesi: | Case ID | Activity | Customer_Feedback | Timestamp | |---------|----------|------------------|-----------| | TICKET-001 | Create Ticket | "Internet connection has been extremely unreliable for the past three weeks. Speed drops to almost nothing during evening hours between 7-10 PM. Have restarted modem multiple times, checked all cables, even replaced the router with my own but problem persists. This is affecting my ability to work from home and my children cannot complete their online homework. Previous technician visit on March 15 did not resolve the issue. Need immediate resolution as I'm considering switching providers if this continues. Very frustrated with the lack of consistent service despite paying for the premium package." | 2024-03-20 14:30 | | TICKET-002 | Create Ticket | "Bill incorrect - charged twice" | 2024-03-20 15:15 |

Olay Verisi Sonrası: | Case ID | Activity | Customer_Feedback | Timestamp | |---------|----------|------------------|-----------| | TICKET-001 | Create Ticket | "Internet connection has been extremely unreliable for the past three weeks. Speed drops to almost nothing during evening hours between 7-10 PM. Have restarted modem multiple times, checked all ca" | 2024-03-20 14:30 | | TICKET-002 | Create Ticket | "Bill incorrect - charged twice" | 2024-03-20 15:15 |

Çıktı: Müşteri geri bildirimleri 200 karakterle sınırlandırılmış, mesajların genellikle ana konunun belirtildiği başlangıcı korunmuştur.

Bilgi: Kırpılmış geri bildirimlerde metin madenciliği, problemlerin %92'sinin ilk 200 karakterden kategorize edilebildiğini ortaya koymuştur. Süreç analizleri, 200 karakterden uzun geri bildirim içeren biletlerin çözüm sürelerinin %35 daha uzun olduğunu göstermiştir; bu da karmaşık problemlerin yükseltme gerektirdiğini işaret eder.

Örnek 3: Satın Alma Siparişi Verisini Sistem Entegrasyonu İçin Hazırlama

Senaryo: Satın alma departmanı, tedarikçi isimleri için 50 karakter sınırı olan eski muhasebe sistemine verileri aktarmak zorundadır; ancak mevcut verilerinde 200 karakteri aşabilen tam yasal şirket isimleri bulunmaktadır.

Ayarlar:

  • Öznitelik Adı: Vendor_Name
  • Maksimum Uzunluk: 50

Zenginleştirme Öncesi: | Case ID | Vendor_Name | PO_Amount | |---------|------------|-----------| | PO-2024-001 | "International Business Machines Corporation (IBM) Global Technology Services Division" | $125,000 | | PO-2024-002 | "Acme Inc." | $3,500 | | PO-2024-003 | "Johnson & Johnson Consumer Healthcare Products Manufacturing and Distribution Limited Partnership" | $45,750 |

Zenginleştirme Sonrası: | Case ID | Vendor_Name | PO_Amount | |---------|------------|-----------| | PO-2024-001 | "International Business Machines Corporation (IBM" | $125,000 | | PO-2024-002 | "Acme Inc." | $3,500 | | PO-2024-003 | "Johnson & Johnson Consumer Healthcare Products Ma" | $45,750 |

Çıktı: Tedarikçi isimleri sistem gereksinimlerine uyması için 50 karakterle sınırlandırılmış, ancak tanımlama için yeterli bilgi korunmuştur.

Bilgi: Kırpma, eski sistemle başarılı entegrasyonu sağlamış ve tedarikçi tanımlanabilirliğini korumuştur. Analizler, tedarikçi isimlerinin %78'inin zaten 50 karakter altında olduğunu göstermiş, kırpılmış isimler ise satın alma raporlarında benzersiz tanımlama için yeterli bilgi sunmuştur.

Örnek 4: Süreç Madenciliğinde Aktivite İsimlerini Optimize Etme

Senaryo: Bir sigorta tazminat sürecinde aktivite isimleri detaylı alt süreç bilgileri içererek süreç haritalarını kalabalık ve zor okunur hale getirmektedir.

Ayarlar:

  • Öznitelik Adı: Activity_Name
  • Maksimum Uzunluk: 30

Olay Verisi Öncesi: | Case ID | Activity_Name | Resource | Timestamp | |---------|--------------|----------|-----------| | CLAIM-001 | "Initial Claim Review and Documentation Verification by Senior Adjuster" | John Smith | 2024-03-15 09:00 | | CLAIM-001 | "Medical Records Request Sent to Healthcare Provider via Secure Portal" | Sarah Johnson | 2024-03-15 10:30 | | CLAIM-001 | "Approve" | Mark Davis | 2024-03-15 14:00 |

Olay Verisi Sonrası: | Case ID | Activity_Name | Resource | Timestamp | |---------|--------------|----------|-----------| | CLAIM-001 | "Initial Claim Review and Docu" | John Smith | 2024-03-15 09:00 | | CLAIM-001 | "Medical Records Request Sent " | Sarah Johnson | 2024-03-15 10:30 | | CLAIM-001 | "Approve" | Mark Davis | 2024-03-15 14:00 |

Çıktı: Aktivite isimleri 30 karakterle sınırlandırılarak süreç görselleştirmesi için daha özlü etiketler oluşturulmuştur.

Bilgi: Kırpılan aktivite isimleri süreç haritasının okunabilirliğini %60 artırmış, her adımla ilgili temel bilgileri korumuştur. Süreç analistleri darboğazları daha hızlı tespit etmiş ve standart uzunluklar sayesinde aktivite sıklığı analizi daha doğru hale gelmiştir.

Örnek 5: Sistemler Arasında Referans Numaralarını Standartlaştırma

Senaryo: Bir lojistik şirketi, farklı taşıyıcılardan gelen ve uzunlukları değişken olan farklı referans no formatlarına sahip sevkiyat verilerini birleştirerek, birleşik izleme panosunda sorun yaşamaktadır.

Ayarlar:

  • Öznitelik Adı: Tracking_Reference
  • Maksimum Uzunluk: 25

Zenginleştirme Öncesi: | Case ID | Tracking_Reference | Carrier | Status | |---------|-------------------|---------|--------| | SHIP-001 | "UPS1Z9999999999999999-EXPEDITED-INTERNATIONAL-PRIORITY" | UPS | In Transit | | SHIP-002 | "FEDEX777888999000" | FedEx | Delivered | | SHIP-003 | "DHL-EXPR-WORLDWIDE-DOC-999888777666555-PREPAID-MORNING-DELIVERY" | DHL | Processing |

Zenginleştirme Sonrası: | Case ID | Tracking_Reference | Carrier | Status | |---------|-------------------|---------|--------| | SHIP-001 | "UPS1Z9999999999999999-EXP" | UPS | In Transit | | SHIP-002 | "FEDEX777888999000" | FedEx | Delivered | | SHIP-003 | "DHL-EXPR-WORLDWIDE-DOC-99" | DHL | Processing |

Çıktı: Takip referansları en fazla 25 karakterle standartlaştırılmış, en önemli tanımlayıcı bilgiler korunmuştur.

Bilgi: Referans uzunluklarının standartlaştırılması, tüm taşıyıcıların bilgilerini tutarlı şekilde gösterebilen birleşik bir izleme panosu oluşturulmasını sağlamıştır. Şirket, ana takip numarasının her zaman ilk 25 karakterde yer aldığını keşfetmiş, bu da raporlama ihtiyaçları için bu kırpmayı ideal yapmaktadır.

Çıktı

Metin Uzunluğunu Sınırlama zenginleştirmesi, veri kümenizde yeni öznitelikler oluşturmadan mevcut metin özniteliği değerlerini doğrudan değiştirir. Zenginleştirme, seçilen öznitelik vaka özniteliği veya olay özniteliği olduğunda aşağıdaki şekilde çalışır:

Vaka Öznitelikleri İçin: Veri kümenizdeki her benzersiz vaka için seçilen metin öznitelik değeri, belirtilen maksimum uzunluğu aşarsa kontrol edilir ve kırpılır. Kırpma tam olarak belirtilen karakter sınırında gerçekleşir; kelimelerin ortasında bitebilir.

Olay Öznitelikleri İçin: Veri kümenizdeki her olay satırı için seçilen metin öznitelik değeri kontrol edilir ve gerekli durumlarda kırpılır. Bu, aynı özniteliğin farklı olaylarda orijinal değerlere bağlı olarak farklı şekillerde kırpılabileceği anlamına gelir.

Önemli Özellikler:

  • Orijinal öznitelik adları değişmeden kalır
  • Veri türü string/metin olarak kalır
  • Maksimum uzunluğa eşit veya daha kısa değerler tamamen korunur
  • Null veya boş değerler etkilenmez
  • Kırpma, kelime sınırları dikkate alınmadan tam karakter pozisyonunda gerçekleşir
  • Özel karakterler, boşluklar ve noktalama işaretleri karakter sınırına dahildir
  • Kırpma belirtmek için üç nokta (...) veya benzeri işaret eklenmez

Değiştirilen öznitelik değerleri, filtrelerde, hesaplayıcılarda ve diğer zenginleştirmelerde hemen kullanılabilir. Bu yerinde değişiklik, süreç madenciliği analizinizde sonraki tüm işlemlerin standartlaştırılmış metin uzunluklarını kullanmasını sağlar.

Ayrıca Bakınız

  • Trim Text - Metin özniteliklerinden baştaki ve sondaki boşlukları kaldırır
  • Upper Case - Metin özniteliklerini standartlaştırmak için büyük harfe çevirir
  • Text Start - Metin değerlerinin başından belirli sayıda karakter çıkarır
  • Text End - Metin değerlerinin sonundan belirli sayıda karakter çıkarır
  • Find and Replace - Öznitelik değerleri içinde belirli metin kalıplarını değiştirir
  • Concatenate Attributes - Birden fazla metin özniteliğini tek bir alan altında birleştirir

Bu dokümantasyon mindzie Studio süreç madenciliği platformunun bir parçasıdır.