Wert-Häufigkeit

Übersicht

Der Wert-Häufigkeitsfilter wählt Fälle basierend darauf aus, wie häufig deren Attributwerte im gesamten Datensatz vorkommen. Dieser Fallfilter gruppiert Fälle nach ihren Werten in einem angegebenen Attribut, zählt, wie oft jeder Wert auftritt, und schließt Fälle ein oder aus, je nachdem, ob die Häufigkeit Ihren angegebenen Schwellenwert erfüllt. Sie können Schwellenwerte entweder als absolute Anzahl (z. B. „mindestens 5 Vorkommen“) oder als Prozentsatz (z. B. „in mindestens 20 % der Fälle“) festlegen.

Dieser Filter ist besonders nützlich, um häufige Muster zu identifizieren, seltene Ausreißer zu erkennen, sich auf Kategorien mit hohem Volumen zu konzentrieren oder seltene Randfälle herauszufiltern, die Analyseergebnisse verzerren könnten.

Häufige Anwendungsfälle

Fokus auf Hauptkategorien: Behalten Sie nur Fälle, bei denen Attributwerte häufig genug vorkommen, um statistisch signifikant zu sein, und eliminieren Sie seltene Ausreißer.
Ausreißererkennung: Identifizieren Sie ungewöhnliche oder seltene Fälle, indem Sie nach Attributwerten filtern, die im Datensatz nur selten vorkommen.
Analyse der Datenqualität: Finden Sie potenziell problematische Daten, indem Sie Werte identifizieren, die genau einmal vorkommen – dies kann auf Eingabefehler oder Duplikate hinweisen.
Analyse hoher Volumen: Konzentrieren Sie die Analyse auf die häufigsten Regionen, Produkte oder Kundensegmente, indem Sie nach häufig vorkommenden Werten filtern.
Rauschreduktion: Entfernen Sie Randfälle und seltene Varianten, die Komplexität hinzufügen, ohne sinnvolle Erkenntnisse zu liefern.
Mustererkennung: Entdecken Sie systematische Probleme, indem Sie Werte identifizieren, die mit bestimmten Häufigkeiten auftreten (z. B. genau doppelt, was auf systematische Duplikate hindeuten kann).

Einstellungen

Spaltenname: Wählen Sie das Attribut aus, dessen Wert-Häufigkeit analysiert werden soll. Der Filter unterstützt Ganzzahlen- und Textattribute. Versteckte Spalten und Fall-ID-Spalten sind nicht verfügbar.

Vergleichsmethode: Wählen Sie, wie die Häufigkeit mit Ihrem Schwellenwert verglichen wird:

Gleich: Behalte Fälle, bei denen Werte genau so oft vorkommen wie angegeben
Größer als: Behalte Fälle, bei denen Werte häufiger vorkommen als der Schwellenwert
Größer oder gleich: Behalte Fälle, bei denen Werte mindestens so häufig vorkommen wie angegeben
Kleiner als: Behalte Fälle, bei denen Werte seltener vorkommen als der Schwellenwert
Kleiner oder gleich: Behalte Fälle, bei denen Werte nicht öfter vorkommen als der Schwellenwert
Ungleich: Behalte Fälle, bei denen Werte nicht genau so oft vorkommen wie angegeben

Schwellentyp: Geben Sie an, ob sich der Schwellenwert auf

Anzahl: eine absolute Anzahl von Vorkommen
Prozent: einen Dezimalprozentsatz der Gesamtzahl an Fällen (0,0 bis 1,0) bezieht.

Vergleichsschwelle: Geben Sie den numerischen Schwellenwert ein. Im Modus „Anzahl“ ist dies die Anzahl der Vorkommen. Im Modus „Prozent“ geben Sie einen Dezimalwert ein (z.B. 0.4 für 40 %).

Beispiele

Beispiel 1: Fokus auf Hauptregionen

Szenario: Ihre Prozessdaten beinhalten Fälle aus 15 verschiedenen Regionen, Sie möchten die Analyse jedoch nur auf Regionen konzentrieren, die ein signifikantes Volumen darstellen. Sie entscheiden sich dafür, nur Regionen zu behalten, die in mindestens 10 % aller Fälle auftreten.

Einstellungen:

Spaltenname: Region
Vergleichsmethode: Größer oder gleich
Schwellentyp: Prozent
Vergleichsschwelle: 0.1

Ergebnis: Der Filter behält nur Fälle aus Regionen, die in 10 % oder mehr der Datensätze vorkommen. Bei 1.000 Fällen sind das Regionen mit mindestens 100 Fällen, kleinere Regionen werden ausgefiltert.

Erkenntnisse: So konzentrieren Sie Ihre Analyse auf die Hauptregionen und eliminieren das Rauschen kleiner Regionalbüros mit minimaler Aktivität, was Muster und Trends leichter erkennbar macht.

Beispiel 2: Einzigartige Fälle identifizieren

Szenario: Sie vermuten, dass einige Fälle einzigartige Attributwerte haben, die auf Datenqualitätsprobleme oder Sonderbehandlungen hinweisen könnten. Sie möchten alle Fälle finden, bei denen der Wert genau einmal im gesamten Datensatz auftaucht.

Einstellungen:

Spaltenname: Customer ID
Vergleichsmethode: Gleich
Schwellentyp: Anzahl
Vergleichsschwelle: 1.0

Ergebnis: Der Filter gibt nur Fälle zurück, bei denen die Customer ID genau einmal in allen Fällen vorkommt.

Erkenntnisse: Diese einzigartigen Kunden könnten sein:

Einmalige Kunden, die nicht zurückkehrten
Potenzielle Eingabefehler mit falsch geschriebenen Kundennamen
Testfälle, die entfernt werden sollten
VIP-Kunden, die besondere Aufmerksamkeit benötigen

Beispiel 3: Häufige Produkte finden

Szenario: Sie möchten nur Ihre meistverkauften Produkte analysieren, die in mindestens 50 Fällen auftauchen, um erfolgreiche Produktmuster zu verstehen.

Einstellungen:

Spaltenname: Product Name
Vergleichsmethode: Größer oder gleich
Schwellentyp: Anzahl
Vergleichsschwelle: 50.0

Ergebnis: Der Filter behält Fälle für Produkte, die mindestens 50-mal im Datensatz bestellt wurden.

Erkenntnisse: Durch die Fokussierung auf Produkte mit hohem Volumen können Sie Muster erfolgreicher Produktbearbeitung, häufige Engpässe und Optimierungsmöglichkeiten identifizieren, die den größten Geschäftseinfluss haben.

Beispiel 4: Seltene Prozessvarianten ausschließen

Szenario: Ihr Prozess besitzt viele seltene Varianten, die die Prozesskarte unübersichtlich machen. Sie möchten Fälle entfernen, bei denen die Startaktivität ungewöhnlich ist (in weniger als 5 % der Fälle vorkommt).

Einstellungen:

Spaltenname: _calcStartActivity
Vergleichsmethode: Kleiner als
Schwellentyp: Prozent
Vergleichsschwelle: 0.05

Ergebnis: Der Filter behält nur Fälle, bei denen die Startaktivität in weniger als 5 % aller Fälle vorkommt und selektiert so effektiv die seltenen Varianten.

Erkenntnisse: Dies hilft, ungewöhnliche Prozessstartpunkte zu identifizieren, die auf Ausnahmen, Fehler oder nicht standardisierte Arbeitsabläufe hinweisen können, die untersucht werden sollten.

Beispiel 5: Duplikat-Erkennung entfernen

Szenario: Sie möchten potenziell duplizierte Fälle identifizieren, indem Sie Attributwerte finden, die genau zweimal vorkommen, was systematische Duplikationsprobleme anzeigen könnte.

Einstellungen:

Spaltenname: Order Number
Vergleichsmethode: Gleich
Schwellentyp: Anzahl
Vergleichsschwelle: 2.0

Ergebnis: Der Filter gibt Fälle zurück, bei denen die Auftragsnummer genau zweimal im Datensatz vorkommt.

Erkenntnisse: Diese Fallpaare könnten sein:

Systemfehler, die eine doppelte Auftragserstellung verursachen
Geteilte Sendungen für denselben Auftrag
Auftragsänderungen oder Revisionen
Datenintegrationsprobleme aus mehreren Systemen

Beispiel 6: Seltene Ausreißer ausschließen

Szenario: Sie möchten Ihren Datensatz bereinigen, indem Sie Fälle aus Kategorien entfernen, die weniger als 2 % des Gesamtvolumens ausmachen, da dies wahrscheinlich Randfälle sind.

Einstellungen:

Spaltenname: Department
Vergleichsmethode: Größer oder gleich
Schwellentyp: Prozent
Vergleichsschwelle: 0.02

Ergebnis: Der Filter behält nur Fälle aus Abteilungen, die mindestens 2 % aller Fälle bearbeiten.

Erkenntnisse: So entsteht ein saubererer Datensatz, der sich auf das Kerngeschäft konzentriert, während kleine oder Testabteilungen ausgefiltert werden, die möglicherweise kein typisches Prozessverhalten repräsentieren.

Ausgabe

Der Filter liefert einen neuen Datensatz, der nur Fälle enthält, die die festgelegten Häufigkeitskriterien für das ausgewählte Attribut erfüllen. Alle Fälle mit demselben Attributwert werden als Gruppe behandelt – entweder wird die gesamte Gruppe eingeschlossen oder die gesamte Gruppe ausgeschlossen, basierend darauf, wie viele Fälle diesen Wert teilen.

Beispielsweise, wenn „Region A“ in 100 Fällen vorkommt und Ihren Schwellenwert erfüllt, werden alle 100 Fälle mit „Region A“ eingeschlossen. Der Filter behält alle Ereignisse und Attribute der eingeschlossenen Fälle bei.

Technische Hinweise

Filtertyp: Fallfilter (entfernt ganze Fälle basierend auf Attributwert-Häufigkeit)
Gruppierungslogik: Alle Fälle werden nach ihren Werten im angegebenen Attribut gruppiert, und die Frequenz jeder Gruppe wird mit dem Schwellenwert verglichen
Umgang mit Nullwerten: Nullwerte werden als eigene Gruppe behandelt und wie jeder andere Wert gezählt
Unterstützte Datentypen: Ganzzahlige (Int32, Int64) und Text (String) Attribute
Schwellenwertumrechnung: Im Prozentmodus wird der Prozentsatz automatisch in eine absolute Anzahl umgerechnet, indem er mit der Gesamtanzahl der Fälle multipliziert wird
Validierung: Der Filter schlägt ähnliche Spaltennamen vor, wenn der Attributname falsch geschrieben ist

Diese Dokumentation ist Teil der mindzieStudio Process Mining-Plattform.