Begrip van mindzie's Dual Dataset Architectuur

Overzicht

Wanneer je data uploadt in mindzie Studio, creëert het platform automatisch twee verschillende datasets die samenwerken om je procesmining-analyse aan te sturen. Het begrijpen van het verschil tussen deze datasets en wanneer je welke moet gebruiken is essentieel om effectief te kunnen werken met mindzie Studio.

Deze gids legt de dual dataset architectuur uit, hoe de mindzie data pipeline je data transformeert, en wat er automatisch gebeurt wanneer je data voor het eerst importeert.

De Twee Datasets

Originele Dataset

De Originele Dataset is de ruwe eventlog die je aanvankelijk uploadt in mindzie Studio. Deze dataset bevat je procesdata precies zoals die is aangeleverd, of deze nu via een CSV-bestand is geüpload of via mindzie Data Designer is ingelezen vanuit bronsystemen.

Kenmerken:

  • Bevat de ruwe data in de originele vorm
  • Bevat alleen de kolommen en attributen die je hebt geïmporteerd (Case ID, Activiteit, Tijdstempel, Resource en eventuele extra attributen)
  • Verandert niet gedurende je analyse
  • Dient als basis voor alle daaropvolgende dataverwerking

Wanneer de Originele Dataset te gebruiken:

  • Wanneer je de brondata wilt verifiëren
  • Voor datakwaliteitscontroles en validatie
  • Om te begrijpen wat er oorspronkelijk is aangeleverd voordat enige transformaties zijn toegepast

Verrijkte Dataset

De Verrijkte Dataset wordt automatisch aangemaakt door mindzie Studio nadat de data pipeline is uitgevoerd. Dit is de verbeterde versie van je data, die alle berekende attributen, prestatiedimensies, conformiteitsindicatoren en andere verrijkingen bevat die zijn toegevoegd via de logverrijkingsengine.

Kenmerken:

  • Automatisch aangemaakt bij het importeren van data
  • Bevat alle originele attributen plus nieuwe berekende attributen
  • Wordt bijgewerkt telkens wanneer je verrijkingsberekeningen uitvoert
  • Stuurt alle analyses, onderzoeken en dashboards aan

Wanneer de Verrijkte Dataset te gebruiken:

  • Voor alle analyse- en onderzoekswerk (dit is de primaire dataset voor analyse)
  • Bij het maken van dashboards en KPI’s
  • Wanneer je werkt met prestatie-indicatoren, conformiteitsregels of aangepaste verrijkingen
  • Voor de dagelijkse procesmining-activiteiten

Datasets View De Weergave van Datasets toont zowel de Originele Dataset als de Verrijkte Dataset

Hoe de Data Pipeline Werkt

Wanneer je data uploadt naar mindzie Studio, gebeurt er automatisch het volgende:

Stap 1: Data-import en Validatie

Je CSV-bestand of data uit mindzie Data Designer wordt geladen in mindzie Studio. Het systeem:

  • Valideert het dataformaat en de structuur
  • Koppelt sleutelkolommen (Case ID, Activiteit, Tijdstempel, Resource)
  • Wijst kolomtypes en datatypes toe
  • Creëert de Originele Dataset

Stap 2: Automatische Pipeline-uitvoering

Zodra je op "Opslaan" klikt na het uploaden van je data, voert mindzie Studio automatisch uit:

  • De data pipeline
  • Creëert de Verrijkte Dataset
  • Voegt fundamentele attributen toe die je analysecapaciteiten verbeteren

Stap 3: Standaard Analyse Genereren

Om je snel op weg te helpen, genereert mindzie Studio automatisch nuttige standaardanalyses, waaronder:

  • Procesoverzicht
  • Lange case-duur
  • Tijdsduur tussen hoofdprocesstappen
  • Andere belangrijke inzichten

Deze vooraf gebouwde analyses helpen je direct je proces te verkennen zonder dat je alles vanaf nul hoeft te maken.

Default Analysis Standaard onderzoek automatisch gemaakt bij data-import

Default Dashboard Standaard analyse toont 10.000 cases en 121.000 events met belangrijke procesinzichten

Begrijpen van Dataset Grootte: Het Voorbeeld

In de demo bevat de banking onboarding dataset:

  • 10.000 cases - Elke case vertegenwoordigt één klant onboarding traject
  • 121.000 events - Het totale aantal processtappen over alle cases

Dit betekent dat elk klant onboarding case gemiddeld ongeveer 12 activiteiten of processtappen omvat. Dit soort informatie wordt meteen zichtbaar zodra je data geladen is in mindzie Studio.

De Rol van Logverrijking

De kracht van de dual dataset architectuur wordt duidelijk als je begint met het gebruiken van de logverrijkingsengine. Hierin onderscheidt de Verrijkte Dataset zich echt van de Originele Dataset.

Wat Logverrijking Doet

Logverrijking stelt je in staat je data te verrijken met:

Prestatiemaatstaven:

  • Duur-berekeningen tussen activiteitenparen
  • Case duur van begin tot eind
  • Prestatie-indeling (snel, normaal, langzaam)
  • Aangepaste SLA-naleving

Conformiteitsregels:

  • Indicatoren voor ongewenste activiteiten
  • Ontbrekende verplichte stappen
  • Verkeerde volgorde van activiteiten
  • Herhaalde activiteiten en herbewerkingslussen

Aangepaste Attributen:

  • Activiteitskosten
  • AI-voorspellingen
  • Aangepaste categorieën
  • Wiskundige transformaties
  • Tijdgebaseerde berekeningen

Hoe Verrijkingen de Dataset Bijwerken

Elke keer dat je nieuwe verrijkingen maakt en berekent:

  1. De data pipeline wordt uitgevoerd
  2. Nieuwe attributen worden toegevoegd aan de Verrijkte Dataset
  3. Deze nieuwe attributen worden beschikbaar voor filteren en berekeningen
  4. Je analyse wordt krachtiger met elke verrijking

Enriched Attributes Data overzicht toont zowel originele attributen als verrijkte attributen met iconen die systeemgegenereerde verbeteringen aangeven

Automatisch Toegevoegde Attributen door mindzie

Zelfs zonder handmatige verrijkingen voegt mindzie Studio automatisch verschillende nuttige attributen toe aan je Verrijkte Dataset, zoals:

  • Tijd van de dag - Wanneer activiteiten plaatsvonden
  • Case Start - Wanneer elke case begon
  • Case Finish - Wanneer elke case eindigde
  • Case Duur - Totale tijd van start tot finish
  • Eerste Resource - Wie de case initieerde
  • Activiteitsfrequentie - Hoe vaak activiteiten voorkomen
  • En nog veel meer...

Deze automatische verrijkingen geven je direct analytische mogelijkheden zonder enige configuratie.

De Juiste Dataset Kiezen voor Analyse

Bij het maken van onderzoeken en analysenotebooks in mindzie Studio moet je kiezen met welke dataset je werkt.

Beste Praktijk: Selecteer altijd de Verrijkte Dataset voor je onderzoeken en analysewerk. Deze dataset bevat alle verrijkte attributen en berekende maten die je analyse krachtig en inzichtelijk maken.

De Originele Dataset gebruik je voornamelijk voor:

  • Referentie- en validatiedoeleinden
  • Datakwaliteitsaudits
  • Begrijpen van de brondatastructuur

De Continue Verbetercyclus

De dual dataset architectuur ondersteunt een iteratieve workflow:

  1. Uploaden - Importeer je data om de Originele Dataset te creëren
  2. Verrijken - Voeg prestatiestatistieken, conformiteitsregels en aangepaste attributen toe
  3. Berekenen - Voer de pipeline uit om de Verrijkte Dataset bij te werken
  4. Analyseren - Maak onderzoeken en analyses met de verrijkte attributen
  5. Herhalen - Voeg meer verrijkingen toe om je inzichten te verdiepen

Elke cyclus maakt je Verrijkte Dataset waardevoller en je analyse geavanceerder.

Belangrijkste Punten

  • Twee datasets worden gemaakt: Origineel (ruwe data) en Verrijkt (verbeterde data)
  • Automatische creatie: De Verrijkte Dataset wordt automatisch aangemaakt bij het uploaden van data
  • Gebruik de Verrijkte Dataset: Dit is je primaire dataset voor alle analyses en onderzoeken
  • Pipeline uitvoering: De data pipeline transformeert Origineel naar Verrijkt
  • Continue verrijking: Elke verrijkingsberekening voegt nieuwe attributen toe aan de Verrijkte Dataset
  • Standaardanalyse: mindzie Studio levert automatisch nuttige startanalyses
  • Iteratief proces: Je kunt doorlopend verrijkingen toevoegen om je analyse krachtiger te maken

Volgende Stappen

Nu je de dual dataset architectuur begrijpt, ben je klaar om:

  • De logverrijkingsengine te verkennen en prestatiemaatstaven toe te voegen
  • Conformiteitsregels te creëren om procesnalevingsproblemen te identificeren
  • Aangepaste verrijkingen te bouwen voor specifieke zakelijke behoeften
  • Onderzoeken en analyses te maken met behulp van de verrijkte attributen
  • Inzichten te publiceren op dashboards voor eindgebruikers

De dual dataset architectuur vormt de basis die alle krachtige analytische mogelijkheden van mindzie Studio mogelijk maakt. Door de originele data te scheiden van de verrijkte data behoud je dataintegriteit terwijl je onbeperkte flexibiliteit krijgt om je processen te transformeren en te analyseren.