Organisatie optimalisatie aan de hand van een Data Coach

Het CRISP-DM (CRoss Industry Standard Process for Data Mining) model is een methodiek die werd ontwikkeld in 1996 door een vijftal grote tech bedrijven. Met als doel het standaardiseren van datamining activiteiten. De CRISP-DM methodologie is nog steeds een van de meest gebruikte analysemodellen voor een data coach, data scientist en een data analist. Het model is erg dynamisch opgezet met de mogelijkheid om te laveren tussen de verschillende processtappen. In de praktijk wordt het vaak gecombineerd met andere Lean en Agile projectmanagement benaderingen.

1. Business Understanding

De eerste fase is meteen een belangrijke fase. Hierbij gaat het om het echt begrijpen van de cases. Tijdens deze fase wordt er voorbereidend werk gedaan door een probleemdefinitie en een strategisch plan op te stellen voor je doelstelling. Om in een later stadium niet een radicale koerswijziging te moeten doorvoeren is het cruciaal om te weten met welke middelen je aan de slag wilt gaan om je doelstelling te bereiken.

2. Data Understanding

In deze fase wordt er dieper in de data gedoken. Bekijk goed welke data ter beschikking is en of deze een bijdrage leveren aan het behalen van je doelstellingen. Identificeren welke kolommen foutieve of missende data bevatten is van groot belang om dat deze een vertroebeld beeld kunnen geven van de situatie. Het afkaderen van metrics is dan ook een logische vervolgstap, wanneer er in een groot team gewerkt wordt mag er geen verschil van interpretatie ontstaan.

3. Data Coaching

Nu je goed begrip hebt van de beschikbare data is de volgende fase het detecteren van kolommen die dezelfde data bevatten maar verschillend worden weergegeven. Het zou bijvoorbeeld kunnen dat een kolom de lengte van een persoon omvat maar deze wordt weergegeven in drie verschillende meeteenheden cm, m en foot. Tijdens deze fase wordt de kolom opgeschoond zodat er geen misverstanden ontstaan en alle data aan dezelfde eisen voldoet.

4. Modeling

In deze fase is het de bedoeling de data zo te modelleren en te transformeren dat deze klaar is om gevisualiseerd te worden. Vaak wil men een bepaalde trend kunnen waarnemen binnen een specifieke groep of classificatie.

In dit voorbeeld wil een webshop meten wat de invloed is van de bezoekduur op bijvoorbeeld het koopgedrag. Aan de hand hiervan worden groepen gebruikers per drie minuten geclusterd die ze op de website doorbrengen, vervolgens wordt er gekeken of er enige correlatie is tussen het gemiddeld aantal conversies wat bezoekers vanuit deze groepen behalen.

5. Evaluation

Dit zijn de fases waarin getest wordt of de ontdekkingen voldoen aan de geëiste criteria. Hierin wordt teruggekeken naar het gehele proces en hoe men tot deze statistieken is gekomen. Hier wordt nog eenmaal gecheckt of er geen fouten zitten in de data preperation en modeling. Wanneer al deze factoren als valide zijn bestempeld kan de weg vervolgd worden naar de laatste stap Deployment.

6. Deployment

De laatste fase waarin men terecht komt is de deployment fase, hierin moet gezorgd worden dat de verkregen insights op een overzichtelijke manier gedisplayed worden. Zodat in het vervolg data op een gestructureerde manier kan worden verzameld en bijgehouden.

Opzoek naar Data Coaching?

Loopt jullie organisatie tegen kwesties aan met betrekking tot het verzamelen, bewaren, valideren of modeleren van data. Onze data coach kijkt graag geheel vrijblijvend met je mee. Vraag hier een gesprek aan.

Brainport Digital Factory Leden
Deze bedrijven staan klaar om je te helpen een winnaar te worden in Industrie 4.0

Door samen te werken met onderwijsinstellingen en het bedrijfsleven in combinatie met de technologie om de digitalisatie te versnellen, ontwikkelen wij kennis over “what, why, how” van de digitale fabriek samen met onze leden.

nl_NLDutch