Consultant Data Scientist Annemijn de Vries geeft begin juni een training in CRISP-DM (cross-industry standard process for data mining). In dit interview vertelt zij waarom deze methodologie essentieel is om data-science-projecten effectief te plannen en uit te voeren. ‘Dataspecialisten weten hoe ze moeten modelleren of programmeren, maar missen soms het overzicht.’
▼
Waar veel mensen hun scriptie als een noodzakelijk kwaad zagen, vond Annemijn de Vries het juist verrassend leuk. Ze raakte gefascineerd door wat je allemaal kunt doen met een dataset, hoe je verbanden legt en inzichten bovenhaalt die eerder verborgen waren. Die interesse bracht haar ertoe om data-science te gaan studeren, een beslissing waar ze nooit spijt van kreeg. ‘Na mijn studie koos ik bewust voor consultancy. Ik wilde in korte tijd veel leren over verschillende organisaties, sectoren en data-uitdagingen. Bij Data Consulting Group vond ik precies die combinatie. De afwisseling en steile leercurve maken het werk als consultant voor mij ontzettend boeiend.’
Je werkte aan voorspellende modellen aan de hand van machine learning. Heb je daar een voorbeeld van?
‘Bij een grote verzekeraar werkte ik aan een machine learning-model: het Cox proportional hazards model. Dat voorspelde of, wanneer en waarom een klant waarschijnlijk zijn of haar verzekering zou opzeggen. Daarmee kon de organisatie veel gerichter inspelen op klantbehoud. Denk aan gepersonaliseerde aanbiedingen, proactieve service of andere vormen van interventie om op den duur de premies laag te houden.
Je geeft eerdaags een training in CRISP-DM-methodologie. Wat voor signalen kreeg je dat daar vraag is naar?
‘Dataspecialisten weten hoe ze moeten modelleren of programmeren, maar missen soms het overzicht; van het scherp krijgen van de businessvraag tot het goed evalueren van het eindresultaat. Dat klinkt onschuldig, maar het kan grote gevolgen hebben. Je kunt alle technische stappen perfect uitvoeren, en alsnog geen antwoord geven op de vraag die eigenlijk gesteld is. Als je belangrijke stappen in de data-cleaning overslaat, dan klopt je output simpelweg niet – ongeacht hoe geavanceerd je model is. Ook zie ik vaak dat mensen meteen naar complexe modellen grijpen, maar vergeten om simpelere alternatieven te testen of te vergelijken. Dan loop je het risico dat je eindigt met een suboptimale oplossing, terwijl je denkt dat je het maximale eruit hebt gehaald.’
‘De CRISP-DM training helpt om fouten die later cruciaal kunnen blijken, al in een vroeg stadium te voorkomen’
En juist daarom zijn de stappen in CRISP-DM zo belangrijk?
‘Precies. Ze zorgen ervoor dat je het hele traject – van business tot evaluatie – gestructureerd en kritisch doorloopt, juist in een veld met zóveel tools, modellen en technieken. Die urgentie zag ik terug bij professionals en organisaties die behoefte hadden aan meer grip en richting in hun projecten. Daarom heb ik deze training opgezet. Die helpt om fouten die later cruciaal kunnen blijken, al in een vroeg stadium te voorkomen. Zo wordt het hele traject efficiënter en consistenter aangepakt.’
De training is speciaal ontwikkeld voor dataspecialisten. Hoe gevorderd moeten die zijn om te kunnen deelnemen?
‘De training is geschikt voor alle niveaus. Voor beginners is het een ideale start: zij leren het direct op de juiste manier, krijgen overzicht in de mogelijkheden, en bouwen vanaf het begin een gestructureerde aanpak op. Maar ook meer ervaren dataspecialisten profiteren ervan. Vaak zijn zij bekend met enkele onderdelen van het proces, maar missen ze het totaalplaatje of een gestructureerde werkwijze.’
Je geeft ook best practices en valkuilen binnen data-science-projecten. Wat is een typische valkuil?
‘Een veelvoorkomende valkuil is te snel willen modelleren zonder voldoende tijd te besteden aan de probleemdefinitie en dataverkenning. Zonder een duidelijke vraagstelling of goed begrip van de context, loop je het risico om modellen te bouwen die technisch misschien kloppen, maar geen waarde opleveren voor de business. CRISP-DM benadrukt daarom het belang van de eerste fases – business understanding en data understanding – om te zorgen dat het project de juiste richting opgaat en de uitkomsten ook daadwerkelijk bruikbaar zijn. Een veelgemaakte fout tijdens data-cleaning is het over het hoofd zien van foutieve of inconsistente waarden, wat kan leiden tot totaal verkeerde conclusies. Denk bijvoorbeeld aan een kolom met leeftijden waarin per ongeluk een waarde van 220 voorkomt, of aan eenheden die door elkaar lopen, zoals bedragen in euro’s en dollars zonder aanduiding. Spoor je zulke fouten niet tijdig op, dan kan een model gebaseerd zijn op onbetrouwbare input. Het resultaat: analyses die goed lijken, maar in werkelijkheid misleidend zijn.’
Over Annemijn de Vries
Annemijn de Vries is een ervaren Consultant Data Scientist met een achtergrond in marketing analytics en data-science. Ze heeft uitgebreide expertise in het toepassen van data-science voor businessvraagstukken, variërend van het ontwikkelen van dashboards tot het ontwerpen van algoritmes en het bouwen van voorspellende modellen met behulp van machine learning. Op 2 juni geeft ze de praktische training ‘Grip op Data Science Projecten met CRISP-DM.’ Inschrijven doe je hier.