Wat zoek jij in een data scientist?

Door Jan Roekens | 18-06-2019

Veel organisaties gaan op zoek naar een data scientist, met de hoop dat hij of zij de gouden belofte van data science kan verwezenlijken. In haar blog beschrijft Sabine den Daas, Totta data lab, de valkuilen die hieraan vast zitten.


Auteur Sabine den Daas, Senior Data Scientist en Partner bij Totta data lab

‘We willen meer doen met data’: je hoort het steeds vaker binnen organisaties. Data science toepassen is tenslotte dé manier om meer winst te maken, het imago te versterken of het marktaandeel te vergroten. Maar ‘laten we meer doen met onze gegevens’ klinkt makkelijker dan het is. Alleen gegevens tot je beschikking hebben, is niet voldoende. Deze gegevens moeten zowel kwalitatief als kwantitatief in orde zijn. Daarnaast zijn de juiste mensen, de juiste tools en de juiste mindsets nodig om goed gebruik te maken van deze gegevens. Alleen op deze manier kan ‘de gouden belofte’ van data science, werkelijkheid worden.

Veel organisaties gaan op zoek naar een data scientist met de hoop dat deze gouden belofte verwezenlijkt kan worden. Hier zitten echter meerdere valkuilen aan vast:

1) De functietitel ‘data scientist’ wordt te pas en te onpas gebruikt

De term ‘data scientist’ is tegenwoordig hip & happening, waardoor veel mensen te snel de neiging hebben om zichzelf zo te noemen. Dit kan voor complexe situaties zorgen tijdens sollicitatieprocessen. Zo kunnen de verwachtingen over de werkzaamheden niet overeenkomen tussen beide partijen. Daarnaast heeft lang niet iedereen alle vereiste kennis om data science op adequate wijze toe te passen. Toegegeven: ik noem mezelf ook ‘Senior Data Scientist’. Ik herhaal: Senior Data Scientist. Ik moet eerlijk bekennen dat ik nog niet álles weet, maar wel een heel eind op weg ben.

2) De verwachting dat data scientists hetzelfde doen als data engineers

Veel organisaties denken dat ze op zoek zijn naar een data scientist, terwijl ze eigenlijk op zoek zijn naar een zogenaamde dataduizendpoot. Organisaties verwachten dat deze persoon de ICT-infrastructuur opzet, data prepareert, een goed model maakt en vervolgens integreert in de organisatie. Data scientists hebben inderdaad verstand van deze onderdelen. Maar deze onderdelen allemaal from scratch uitvoeren, is te veel van het goede. Sommige onderdelen behoren tot data engineering; het gestructureerd en geautomatiseerd verzamelen van data. Dit is een vakgebied dat vaak wordt ondergesneeuwd; in het artikel van O’Reilly wordt dit goed toegelicht.

3) Eén data scientist is geen data scientist

Een veelgemaakte fout is dat een data scientist geen interne sparringspartner heeft. Deze partner dient minstens een soortgelijk kennisniveau te hebben over bijvoorbeeld de data en de praktijkimplicaties van algoritmes. Tijdens mijn eerste baan heb ik ervaren hoe lastig het is om de enige data scientist te zijn binnen een organisatie(onderdeel). Het is lastig om de juiste informatie te achterhalen, en ook is er vaak geen ICT-infrastructuur aanwezig om taken te automatiseren. Dit laatste resulteert in veel handmatige, repetitieve werkzaamheden die veel tijd in beslag nemen. Hierdoor blijft er weinig tot geen tijd over voor hetgeen waarvoor je bent aangenomen: data science. Dit is ongunstig voor zowel werknemer als werkgever.

Maar hoe kom je er dan achter dat jouw organisatie wél klaar is voor een data scientist? En hoe weet je dat je de juiste persoon voor de juiste functie aanneemt? Om deze vragen te beantwoorden, moet je weten wat je met data science kan doen, wat een data scientist moet kunnen en hoe een data scientist zichzelf kan ontwikkelen. Wil je gegarandeerd succes? Scroll dan gelijk even door naar beneden.

Wat is data science en wat kun je ermee?

Data science bestaat uit computer science, wiskunde, statistiek en ICT. Waar een traditionele statisticus alles weet over zijn vakgebied, weet een data scientist hoe je dit moet combineren met een handjevol programmeerskills en wat logica. Het idee achter data science is dat waardevolle informatie uit een grote dataset wordt achterhaald. Hieronder vallen patroonherkenningstechnieken waarmee je onderliggende verbanden kunt ontdekken. Ook classificatie- en regressie-algoritmes vallen onder data science, zodat je kunt voorspellen op individueel niveau. Met andere woorden: met data science kun je als organisatie beter inspelen op de wensen van individuele klanten. Ook kan data science ervoor zorgen dat organisaties sneller en adequater beslissingen nemen.

Wat moet een data scientist kunnen?

Stel je eens voor dat je een manager bent bij een MKB-bedrijf. Je hebt een vacature voor een data scientist online gezet, waar de onderstaande 3 personen op reageren:

  • Stefan: 10 jaar werkervaring binnen de ICT-branche;
  • Pia: 5 jaar werkervaring als data-analist;
  • Bo: geen werkervaring; net de master Artificial Intelligence afgerond.

Een data scientist moet niet alleen verstand hebben van computer science, wiskunde, statistiek en ICT. Een data scientist moet ook de praktijk kunnen vertalen naar iets wat de computer begrijpt. Op deze manier hanteert de computer de juiste definitie voor de te voorspellen variabele. Een data scientist dient hiervoor goed te communiceren en samen te werken met de business.

Stefan
Stel je voor dat je Stefan kiest. Na een aantal maanden heeft hij een goede ICT-infrastructuur gecreëerd, waardoor voortaan met data gewerkt kan worden. Ook zijn alle gebruikte bronnen gevalideerd en verbeterd. Je hebt alleen nog geen antwoord gekregen op de business-gerelateerde vraagstukken die je hebt gesteld. Maar waarom niet, vraag je je af?

Pia
Stel je voor dat je Pia kiest. De eerste weken constateer je veel progressie en verbaas je je over wat Pia allemaal uit de data heeft weten te halen. Ze is erg enthousiast en heeft genoeg ideeën, maar de data blijkt nog niet geheel bruikbaar of beschikbaar te zijn. Daarnaast kunnen gegevens alleen opgehaald worden door deze handmatig te downloaden uit verschillende bronsystemen. Door al deze handmatige werkzaamheden komt Pia nauwelijks toe aan het beantwoorden van de business-gerelateerde vraagstukken door middel van data science.

Bo
Stel je voor dat je Bo kiest. Ze krijgt behoorlijk wat begeleiding, aangezien ze nog niet eerder met ongestructureerde data heeft gewerkt. Het algoritme dat Bo ontwikkelt, werkt niet beter dan de eerder bedachte oplossingen. Deze tegenvaller had voorkomen kunnen worden door van tevoren een benchmark vast te leggen waaraan de modelresultaten moesten voldoen. Ook hadden ervaren data scientists moeten helpen bij het selecteren van de juiste data.

Zowel Stefan, Pia als Bo hebben ieder zowel voor- als nadelen. Wél vullen ze elkaar perfect aan. Stefan richt een werkomgeving in, en ontsluit de data naar een datamart of datawarehouse. Pia maakt de vertaalslag tussen data science en de business. Bo kan een voorspelmodel ontwikkelen, gebaseerd op de gestructureerde datasets van Stefan, en met behulp van business-gerelateerde feedback van Pia.

Hoe kan een data scientist zichzelf ontwikkelen?

Het vakgebied rondom data science staat niet stil, en de beschikbare kennis groeit. Geef daarom als organisatie je data scientists de ruimte om nieuwe methoden en technieken uit te proberen. Ben je data scientist? Blijf jezelf dan uitdagen en ontwikkelen. De enige manier om beter te worden binnen data science is oefenen, oefenen, oefenen.

Hoe je dit moet doen, valt te betwisten. In online cursussen ontbreekt vaak de diepgang waarmee studiemateriaal gegeneraliseerd kan worden naar de praktijk. Daarnaast zijn aangeboden trainingen vaak te specifiek, en ligt de focus vaak alleen op afgekaderde settings. Wil je wel een online cursus volgen? Pas de opgedane kennis dan gelijk toe op een onderwerp waar je in de praktijk mee bezig bent. Zo verwerk je de kennis beter, en hier heb je op de lange termijn profijt van. Ook weet je hoe je deze kennis moet toepassen. Er zijn maar weinig mensen die voldoende discipline hebben om data science kennis, opgedaan vanuit online cursussen, direct compleet eigen te maken. Daarnaast zijn er maar weinig mensen die ook nog eens in staat zijn om deze kennis te generaliseren naar dagelijkse werkzaamheden.

Kennis van data science versus kennis van het veld

Data scientists kunnen op twee gebieden van elkaar onderscheiden geworden: 1) kennis van data science en 2) kennis van het veld.

plaatje blog Totta

Een business analist heeft weinig kennis over data science, maar veel kennis over het veld waarin data science wordt toegepast. Een data science consultant heeft daarentegen veel kennis over data science, maar (nog) weinig kennis over het veld. Aangezien ik consultant en trainer ben, val ik onder dit type. Ik werk continu in een andere business-setting, maar ik kan wel mijn data science kennis generaliseren naar al deze settings. De interne data scientist is de ideale data scientist: deze persoon heeft kennis over zowel data science als het veld, en weet dit goed te combineren.

In de praktijk kunnen de hierboven omschreven typen veel van elkaar leren. Als je deze typen combineert, is dit niet alleen gunstig voor de organisatie, maar ook voor de Stefans, Pia’s en Bo’s in kwestie. Zij kunnen de opgedane kennis – geleerd van elkaar – direct toepassen in de praktijk. Daarnaast wordt er tijdens dit soort processen gewerkt aan de relatie tussen de business en het data science team. Kortom, de meerwaarde van deze formatie heeft zich al vaak bewezen.

Succes gegarandeerd!

Hoe zorg je ervoor dat je er als organisatie ‘klaar’ voor bent om een data scientist aan te nemen? Ten eerste moet je duidelijk in kaart brengen wat je precies van een data scientist verwacht. Qua kennisniveau, qua werkzaamheden, en qua beoogde resultaten. Houd dit goed in gedachten tijdens het sollicitatieproces, en stel kritische vragen aan de sollicitanten. Ten tweede moet je een multidisciplinair (data science) team creëren om een data scientist succesvol te laten zijn. In dit team moeten meerdere facetten, zoals datakwaliteit en de business-situatie, een rol spelen. Communicatie tussen de teamleden, met ieder een andere expertise, is ook van essentieel belang. Ten slotte is het belangrijk om een data scientist uit te dagen, verder te laten denken en aan te sporen om zich te ontwikkelen, zowel intern als extern.

Meer advies over de optimale data science formaties en -functies binnen jouw organisatie? Kom dan gerust een kop koffie drinken!

 

De blog is eerder verschenen op https://www.tottadatalab.nl/2019/05/27/wat-zoek-jij-data-scientist/

Auteur: Jan Roekens, Hoofdredacteur

Deze artikelen vind je vast ook interessant

Ook de laatste bytes ontvangen?