The Future of Data Collection

Door Jan Roekens | 15-01-2019

De MOA neemt afscheid van prof.dr. Edith de Leeuw als MOA-hoogleraar Methoden en Statistiek aan de Universiteit van Utrecht. Tijdens het afscheidssymposium kijkt Edith de Leeuw1 nog één keer vooruit naar the Future of Data Collection.  


Auteur Edith de Leeuw

Op 29 oktober wordt wereldwijd de verjaardag van het Internet gevierd; het was op 29 oktober 1969 dat de eerste elektronische boodschap werd verstuurd vanaf een computer op UCLA naar een computer op Stanford University2 . Het was de bedoeling dat UCLA het woordje ‘log’ zou zenden en dat Stanford zou antwoorden met ‘in’, maar nadat de letters ‘l’ en ‘o’ waren ingetikt, resulteerde het tikken van de ‘g’ in een memory overload. De eerste boodschap was dus ‘lo’ en kan gelezen worden als ‘lo and behold’, vrij vertaald als ‘kijk eens aan’3.

Het was ook op 29 oktober (2018) dat ik officieel afscheid nam als MOA-hoogleraar bij de Universiteit Utrecht. Maar geen paniek, een hoogleraar heeft na haar emeritaat (duur woord voor pensioen voor hoogleraren en predikanten), nog vijf jaar alle rechten van een reguliere hoogleraar, dus voorlopig ben ik voor het marktonderzoek en de wetenschap nog niet verloren, en voor u allen nog steeds bereikbaar via e.d.deleeuw@uu.nl. Wel is het tijd voor vernieuwing en verjonging, vandaar dat ik tien jaar na mijn oratie4 bij het aanvaarden van mijn hoogleraarschap geen traditioneel afscheidscollege gaf, maar een symposium organiseerde over de toekomst van data verzamelen. Tijdens dit symposium kwam juist de jonge generatie aan het woord, die in een serie van spannende presentaties het stokje overnam, en ons meenam vanaf de online enquêtes uit mijn oratie naar de nieuwe wereld van big data, mixed mode, multiple devices, en smart measurements. Meer dan 120 vertegenwoordigers vanuit de universiteiten, het marktonderzoek, en de overheid bezochten dit event, van jong (SMART) tot oud (Greyhound).

Frauke Kreuter van de Universiteit van Maryland betoogde in haar keynote dat Big Data en (online) surveys elkaar niet alleen aanvullen, maar ook versterken. Dit benadukte ze in haar titel: “Big data and surveys: the whole is greater than the sum of its parts”. Een aardige anekdote is dat de grote Big Data verzamelaars, zoals Google, Facebook, Twitter, en Amazon allemaal een klassieke survey afdeling hebben en voor extra informatie en specifieke projecten online vragenlijsten uitzetten. Anderzijds verzamelen ook survey platforms, zoals Survey Monkey, big data over gebruikers en hun vragenlijsten, om gerichte feedback aan gebruikers te kunnen geven en vragen en kwaliteit van data verder te optimaliseren5. De beide werelden hebben elkaar duidelijk nodig. Volgens Frauke Kreuter is de populariteit van Big Data binnen de surveyindustrie te herleiden tot de almaar toenemende nonrespons, waardoor de kosten per ingevulde vragenlijst extreem toenamen. Big Data hielden toen een grote belofte in: geen nonrespons, veel data, en relatief lage kosten. De eerste resultaten waren veelbelovend, zo kon men in de US de officiële inflatie cijfers goed voorspellen uit prijs-indicatoren verkregen door onder andere web scraping6. Maar er waren ook uitschieters: punten in de tijd waar de overeenkomst minder goed was. Om deze uitschieters te begrijpen en om anomalieën te verklaren heb je additionele data nodig. Zo blijkt dat mensen die volle tijd werken vooral na werktijd veel apps gebruiken, parttimers doen dit voornamelijk tijdens de lunch, en werkzoekende kijken continue naar hun apps. Dit kan vertekening opleveren als werkstatus samenhangt met de verzamelde ‘big data’, er is dan risico van selectie bias. Om dit te onderzoeken zijn aanvullende gegevens nodig uit andere bronnen en is er helderheid (transparancy) nodig over de gevolgde procedures. Maar Big Data zijn onmisbaar en we moeten nieuwe onderzoekers trainen in nieuwe vaardigheden, zoals in het Coleridge initiatief gebeurt7.

Bella Struminskaya van de Universiteit Utrecht gaf een boeiend verslag over het gebruik van smartphones binnen onderzoek (Passive mobile measurement and performing additional tasks on smartphones). Zij benadrukte dat zowel de grote penetratie van smartphones als de beschikbaarheid van geavanceerde sensors in smartphones nieuwe mogelijkheden voor passieve dataverzameling en zo de enquetedruk op de respondenten kan verminderen. Ze illustreerde de waarde van deze methoden ana de hand van een Amerikaans onderzoek waarin sociaal economische status goed voorspeld kon worden uit data over mobiel telefoongebruik8. Maar Bella Struminskaya waarschuwde ook voor mogelijke selectie effecten en vertekeningen bij gebruik van passieve data. Het grootste probleem is dat maar een beperkt aantal van de aangezochte respondenten bereid is om een speciale app voor onderzoek en passieve metingen te downloaden9. Er is een privacy paradox, velen zijn bereid hun data te delen als Google, of AH het vraagt, maar wanneer onderzoekers, zelfs als ze van het CBS komen het vragen is men terughoudender.

Peter Lugtig, ook van de Universiteit Utrecht, betoogde in ‘the Future of web panels’ dat juist in het tijdperk van Big data online panels een belangrijke rol spelen. Online panels stellen ons in staat om Big Data te verrijken en subjectieve data, zoals attituden, te koppelen aan gedragsgegevens. Ze stellen ons ook in staat om veranderingen over de tijd nauwkeurig te onderzoeken. Ondanks dat de online wereld sterk veranderd is, sinds het begin van online onderzoek rond 2000, ziet hij de toekomst niet somber in en geeft waardevolle tips over ‘how to future-proof web panels’.

Het wetenschappelijke gedeelte werd besloten met een spetterende presentatie van Caroline Teeffelen van Ruigrok NetPanel over de voor- en nadelen van Virtual Reality als onderzoeksmethode. Zij illustreerde dit aan de hand van een pilot-onderzoek van de aantrekkelijkheid en gebruiksgemak van nieuwe (nog virtuele) winkelschappen. VR heeft grote voordelen en kan ook binnen kwantitatief onderzoek gebruikt worden, de onderzoeker heeft een grote mate van controle om verschillende virtuele opties met elkaar te vergelijken in een experiment. Deelnemers aan het onderzoek beoordelen nu een echt realistische situatie en vinden het bovendien een leuke en plezierige ervaring. Ook kunnen verschillende databronnen gecombineerd worden, zoals eye-tracking en evaluatie-gegevens door respondenten. Het spreekt voor zich dat dit type onderzoek tijd kost, met name om de virtuele omgeving levensecht te creëren, en ook de respondenten moeten zeker in het begin nog wennen aan VR. Maar Virtual Reality en Augmented Reality zijn waardevolle hulpmiddelen bij onderzoek, en ook bij training van militairen zoals tijdens de levendige discussie bleek.

Wanneer u geïnteresseerd bent in de presentaties, dan kunt u deze opvragen bij Marianne Geelhoed via email m.l.geelhoed@uu.nl onder vermelding presentaties afscheidssymposium Edith de Leeuw

 

1 Prof. dr. Edith de Leeuw is Emirita MOA-hoogleraar Methoden en Statistiek aan de Universiteit van Utrecht. Zie ook https://www.vpro.nl/programmas/nwq/kijk/afleveringen/1994.html
2 Voor de geschiedenis , zie https://www.calendarlabs.com/holidays/international/international-internet-day.php
3 Een uitdrukking van verassing, zie https://en.wiktionary.org/wiki/lo_and_behold
4 Passen en meten online: De kwaliteit van Internet enquêtes https://edithl.home.xs4all.nl/pubs/ORATIE.pdf en https://moa04.artoo.nl/clou-moaweb-images/images/bestanden/pdf/Jaarboeken_MOA/JaarboekMarktonderzoek_2010.pdf
5 Survey onderzoek en big data maken big survey, CLOU, https://www.cloutoday.nl/onderwerpen-cloutoday/actueel/3744-survey-on
6 https://www.pricestats.com/
7 http://coleridgeinitiative.org/
8 https://www.researchgate.net/publication/284766595_Predicting_poverty_and_wealth_from_mobile_phone_metadata
9 Willingness of online panelists to perform additional tasks, zie https://mda.gesis.org/index.php/mda/article/view/2018.01

Auteur: Jan Roekens, Hoofdredacteur

Deze artikelen vind je vast ook interessant

Ook de laatste bytes ontvangen?