Synthetische data – nuttig, handig, en… helemaal verzonnen

Door Robert Heeg | 05-12-2023

De mogelijkheden van synthetische data zijn onuitputtelijk. Ze vergroten de privacy, verbeteren AI-modellen en reduceren vooroordelen. Maar kun je ze ook vertrouwen? ‘Misschien gaan data hun waarde wel helemaal verliezen.’

Op ESOMAR’s Research World-platform analyseerde Matt Hay, oprichter en CEO van techplatform Bulbshare, recentelijk de voordelen en risico’s van synthetische data. Voor wie niet met het fenomeen bekend is: synthetische data zijn door een algoritme of een computersimulatie gegenereerde gegevens die echte data kunnen aanvullen of vervangen. Volgens het CBS simuleren deze data de kenmerken van relaties tussen personen en objecten zodat de realiteit kan worden nagebootst zonder dat de persoon of het object geïdentificeerd wordt. Synthetische data kunnen AI-modellen verbeteren, vooroordelen reduceren, en systemen testen waar echte data vanwege databeveiliging niet gebruikt mogen worden.

Dataschaarste

Synthetische data zijn een gevolg van dataschaarste. Was de uitdaging eerst dat we te veel (big) data moesten doorzoeken, daar krijgen we in het AI-tijdperk te maken met data die binnenkort niet groot genoeg zijn. Hay beargumenteert dat de concurrentie om grote taalmodellen (LLM’s) te ontwikkelen toeneemt en dat voor het verfijnen, trainen en herhalen van dergelijke programma’s heel veel gegevens nodig zijn. ‘Wanneer een grondstof schaars is, maken mensen er een eigen versie van. Synthetische data zijn in opkomst als oplossing voor het grote datatekort.’

Gartner staaft Hay’s voorspelling. Het onderzoeks- en adviesbureau ziet een snelle groei in het gebruik van generatieve AI om synthetische gegevens te creëren. De last van het verkrijgen van real world-gegevens wordt zo verlicht, en machine learning-modellen kunnen effectiever worden getraind. Gartner voorspelt dat in 2024 liefst 60 procent van de gegevens voor AI synthetisch is. Deze data simuleren de actuele realiteit, schetsen toekomstscenario’s, en verminderen de risico’s van AI. In 2021 was nog slechts 1 procent van de gegevens voor AI synthetisch.

Gezonde sigaretten

Hay gelooft dat de toepassingen voor synthetische data grenzeloos zijn. Als voorbeeld noemt hij Waymo, een bedrijf voor zelfrijdende auto’s, dat in simulaties vaardigheden test en verfijnt. ‘De voordelen zijn legio; de data zijn goedkoop te verkrijgen, en met de steeds strenger wordende GDPR-regelgeving is het cruciaal dat je met gefabriceerde gegevens geen last hebt van privacyvraagstukken of vertragende ethische beperkingen.’

Is hij daarmee kritiekloos voorstander van synthetische data? Allesbehalve; Hay waarschuwt juist voor misbruik. ‘Een dataset die door een algoritme is gemaakt, druist in tegen

empirisme; onderbouwde feiten vormen de kern van wetenschap, besluitvorming en logica. Iedereen kan een dataset laten maken die bewijst dat sigaretten het leven van 60plussers verlengen.’ Hij voorziet een nieuw debat tussen voorstanders van primaire bronnen en mensen die met een gerust hart op de machine vertrouwen.

Nooit representatief

Synthetische data gaan hoe dan ook veel échte data vervangen en dus worden meer beslissingen gebaseerd op de ‘visie’ van algoritmen. Hay citeert Mikkel Krenchel en Maria Cury, partners bij adviesbureau ReD Associates. Zij waarschuwen dat bedrijven door de groeiende beschikbaarheid van synthetische data minder echt onderzoek en gegevensverzameling gaan doen. Gevaarlijk, vinden ze, omdat zelfs de beste synthetische dataset nooit representatief is voor onze almaar veranderende realiteit. Het Zwitserse bedrijf Syntheticus, dat synthetische data levert, onderstreept zelf de beperkingen ervan, met name het gebrek aan realisme en nauwkeurigheid: ‘Hoewel het patronen repliceert en correlaties vastlegt, is het moeilijk om realistische synthetische gegevens te genereren die de nuances van de echte wereld vastleggen.’

Feiten zijn heilig

Het CBS voerde al een PoC (Proof of Concept) uit met synthetische data. Met het softwarepakket van de Nederlandse startup Syntho werd een deel van het Algemeen Bedrijvenregister (ABR) gesynthetiseerd. Dat was leerzaam, verklaart het CBS, maar voor een bredere inzet van synthetische data is meer onderzoek nodig over het beoordelen van onthullingsrisico’s.

Ook Hay wijst op onvoorspelbare gevaren: ‘Zonder de juiste regelgeving en academisch onderzoek kan het onze vooroordelen bevestigen of leugens helpen fabriceren. Misschien gaan data hun waarde wel helemaal verliezen.’ Onderzoekers moeten daarom voorzichtig en terughoudend zijn in het gebruik van synthetische data, benadrukt hij. ‘De technologie is misschien een uitkomst, maar feiten zijn nog steeds heilig.’

Auteur: Robert Heeg,

Deze artikelen vind je vast ook interessant

Actueel, Onderzoek | 08 juli 2026

08 juli 2026

Waarschuwingslabels maken mensen ook wantrouwiger bij correcte informatie

Waarschuwingslabels onder online berichten helpen lezers desinformatie te herkennen, maar maken hen tegelijkertijd ook sceptischer over correcte informatie. Dat is de centrale bevinding uit het proefschrift van communicatiewetenschapper Lina Buttgereit aan de Universiteit van Amsterdam. ▼ Buttgereit onderzocht hoe mensen in het dagelijks leven omgaan met desinformatie. Daarvoor gebruikte zij een ongebruikelijke methode. Deelnemers uit…

Actueel, Onderzoek | 08 juli 2026

08 juli 2026

Vaardigheidskloof tussen migrantengezinnen en andere Nederlanders krimpt sterk binnen één generatie

Kinderen van migranten uit Turkije, Marokko, Suriname en de voormalige Nederlandse Antillen halen een groot deel van de achterstand van hun ouders in op het gebied van taal en rekenen. Volgens nieuw onderzoek van hoogleraar Dinand Webbink van Erasmus School of Economics en wetenschappers Tijana Prokic-Breuer en Stan Vermeulen van Maastricht University krimpen de verschillen…

Actueel, insights impact, Onderzoek | 08 juli 2026

08 juli 2026

Niet kopers zijn een goudmijn voor marktonderzoek

Stel: je voert een survey uit voor een bekende fastfoodketen. Logisch dat je je richt op kopers en potentiële kopers, zij leveren tenslotte de omzet. Toch blijft daarmee een belangrijke groep buiten beeld: mensen die het merk bewust links laten liggen. Dat is een gemiste kans, stellen onderzoekers in een analyse op Quirk’s. Wie begrijpt…

Analytics

Data Science

Marktonderzoek

Branches

Events

Overig

Synthetische data – nuttig, handig, en… helemaal verzonnen

Dataschaarste

Gezonde sigaretten

Nooit representatief

Feiten zijn heilig

Gerelateerde bytes

Waarschuwingslabels maken mensen ook wantrouwiger bij correcte informatie

Vaardigheidskloof tussen migrantengezinnen en andere Nederlanders krimpt sterk binnen één generatie

Niet kopers zijn een goudmijn voor marktonderzoek

Onderzoek: steeds meer kiezers zijn de Tweede Kamerverkiezingen moe

Essent over data en klantgedrag: modellen voorspellen, mensen verklaren

Vacatures

Fulltime Senior (Neuromarketing) Researcher at Unravel

Over Daily Data Bytes

Adverteren

Kennispartner worden?

Meld je nu aan voor de Daily Data Bytes nieuwsbrief!

Analytics

Data Science

Marktonderzoek

Branches

Events

Overig

Synthetische data – nuttig, handig, en… helemaal verzonnen

Dataschaarste

Gezonde sigaretten

Nooit representatief

Feiten zijn heilig

Deze artikelen vind je vast ook interessant

Gerelateerde bytes

Vacatures

Meld je nu aan voor de Daily Data Bytes nieuwsbrief!

Over Daily Data Bytes

Adverteren

Kennispartner worden?

Meld je nu aan voor de Daily Data Bytes nieuwsbrief!