Synthetische data – aantrekkingskracht en risico

Door Jan Roekens | 19-09-2024

Het vak van insights is verankerd in drie basisprincipes: nauwkeurigheid, objectiviteit en transparantie. Dat zorgt ervoor dat marktonderzoek betrouwbaar en bruikbaar is en vooral ethisch gebeurt. Maar nieuwe technologie neemt die principes in alle enthousiasme niet al te nauw. Dat betoogt Crispin Beale, Group President van Behaviorally.

▼

Synthetische data zijn zo langzamerhand wel bekend. In wezen bootsen ze statistische eigenschappen na van eerder verzamelde data uit de echte wereld. Het gaat om kenmerken en patronen van real-world-data zonder persoonlijk identificeerbare informatie of gevoelige informatie. Ze worden gecreëerd door middel van wiskundige modellen en algoritmen.

Dataschaarste

Synthetische data maken het ook mogelijk om problemen met dataschaarste op te lossen, je kunt verder voldoen aan de privacywetgeving en mogelijkheden verkennen zonder je uitsluitend te baseren op beperkte of gevoelige data uit de echte wereld. Ondanks die voordelen brengen synthetische data nog steeds risico’s met zich mee, vooral wanneer ze worden gebruikt als vervanging van data uit de echte wereld.

Echte wereld

De aantrekkingskracht van synthetische data zit bijvoorbeeld in het ‘bereiken’ van moeilijk te interviewen bevolkingsgroepen of het opvullen van hiaten in de data. De branche moet wel voorzichtig zijn in het gebruik en de nodige checks and balances inbouwen, zegt Beale. Net zoals in het traditionele onderzoek nauwkeurigheid en validatie de norm zijn, zo moeten synthetische modellen met data uit de echte wereld worden bijgewerkt om de nauwkeurig te blijven en relevant. En je moet helder communiceren over het gebruik van synthetische data.

Persona’s

Synthetische data kunnen van onschatbare waarde zijn in specifieke situaties. In medisch onderzoek kunnen bijvoorbeeld synthetische persona’s worden ontworpen op basis van bestaande gegevens, om het gedrag van patiënten te bestuderen zonder de privacy in gevaar te brengen. Maar bredere toepassingen, zoals het gebruik van synthetische data om enquêtequota te halen, kunnen problematisch zijn. Synthetische antwoorden komen mogelijk niet overeen met data uit de echte wereld, wat leidt tot onnauwkeurige inzichten.

Wat kan er gebeuren?

Het gebruik van synthetische data kan leiden tot:

Vooringenomenheid en gebrek aan representativiteit. Synthetische data worden gegenereerd op basis van modellen die onbedoeld vooroordelen in trainingsgegevens kunnen weerspiegelen. Dat kan resulteren in vertekende inzichten die de doelpopulatie niet nauwkeurig weergeven, vooral als de algoritmen niet geavanceerd genoeg zijn om een breed scala aan demografische gegevens en gedragingen te simuleren.

Kwaliteits- en betrouwbaarheidsproblemen. De kwaliteit van synthetische data is sterk afhankelijk van de algoritmen die worden gebruikt om ze te genereren. Slecht ontworpen modellen kunnen gegevens van lage kwaliteit produceren, wat leidt tot onbetrouwbare inzichten en verkeerde beslissingen.

Ethische en transparantiekwesties. Het gebruik van synthetische gegevens moet transparant worden gecommuniceerd aan klanten en belanghebbenden. Als je dat niet doet, dan kan dit leiden tot vertrouwensproblemen en ethische dilemma’s, vooral als de data worden gebruikt om resultaten te manipuleren of als de beperkingen niet duidelijk zijn.

Regelgevings- en nalevingsrisico’s. Het creëren en gebruiken van synthetische data moet voldoen aan de wetgeving inzake gegevensbescherming en ethische normen. Dit is vooral belangrijk als niet-naleving kan leiden tot juridische maatregelen.

Impact op de besluitvorming. Beslissingen op basis van synthetische data die het echte consumentengedrag niet nauwkeurig weerspiegelen, kunnen leiden tot slechte bedrijfsresultaten. Te veel vertrouwen op synthetische data kan ook het belang verminderen van menselijk oordeel en kwalitatieve inzichten, en die zijn cruciaal voor het begrijpen van complex menselijk gedrag.

Besmette ‘data-lakes’

Synthetische data die niet correct zijn, kunnen zogenaamde ‘data-lakes’ besmetten, grote data-opslagplaatsen waar gegevens uit verschillende bronnen worden verzameld en geanalyseerd. Als synthetische gegevens niet goed in kaart worden gebracht en beheerd, dan kan dit leiden tot analyses die volledig zijn gebaseerd op kunstmatige gegevens, zonder input uit de echte wereld. Dat kan ernstige gevolgen hebben voor de validiteit van onderzoeksresultaten en de op basis daarvan genomen beslissingen.

Om dit te voorkomen, moet de sector mechanismen toepassen om synthetische gegevens in datasets te identificeren en te taggen, zodat ze op de juiste manier kunnen worden gevolgd en beheerd.

De branche moet een evenwicht vinden tussen innovatie en principes van striktheid, objectiviteit en transparantie. Alleen zo kunnen we de voordelen van synthetische data benutten, zegt Beale, en tegelijkertijd de risico’s beperken.

Bron: greenbook.org

Auteur: Jan Roekens, Hoofdredacteur

Deze artikelen vind je vast ook interessant

Actueel, Nieuws | 09 juni 2026

09 juni 2026

Kort nieuws: overnames en rechtszaken

De afgelopen dagen kwamen er vanuit de onderzoeks- en marketingsector twee berichten voorbij die de moeite waard zijn om te signaleren. ▼ 1. Europese uitgevers klagen Google aan in Amsterdam Een groep van ruim twintig Europese nieuwsuitgevers, waaronder de Nederlandse FD Mediagroep, heeft Google voor de rechtbank in Amsterdam gedaagd. De eisers stellen dat zij…

Actueel, Onderzoek | 09 juni 2026

09 juni 2026

40% van kiezers beslist pas op het laatste moment. Wat zegt dat over peilen?

Bij de Tweede Kamerverkiezingen van oktober 2025 maakte vier op de tien kiezers de partijkeuze pas enkele dagen voor of op de verkiezingsdag zelf. Dat blijkt uit het Nationaal Kiezersonderzoek 2025, uitgevoerd onder meer dan zesduizend Nederlanders door een samenwerkingsverband van Nederlandse universiteiten en het Sociaal en Cultureel Planbureau. Voor marktonderzoekers en data-professionals is dat…

Actueel, Interviews, Onderzoek | 09 juni 2026

09 juni 2026

Mitz: databeschikbaarheid en privacy, wie bepaalt waar de grens ligt?

Begin dit jaar publiceerde Pointer een onderzoek dat flink wat stof deed opwaaien. Het nieuwe landelijke toestemmingssysteem voor medische data, Mitz, blijkt kwetsbaarheden te hebben. Zo kunnen apothekers toestemmingen aanpassen zonder dat de patiënt aanwezig is. Het ministerie van Volksgezondheid, Welzijn en Sport (VWS) zou daarbij onvoldoende maatregelen hebben genomen. De kritiek liet niet lang…

Analytics

Data Science

Marktonderzoek

Branches

Events

Overig

Synthetische data – aantrekkingskracht en risico

Dataschaarste

Echte wereld

Persona’s

Wat kan er gebeuren?

Besmette ‘data-lakes’

Gerelateerde bytes

Kort nieuws: overnames en rechtszaken

40% van kiezers beslist pas op het laatste moment. Wat zegt dat over peilen?

Mitz: databeschikbaarheid en privacy, wie bepaalt waar de grens ligt?

Wat doe je zelf, en wat laat je aan AI over? Onderzoekers zoeken de grens

AI-adoptie in (onderzoeks)organisaties: professionals worden te laat meegenomen

Vacatures

Projectmanager

Over Daily Data Bytes

Adverteren

Kennispartner worden?

Meld je nu aan voor de Daily Data Bytes nieuwsbrief!

Analytics

Data Science

Marktonderzoek

Branches

Events

Overig

Synthetische data – aantrekkingskracht en risico

Dataschaarste

Echte wereld

Persona’s

Wat kan er gebeuren?

Besmette ‘data-lakes’

Deze artikelen vind je vast ook interessant

Gerelateerde bytes

Vacatures

Meld je nu aan voor de Daily Data Bytes nieuwsbrief!

Over Daily Data Bytes

Adverteren

Kennispartner worden?

Meld je nu aan voor de Daily Data Bytes nieuwsbrief!