Synthetische data – aantrekkingskracht en risico

Door Jan Roekens | 19-09-2024

Het vak van insights is verankerd in drie basisprincipes: nauwkeurigheid, objectiviteit en transparantie. Dat zorgt ervoor dat marktonderzoek betrouwbaar en bruikbaar is en vooral ethisch gebeurt. Maar nieuwe technologie neemt die principes in alle enthousiasme niet al te nauw. Dat betoogt Crispin Beale, Group President van Behaviorally.

Synthetische data zijn zo langzamerhand wel bekend. In wezen bootsen ze statistische eigenschappen na van eerder verzamelde data uit de echte wereld. Het gaat om kenmerken en patronen van real-world-data zonder persoonlijk identificeerbare informatie of gevoelige informatie. Ze worden gecreëerd door middel van wiskundige modellen en algoritmen.

Dataschaarste

Synthetische data maken het ook mogelijk om problemen met dataschaarste op te lossen, je kunt verder voldoen aan de privacywetgeving en mogelijkheden verkennen zonder je uitsluitend te baseren op beperkte of gevoelige data uit de echte wereld. Ondanks die voordelen brengen synthetische data nog steeds risico’s met zich mee, vooral wanneer ze worden gebruikt als vervanging van data uit de echte wereld.

Echte wereld 

De aantrekkingskracht van synthetische data zit bijvoorbeeld in het ‘bereiken’ van moeilijk te interviewen bevolkingsgroepen of het opvullen van hiaten in de data. De branche moet wel voorzichtig zijn in het gebruik en de nodige checks and balances inbouwen, zegt Beale. Net zoals in het traditionele onderzoek nauwkeurigheid en validatie de norm zijn, zo moeten synthetische modellen met data uit de echte wereld worden bijgewerkt om de nauwkeurig te blijven en relevant. En je moet helder communiceren over het gebruik van synthetische data.

Persona’s

Synthetische data kunnen van onschatbare waarde zijn in specifieke situaties. In medisch onderzoek kunnen bijvoorbeeld synthetische persona’s worden ontworpen op basis van bestaande gegevens, om het gedrag van patiënten te bestuderen zonder de privacy in gevaar te brengen. Maar bredere toepassingen, zoals het gebruik van synthetische data om enquêtequota te halen, kunnen problematisch zijn. Synthetische antwoorden komen mogelijk niet overeen met data uit de echte wereld, wat leidt tot onnauwkeurige inzichten.

Wat kan er gebeuren?

Het gebruik van synthetische data kan leiden tot:

Vooringenomenheid en gebrek aan representativiteit. Synthetische data worden gegenereerd op basis van modellen die onbedoeld vooroordelen in trainingsgegevens kunnen weerspiegelen. Dat kan resulteren in vertekende inzichten die de doelpopulatie niet nauwkeurig weergeven, vooral als de algoritmen niet geavanceerd genoeg zijn om een breed scala aan demografische gegevens en gedragingen te simuleren.

Kwaliteits- en betrouwbaarheidsproblemen. De kwaliteit van synthetische data is sterk afhankelijk van de algoritmen die worden gebruikt om ze te genereren. Slecht ontworpen modellen kunnen gegevens van lage kwaliteit produceren, wat leidt tot onbetrouwbare inzichten en verkeerde beslissingen.

Ethische en transparantiekwesties. Het gebruik van synthetische gegevens moet transparant worden gecommuniceerd aan klanten en belanghebbenden. Als je dat niet doet, dan kan dit leiden tot vertrouwensproblemen en ethische dilemma’s, vooral als de data worden gebruikt om resultaten te manipuleren of als de beperkingen niet duidelijk zijn.

Regelgevings- en nalevingsrisico’s. Het creëren en gebruiken van synthetische data moet voldoen aan de wetgeving inzake gegevensbescherming en ethische normen. Dit is vooral belangrijk als niet-naleving kan leiden tot juridische maatregelen.

Impact op de besluitvorming. Beslissingen op basis van synthetische data die het echte consumentengedrag niet nauwkeurig weerspiegelen, kunnen leiden tot slechte bedrijfsresultaten. Te veel vertrouwen op synthetische data kan ook het belang verminderen van menselijk oordeel en kwalitatieve inzichten, en die zijn cruciaal voor het begrijpen van complex menselijk gedrag.

Besmette ‘data-lakes’

Synthetische data die niet correct zijn, kunnen zogenaamde ‘data-lakes’ besmetten, grote data-opslagplaatsen waar gegevens uit verschillende bronnen worden verzameld en geanalyseerd. Als synthetische gegevens niet goed in kaart worden gebracht en beheerd, dan kan dit leiden tot analyses die volledig zijn gebaseerd op kunstmatige gegevens, zonder input uit de echte wereld. Dat kan ernstige gevolgen hebben voor de validiteit van onderzoeksresultaten en de op basis daarvan genomen beslissingen.

Om dit te voorkomen, moet de sector mechanismen toepassen om synthetische gegevens in datasets te identificeren en te taggen, zodat ze op de juiste manier kunnen worden gevolgd en beheerd.

De branche moet een evenwicht vinden tussen innovatie en principes van striktheid, objectiviteit en transparantie. Alleen zo kunnen we de voordelen van synthetische data benutten, zegt Beale, en tegelijkertijd de risico’s beperken.

Bron: greenbook.org

Auteur: Jan Roekens, Hoofdredacteur

Deze artikelen vind je vast ook interessant

Ook de laatste bytes ontvangen?