Synthetische consumenten zijn veelbelovend, maar ook onbetrouwbaar, als je ze verkeerd inzet. Nieuw onderzoek laat zien waar de grens ligt.
▼
Hoe een Peruaanse oma het onderzoek op gang bracht
Een 86-jarige grootmoeder in Peru vertelde onderzoekers dat ze doodsbang was dat haar kinderen het huis zouden verlaten. Haar digitale tweelingzus, een door AI gegenereerde versie van hetzelfde profiel, zei dat ze daar trots op zou zijn. Ook stelde dezelfde AI voor om haar budget en boodschappen te regelen met behulp van een smartphone. Leuke gedachte, maar er was één probleem: de echte grootmoeder had geen mobiele telefoon.
Die tegenstelling vormde het startpunt van een van de meest grondige validatiestudies naar synthetische consumenten tot nu toe. Onderzoeker Adriana Rocha vergeleek de uitkomsten van meer dan 11.000 synthetische interviews met echt menselijk gedrag, verspreid over drie opeenvolgende onderzoeksfasen en gebaseerd op zes AI-modellen in drie landen.
Waar het werkt en waar het faalt
Synthetische respondenten zijn geen vervanging voor echte mensen, maar ook geen zinloze simulatie. Ze werken, maar alleen als je ze voor de juiste taak inzet. De studie identificeert wat Rocha de Identity-Operation Gradient noemt: een driedeling die beschrijft waar AI-respondenten betrouwbaar zijn en waar niet. Samengevat: hoe meer gedrag gekoppeld is aan een identiteitsverhaal, hoe beter AI het kan simuleren. Hoe meer het gaat om puur operationeel gedrag zonder verhaal, hoe slechter.
Dat bleek al in de eerste fase, waarin werd onderzocht of synthetische personen een stabiele persoonlijkheid kunnen hebben. Het antwoord was ja, maar alleen als die persoonlijkheid bewust wordt geprogrammeerd. Een synthetische respondent wijkt niet af van wat is ingesteld en kan op basis van persoonlijkheid alleen geen gedrag voorspellen.
De tweede fase voegde daar gedragsparameters aan toe, zoals verliesaversie en besluitvormingsstijl, afgeleid van gepubliceerd onderzoek naar menselijke beslissingen. Persoonlijkheid alleen bleek nauwelijks voorspellend voor concreet gedrag. Pas wanneer gedragsparameters expliciet werden meegegeven, verbeterde de voorspelling merkbaar.
De derde fase was de echte test: synthetische consumenten werden vergeleken met twee jaar aan werkelijke aankoopdata van 2.500 Amerikaanse huishoudens. Daaruit bleek dat het modelniveau meer bepaalt dan de merknaam. Geavanceerde en middenklassemodellen presteren vergelijkbaar, maar goedkopere modellen vallen terug bij complexere taken. Opvallend was ook dat het toevoegen van meer data niet altijd helpt: persoonlijkheidsprofielen die bovenop gedragsdata werden gelegd, verslechterden de voorspelling in sommige gevallen juist. Het model ging dan rolgedrag vertonen op basis van het profiel, in plaats van de gedragsdata te volgen.
De echte waarde voor onderzoek
De praktische conclusie is genuanceerd maar bruikbaar. Synthetische respondenten zijn het meest waardevol als voorselectielaag: test honderd concepten synthetisch, valideer de tien overlevers met echte respondenten en lanceer de drie sterkste. Zo combineer je de snelheid en kostenbesparing van synthetische methoden met de betrouwbaarheid van menselijke validatie.
De studie trekt ook een vergelijking met eerdere methodologische verschuivingen in het vak, van telefonisch onderzoek in de jaren zeventig tot online panels in de jaren 2000. Elke nieuwe methode stelde dezelfde vraag: waarvoor werkt dit, en waarvoor niet? Synthetische consumenten zijn de volgende stap in die ontwikkeling, maar de vraag blijft dezelfde.

