Generatieve AI- tools, zoals ChatGPT, Llama en Bard zullen waarschijnlijk leiden tot snellere en efficiëntere inzichten uit marktonderzoekdata. Maar GenAI kan ook een tweesnijdend zwaard zijn, want er zijn zorgen over het feit dat AI tegen ons gebruikt kan worden. Wat betekent dat voor de strijd tegen fraudeurs?
▼
Er is een begrijpelijke bezorgdheid over het feit dat GenAI het fraudeurs mogelijk maakt om op grote schaal antwoorden te produceren die betrouwbaar lijken. Fraudeurs kunnen bijvoorbeeld AI een open vraag uit een enquête voorleggen en vragen om meer antwoorden van een bepaalde woordlengte vanuit het perspectief van een individu met bepaalde demografische kenmerken. AI zal dan een serie unieke en redelijke goede antwoorden kunnen produceren. Daarom is het simpelweg beoordelen van open antwoorden steeds minder betrouwbaar geworden. Dit is een uitdaging voor fraudedetectie in marktonderzoek, want open antwoorden zijn historisch gezien belangrijke en bruikbare middelen voor datachecks.
Datakwaliteit
Al voor de komst van GenAI was het ingewikkeld om data op te schonen en hoge kwaliteit te garanderen in de open antwoorden. Slechte open antwoorden kunnen weliswaar wijzen op fraude, maar ze zijn vaak het gevolg van wat echte, maar eerlijke panelleden zeggen.
Sommige mensen hebben een hekel aan open vragen, maar geven graag gesloten antwoorden. Er zijn ook slecht geschreven enquêtes die leiden tot desinteresse in de enquête, wat eveneens resulteert in slechte open antwoorden. Sommige mensen hebben slechts tijd om één of twee open vragen goed te beantwoorden, maar niet vijf. Het is dus heel wel mogelijk dat betrokken enquête-respondenten slechte open antwoorden geven. Hun respons zomaar verwijderen, veroorzaakt bias van de data.
Mensen zijn snel afgeleid en ze focussen vaak op meer dingen tegelijk. Daarom hebben we altijd ervoor gepleit om meer soorten kwaliteitscontrolevragen te gebruiken om zo slechte data te ontdekken en alleen respondenten uit te sluiten die een reeks controles niet doorstaan. Kortom, de datakwaliteit mag nooit alleen afhankelijk zijn van open antwoorden, wat het geval was voordat GenAI opkwam.
Efficiënt proces
Naast meer soorten controles zijn er tools die kunnen worden gebruikt om te voorkomen dat fraudeurs of compleet afgeleide respondenten in de analyse worden meegenomen. Een voorbeeld hiervan is Dynata’s QualityScore™, dat op vragenlijstniveau wordt toegepast om fraude en desinteresse in de dataset te detecteren en te elimineren.
QualityScore is een ML-model dat op 175 punten kijkt naar veel verschillende soorten invulgedrag, zoals actieve antwoorden, passief gedrag en device data om minder betrouwbare respondenten te identificeren. QualityScore kan ook nuttig zijn bij het detecteren van het gebruik van GenAI doordat het op verschillende manieren open antwoorden evalueert. Het evalueert bijvoorbeeld passief gedrag dat mogelijk geassocieerd is met het gebruik van GenAI-tools, zoals muisbewegingen en het kopiëren/plakken van antwoorden. Aangezien fraudeurs vaak snel of automatisch door de enquête heen willen gaan, zullen ze waarschijnlijk niet alleen GenAI gebruiken. Daarom is het goed om ook ander verdacht gedrag, zoals acceleratiechecks, antwoordpatronen en paginavertaling, te volgen.
Na de release van ChatGPT werd het QualityScore-algoritme eind 2022 herzien om nog meer nadruk te leggen op dit soort passief gedrag. Zodra frauduleuze respondenten zijn geïdentificeerd, worden ze in realtime uit de data verwijderd, waardoor de schoning een efficiënter proces wordt.
Holistisch en historisch
Natuurlijk is QualityScore niet de enige tool die we bij Dynata gebruiken om fraude te bestrijden. Als iemand bijvoorbeeld verdacht is binnen onze panelsystemen, dan zal hij of zij worden gevraagd om de identiteit aan te tonen met een geldig door de overheid uitgegeven identiteitsbewijs en kan de persoon geen verdere enquêtes invullen totdat dit is gebeurd.
Daarnaast is het cruciaal om een holistische en historische benadering te hanteren, waarbij elk gegeven dat we over een respondent hebben wordt gebruikt. We evalueren respondenten niet alleen op hun gedrag binnen de huidige survey, maar ook historisch (waren ze een goed panellid in het verleden, of zijn ze eerder opgevallen in andere projecten?), holistisch (hoe gedragen andere enquête-respondenten zich, en wat is typisch binnen de context van deze enquête?) en systematisch (hoe gedragen ze zich in onze enquête-route, zijn er afwijkingen in ‘verkeerspatronen’?).
Veelbelovende route
Zoals bij veel nieuwe technologieën zal GenAI waarschijnlijk een tool worden die fraudeurs gebruiken om op grote schaal enquêtefraude te plegen. Zorg er dus voor dat open antwoorden nooit de enige tool in je toolkit zijn bij het evalueren van de kwaliteit van je data. Het gerichte gebruik van meer tools (inclusief AI!) en controles binnen de verschillende stadia van deelname van een respondent aan een panel is de sleutel om ervoor te zorgen dat je data van de hoogste kwaliteit zijn.
Dit is ook de benadering van Dynata, en het heeft zijn vruchten afgeworpen: 97% van onze data wordt door klanten geaccepteerd; daarmee lopen we voorop in de markt zijn, waar gemiddeld 15 tot 20% data worden verwijderd. Alles bij elkaar genomen is het duidelijk dat hoewel GenAI zeker risico’s vormt voor marktonderzoek, ze kunnen worden verminderd door nieuwe methoden, inclusief AI/ML, en voortdurende verbetering van technieken. In deze context zijn de kansen die GenAI biedt een veelbelovende route om te verkennen.
Dynata is Kennispartner van Daily Data Bytes
Auteur Wilko Rozema, Vice President Sales Benelux Dynata