Online enquêtes – van kwetsbaarheid naar zekerheid

Door Jan Roekens | 27-05-2025

Recent werd de insightssector opgeschrikt door de aanklacht over fraude met online enquêtes door twee Amerikaanse marktonderzoekbureaus. De reacties in de sector varieerden van ‘het einde van online enquêtes is in zicht’, tot overdreven optimisme als zou het gaan om een incident. Sebastian Berger, Head of Science van ReDem, schreef er voor Greenbook een bijdrage over.

De rechtszaak die ophanden is tegen de fraudeurs stipt wel het groeiende probleem aan van slechte datakwaliteit in online enquêtes. Duidelijk is, zeg Sebastian Berger, dat professionele fraudeurs zich niet langer alleen in ontwikkelingslanden bevinden. Je vindt ze ook steeds meer in landen als de VS. Verder is fraude meer gedecentraliseerd. Het stereotiepe beeld van Chinese ‘click farms’ is achterhaald. En: de reputatie van onderzoeksbureaus, het   lidmaatschap van brancheverenigingen en certificeringen geven geen garantie meer, ook al staat de branche pal voor kwalitatief goede data. Bijkomend probleem is dat enquêtefraude vaak wordt uitgevoerd door goed opgeleide personen (opgeleid door andere fraudeurs), die zelfs geavanceerde beveiliging en kwaliteitscontroles weten te omzeilen.

Kwetsbaarheid

Blijkens de aanklacht tegen de fraudeurs gaat het om personen binnen de twee betrokken marktonderzoekbureaus die actief enquêtefraudeurs hebben gerekruteerd en opgeleid. Hun betrokkenheid omvatte gedetailleerde instructies over hoe enquêtescreening moest worden gemanipuleerd om detectie te voorkomen.

De kwetsbaarheid van online enquêtes blijkt ook uit het feit dat bots nu een veelheid aan veelgebruikte kwaliteitscontroles kunnen omzeilen, waaronder open vragen. Dat is alarmerend, want open-ended response analysis werd lange tijd beschouwd als een van de betrouwbaarste tools voor het opsporen van geavanceerde fraude.

Maar, zegt Berger, betekent dit alles nu dat online enquêtes hun bestaansrecht hebben verloren? Hij denkt van niet. Wat hij waarneemt is een driedeling die geldt voor zowel onderzoekers als voor opdrachtgevers:

  1. Degenen die geen of slechts heel beperkte kwaliteitsmaatregelen nemen of eisen.
  2. Degenen die een basiscontrole gebruiken, zoals die op IP, reactiesnelheid en repetitieve antwoorden.
  3. En degenen die geavanceerde methoden gebruiken, zoals controles van open antwoorden.

De derde groep biedt een uitweg, volgens Berger, omdat die niet alleen de risico’s ziet, maar ook bereid is om te investeren in het oplossen van problemen. Maar ze hebben dan wel kwaliteitscontroles nodig die echt werken. Veel standaardmethoden voldoen niet meer. Berger noemt twee benaderingen die dit jaar bij zijn organisatie zijn geïntroduceerd.

Coherentie

De achilleshiel van professionele enquêtefraude, of die nu wel of niet geautomatiseerd is, is dat elke vraag doorgaans afzonderlijk wordt beantwoord, zonder rekening te houden met de consistentie van de hele enquête. Coherentiecontroles pakken deze kwetsbaarheid aan door de focus te verleggen van het analyseren van individuele antwoorden naar het beoordelen van de consistentie van het volledige onderzoek. Dit houdt in dat wordt geëvalueerd hoe goed de antwoorden aansluiten bij de eerste screeningsvragen tot de uiteindelijke demografische vragen.

Incoherentie tussen antwoorden kan duiden op onoplettendheid of frauduleus gedrag. De bevindingen van Berger en zijn collega’s tonen aan dat tegenstrijdigheden vaak niet openlijk naar buiten komen. Integendeel, twijfels over de deugdzaamheid van de antwoorden hebben de neiging zich geleidelijk op te stapelen in de loop van een vragenlijst. Zodra deze twijfels een bepaalde drempel overschrijden, moet het interview worden gesloten.

Het belangrijkste voordeel van coherentiecontroles is dat subtiele inconsistenties, die je mist bij traditionele kwaliteitscontrole op vraagniveau, kunnen worden gedetecteerd met behulp van kunstmatige intelligentie. Dat proces kan volledig worden geautomatiseerd en in realtime worden toegepast, waardoor de plausibiliteit van elk interview aan het einde van de enquête kan worden beoordeeld. Bovendien is de aanpak onafhankelijk van vragenlijsten. Het is niet afhankelijk van open antwoorden of strikvragen, waardoor het breed toepasbaar is in alle onderzoeken.

Grondwaarheden

Het ontwikkelen van een betrouwbare coherentiecheck vereist continu inspanning om het onderliggende model te evalueren en, indien nodig, te vervangen. Aangezien er vaak nieuwe AI-modellen opduiken, moet elk model worden getest aan de hand van benchmarks om te bepalen of het tot betere prestaties leidt. Dit proces is gebaseerd op actuele, handmatig gevalideerde referentiegegevens – de zogenaamde ‘grondwaarheden’ – die een breed scala aan onderzoeksonderwerpen moeten omvatten om robuustheid te garanderen. Bovendien moet het geselecteerde model snel resultaten leveren, tegen een prijs die economisch haalbaar is.

Inhouds- en gedragsanalyse

In de afgelopen jaren waren de antwoorden op open vragen de betrouwbaarste indicatoren om te beoordelen of interviews van hoge of lage kwaliteit waren. Zelfs wanneer chatbots werden gebruikt om antwoorden te genereren, waren ze vaak detecteerbaar vanwege overdreven netjes geformuleerde antwoorden, of ze waren van buitensporige lengte, of er werden taalkundige patronen ontdekt die typisch zijn voor door AI gegenereerde tekst.

Tegenwoordig gebruiken fraudeurs meer geavanceerde prompts die zijn ontworpen om de informele, niet precieze stijl van antwoorden op open vragen na te bootsen. Deze door AI gegenereerde antwoorden kunnen opzettelijk spelfouten, inconsistente interpunctie, onregelmatig hoofdlettergebruik en omgangstaal bevatten, waardoor het bijzonder moeilijk wordt om fraude in kortere antwoorden te detecteren.

Strikte drempel

OpenAI stopte bijvoorbeeld met zijn AI-tekstclassificatie vanwege de beperkte nauwkeurigheid bij het onderscheiden van door mensen geschreven en door AI gegenereerde inhoud. Het bureau van Berger past nu een strikte drempel toe om het aantal vals-positieven tot een minimum te beperken: een betrouwbaarheidsniveau van 99,9% en een minimale reactielengte van 100 tekens is de norm. Daaronder wordt een antwoord gemarkeerd als door AI gegenereerd.

Voor alle invoerapparaten

Hoewel deze aanpak de nauwkeurigheid heeft verbeterd, beperkt het ook de betrouwbaarheid van detectie van door chatbots gegenereerde fraude in korte antwoorden, waardoor het risico op vals-negatieven toeneemt.

Om deze kloof te dichten, wordt inhoudsanalyse met gedragstracking gecombineerd. Deze methode kijkt naar de authenticiteit van het invoergedrag van een respondent bij het beantwoorden van open vragen. De methode werkt voor alle invoerapparaten, of iemand nu op een mobiele telefoon swipet of op desktoptoetsenbord typt. Je kunt bovendien variaties in invoerpatronen analyseren want snel noch langzaam typen alleen is een betrouwbare indicator van niet-authentiek gedrag.

Scoresysteem

En verder is het belangrijk om te bepalen wat fraude is. Als een respondent bijvoorbeeld een tekst plakt, maar ‘m handmatig fors wijzigt of uitbreidt, moet dat dan als frauduleus worden beoordeeld? Om met dit soort nuances om te gaan, ontwikkelde Berger een scoresysteem van 0 tot 100, waarbij hogere scores duiden op authentiek menselijk inputgedrag. Een score van 0 duidt doorgaans op kunstmatige, niet-menselijke input.

Bron: greenbook.com

Auteur: Jan Roekens, Hoofdredacteur

Deze artikelen vind je vast ook interessant

Ook de laatste bytes ontvangen?