AI-detectietools filteren te streng

Door Romana van Marrewijk | 22-02-2024

Data van mindere kwaliteit vormen een risico, en ze leiden tot minder effectieve zakelijke beslissingen. Logisch dat er dus veel tijd en middelen worden besteed aan het opschonen van kwantitatieve data, en aan de kwaliteit van open antwoorden. En wat is de – soms twijfelachtige – rol van AI in dat geheel? Over dat laatste schreven Karin Pepin en Dan Wasserman een artikel voor Greenbook.

Hoewel onderzoekers van oudsher open antwoorden beoordelen door nauwgezet te lezen, zijn AI-tools steeds meer een hulpmiddel door hun snelheid en kostenvoordeel. De tools proberen te bepalen of een respondent AI, zoals ChatGPT, gebruikt om te antwoorden op een open enquête. Als een respondent zijn eigen antwoord niet schrijft, wordt de kwaliteit van het antwoord over het algemeen op zijn minst als verdacht beschouwd.

Met zowel de release van GPT4 als verbeterde training in het opstellen van prompts, is het moeilijker om te bepalen wat is gemaakt door een taalmodel en wat is geschreven door een mens.

Nauwkeurigheid

Onderzoek heeft aangetoond hoe moeilijk het is om het verschil te zien. Uit een peer-reviewed-onderzoek bleek dat experts slechts in 38,9% van de gevallen AI konden onderscheiden van een menselijke reactie. Een andere evaluatie van AI-detectietools toonde aan dat ze vaak vals-positieven en vals-negatieven laten zien en dat ze niet voldoen aan de nauwkeurigheidsclaims die ze zelf nastreven. Zelfs OpenAI zegt dat AI-detectoren niet altijd goed werken.

Echt mens

Hoewel de technologie in de loop van de tijd waarschijnlijk wordt verbeterd, moeten we ons vertrouwen in die middelen toch blijven testen. Het is van cruciaal belang om open data te beoordelen, maar vertrouwen op geautomatiseerde AI-checkers om de kwaliteit van de respondent te beoordelen, kan misleiding in de hand werken. Vals-positieve en vals-negatieve antwoorden kunnen niet opvallen of juist uit het onderzoek worden gegooid, ondanks het feit dat ze echt door een mens geschreven zijn.

Too good to be true

Onze aandacht is meestal gericht op het uitsluiten van respondenten met slecht geschreven open antwoorden, op antwoorden die als irrelevant worden beschouwd of antwoorden die schaamteloos van internet zijn gekopieerd. Hoewel we consequent voorzichtig zijn met antwoorden die ‘too good to be true’ lijken, wordt de waakzaamheid juist door de AI-tools verder versterkt. Zo kan het gebeuren dat we per ongeluk de beste respondenten diskwalificeren in plaats van de slechtste.

Vooringenomenheid

Het afwijzen van waardevolle respondenten verzwakt niet alleen het onderzoeksecosysteem. Te midden van de aanhoudende discussie over datakwaliteit zijn goede respondenten juist essentieel. Het aantrekken en behouden van panelleden van hoge kwaliteit is noodzakelijk om de geloofwaardigheid van de sector te waarborgen. Elke keer dat we met AI-tools onterecht data opschonen, geven we vooringenomenheid de ruimte. En we verspillen ook kostbare tijd en middelen aan het opschonen van correcte data. Bovenal sluiten we bedachtzame mensen uit, en zo worden inzichten vertekend.

Datakwaliteit

Onderzoekers moeten dus blijven leren over AI, zowel wat betreft fundamentele kennis als over hoe je specifieke tools toepast op marktonderzoek. Het is voor de sector ook absoluut noodzakelijk om initiatieven rond datakwaliteit te ondersteunen, zoals gebeurt in de Global Data Quality-samenwerking. Hoe kritischer we nadenken over tools die respondenten toelaten of uitsluiten, hoe positiever voor de branche.

Karine Pepin is co-founder bij The Research Heads, en Dan Wasserman is Chief Operating Officer bij KJT.

Bron: greenbook.org

Auteur: Romana van Marrewijk, Functietitel

Deze artikelen vind je vast ook interessant

Ook de laatste bytes ontvangen?