Er is veel discussie over de ‘echtheid’ van synthetische data. Ben Jenkins, Co-founder bij het Amerikaanse bureau Sympler, voegt er zijn visie aan toe op Greenbook. Hij is geen AI-basher, zegt hij alvast. Met een staat van dienst in AI-ontwikkeling en implementatie kan dat ook niet. Maar hij is ook geen evangelist.
▼
Jenkins begint zijn verhaal met de woorden van een van zijn AI-helden, Jensen Huang, de CEO en oprichter van Nvidia, die op de vraag of AI net zo intelligent is als mensen, antwoordde: ‘als je AI ziet als het vermogen om simpele tests uit te voeren, dan duurt het nog vijf jaar voordat AI net zo ‘intelligent’ is als een mens. Als je de definitie van menselijke intelligentie verbreedt tot veel meer dan een simpele test, dan wordt het wat onduidelijk, omdat we niet echt weten wat de mens definieert.
Voor Jenkins betekenen de woorden dat je de mensheid dus eigenlijk terugbrengt van ongelooflijk intelligent naar gericht op eenvoud, efficiëntie en rationaliteit. ‘Als dataprofessional wordt mijn ‘researcher bias’-radar direct geactiveerd’, zegt hij. ‘Hebben de ingenieurs van de linkerhersenhelft ruimte gelaten voor eigenschappen van de rechterhersenhelft? Houden we rekening met chaos, vreemd gedrag, anomalieën, tegenstrijdigheden of creativiteit? Hoe zit het met instinct, intuïtie, non-verbale communicatie en gevoelens?’
Waarheid als een koe
Wat Jenkins zegt over AI wil hij ook laten gelden voor synthetische data. De ‘echtheid’ van die data komt nu neer op een vergelijking van synthetische data-gestuurde enquêtes met ‘menselijke’ enquêtes. Uit onderzoek blijkt dat er voor 90 tot 95% een overeenkomst is. Jenkins vindt dat – met zijn kwalitatieve achtergrond – voedsel voor achterdocht. De onderzoeken waren kwantitatief. Het is een waarheid als een koe dat kwantitatief onderzoek vaak iets bevestigt wat je al weet. Jenkins: ‘De overgrote meerderheid van kwantitatieve data (misschien zelfs 90-95%) is voorspelbaar of vrij saai, omdat ze de heersende mening moeten bevestigen.’ Het is dus geen verrassing dat AI voorspelbare uitkomsten heeft, zegt hij. Oftewel: doorzoeken van enorme databases is bedoeld om te weten wat de massa zou kunnen zeggen, schrijven en vinden, op basis van wat de massa al talloze keren eerder heeft gezegd.
‘Laat je niet imponeren’
Jenkins pleit daarom voor voorzichtigheid: laat je niet imponeren door de hoge percentages, want je kunt niet anders verwachten bij voorspelbaarheid. Het invoeren van afgeronde antwoorden om keurige en consistente resultaten mogelijk te maken, weerhoudt kwantitatief onderzoek van het leveren van interessante data of creativiteit. Dat komt ook omdat de gestelde vragen zeer waarschijnlijk geestdodend saai en prozaïsch zijn. Ze halen iemand niet over om uit de emotionele schulp te komen met baanbrekende inzichten. Daar komt bij dat respondenten al jaren effectief geconditioneerd zijn om klakkeloos de meest voor de hand liggende antwoorden te geven.
Onverwachte inzichten
Jenkins komt tot de conclusie dat we ons werk al heel lang niet goed doen: ‘Beschouw de opkomst van de robot niet als bewijs dat de robot slimmer wordt – zie het in plaats daarvan als een oproep om onszelf, wij onderzoekers en respondenten, te reanimeren.’
Kijken we dan nog even naar de indrukwekkende 90 tot 95% overeenkomst tussen ‘echt’ onderzoek en onderzoek met synthetische data, dan zou je ook even moeten denken aan kwalitatief onderzoek. Jenkins: ‘Zijn kwalitatief onderzoekers niet degenen die inzicht moeten halen uit de resterende 10%? Was het niet zo dat juist in die 1-10% de echt onverwachte inzichten zitten? En zijn het niet deze inzichten die uiteindelijk de echte zakelijke beslissingen aansturen die de wereld veranderen?’
Bron: greenbook.org