Digitale taaltechnologieën (nog) beter maken

Door Jan Roekens | 20-02-2025

De UvA-nieuwssite gaat regelmatig in gesprek met wetenschappers over hun werk. In een serie over de faculteit FNWI vragen ze onderzoekers welke rol technologie daar speelt. Zo spraken zij met Raquel Fernández (foto), hoogleraar Computationele Taalkunde & Dialoogsystemen. Zij ontwikkelt computermodellen om taal beter te integreren in de digitale wereld.

Het eerste gesprek tussen een mens en een machine vond plaats in 1966 met de ontwikkeling van ELIZA, de eerste chatbot die gebruikmaakte van natuurlijke taalverwerking (NLP). ELIZA kon trefwoorden uit de invoer van de gebruiker identificeren en deze koppelen aan een voorgeprogrammeerd antwoord. Het begreep het gesprek alleen niet echt en genereerde vaak vreemde antwoorden. Tegenwoordig is het normaal om met een chatbot te praten en een functioneel gesprek te voeren. Hoe zijn deze tools verbeterd en hoe kunnen ze nog beter worden gemaakt?

Dit is waar Raquel Fernández, hoogleraar aan ons UvA Institute for Logic, Language & Computation (ILLC), aan werkt. Haar onderzoeksgroep richt zich voornamelijk op ’taal in context’. Fernández legt uit: ‘We kijken naar hoe taal wordt gebruikt in combinatie met andere soorten informatie, bijvoorbeeld visuele informatie.’ Haar team onderzoekt hoe deze interacties op de computer kunnen worden gemodelleerd.

Afbeeldingen beschrijven

Een toepassing hiervan is het maken van een model dat automatisch afbeeldingen kan beschrijven. Fernández: ‘Voor gebruikers die bijvoorbeeld vanwege een visuele beperking dingen om zich heen niet kunnen zien, hebben we een systeem nodig dat hen automatisch in natuurlijke taal vertelt wat het beeld is. We ontwikkelen modellen om dit mogelijk te maken.’

Hoewel geavanceerde systemen al beschrijvingen van afbeeldingen kunnen genereren, is het nog steeds een uitdaging. ‘Als je een afbeelding ziet en je wordt gevraagd wat erop staat, ga je niet alles beschrijven wat je ziet. Dus het selecteren van wat het waard is om te zeggen, is al een uitdaging,’ zegt Fernández. Bovendien varieert de stijl waarin je iets zegt, afhankelijk van de context.

Dus hoe pak je deze uitdagingen aan? Een machine learning-model kan leren hoe het afbeeldingen kan beschrijven door het te trainen op verschillende soorten informatie. Het meest voorkomende type is beschrijvingen die door mensen worden gegeven. Fernández: ‘We hebben een systeem ontworpen dat ook leert van eye tracking-data, dus informatie over waar mensen naar kijken als ze de afbeelding beschrijven. Dit onthult wat ze belangrijk vinden.’

De invloed van gebaren

Gebaren zijn een ander type visuele informatie, die erg belangrijk zijn in communicatie. Fernández: ‘Wanneer we face-to-face praten, gebruiken we veel aanwijzingen die verder gaan dan wat we zeggen, zoals je handen bewegen of knikken. Gebaren zijn heel natuurlijk voor ons, en het is onderdeel van onze communicatie. Een virtuele avatar die bijvoorbeeld geen gebaren maakt, zou heel onnatuurlijk zijn.’

Haar onderzoeksgroep heeft daarom een systeem ontwikkeld dat automatisch gebaren kan detecteren in video’s van gesprekken. De onderzoekers hebben dit systeem samen ontwikkeld met cognitiewetenschappers van het Max Planck Instituut voor Psycholinguïstiek in Nijmegen. De technologie is een handig hulpmiddel voor de wetenschappers in Nijmegen, omdat ze nu gebaren kunnen bestuderen zonder ze handmatig te hoeven bijhouden.

 

‘Onze onderzoeksgroep ontwikkelde een systeem dat automatisch gebaren kan detecteren in video’s van gesprekken’

 

Machine learning

Om deze computermodellen te maken, gebruikt de onderzoeksgroep van Fernández machine learning als een kerntool. Fernández: ‘We vertrouwen op data, bijvoorbeeld menselijke beschrijvingen van afbeeldingen, en machine learning-systemen leren van deze data. Voordat machine learning zo grootschalig werd gebruikt, waren de benaderingen meer handmatig, dus de analyse was op kleinere datasets.’

De afgelopen jaren was er een enorme verbetering in door computers gegenereerde tekst. Fernández: ‘In natuurlijke taalverwerking hebben we een verbazingwekkende verbetering gezien. Voorheen was het erg moeilijk om een systeem te creëren dat op een natuurlijke manier taal genereert. Nu hebben we al deze systemen die heel vloeiende taal genereren.’

Vloeiend maar niet correct

Hoewel systemen zoals ChatGPT vloeiende tekst genereren, is de output niet altijd correct of gepast. De systemen kunnen zich ook anders gedragen in verschillende talen. Ze zijn doorgaans beter in het Engels, wat nadelen kan opleveren voor sprekers van andere talen.

Desondanks vertrouwen veel mensen op deze technologieën, waarbij sommigen zelfs ChatGPT als zoekmachine gebruiken. Het blijft echter onduidelijk hoe zeker het model is van zijn antwoorden en of ze accuraat zijn. Fernández: ‘Mijn onderzoeksgroep werkt aan het vastleggen van het niveau van onzekerheid van een model en het bedenken van de beste manier waarop het model dat kan uitdrukken. Het is erg belangrijk om die informatie aan de gebruiker te geven, zodat de technologie vertrouwd kan worden.’

De taaltechnologieën worden veel gebruikt, waardoor het cruciaal is om ervoor te zorgen dat ze betrouwbaar en robuust zijn – een doel waarvoor de onderzoeksgroep van Fernández zich inzet:  ‘Ik hoop dat onze onderzoekers impact kunnen hebben door deze technologieën eerlijker, betrouwbaarder en over het algemeen beter te maken.’

Bron: Nieuws op www.uva.nl

Auteur: Jan Roekens, Hoofdredacteur

Deze artikelen vind je vast ook interessant

Ook de laatste bytes ontvangen?