Neppe data genereren met AI: privacy-probleem opgelost

Door Ellen Nap | 15-09-2022

Als antwoord op de behoefte aan data-privacy gebruikt Syntho machine learning om neppe datasets aan te maken. Het genereren van synthetische data heeft volgens mede-oprichter Wim Kees Janssen en Younes Moustaghfir (Head Development) veel voordelen boven de klassieke anonimiseertechnieken. Een voorproefje op hun presentatie op het MIE (21 september, 11.15 uur).

‘Synthetische data zijn zo accuraat dat je er zelfs analyses op kunt doen’

‘Fictieve datapunten’. Waar moet ik dan aan denken?

Janssen: ‘Echte datapunten verzamel je in interactie met individuen, dus klanten of patiënten. Synthetische of fictieve data maak je met een algoritme. Dus noem een leeftijd, bijvoorbeeld 28 jaar. Dan is dat een fictief datapunt. Dat kun je op kleinschalig niveau doen, maar ook met miljoenen records via een algoritme.’

Wim Kees Janssen

Maar hoe zit het dan met het feit dat data representatief moet zijn?

Moustaghfir: ‘Het algoritme of de AI die we daarvoor gebruiken zal op een statistische manier de patronen in de data modelleren. Om een concreet voorbeeld te geven: ik ben een man van 28 jaar en ik heb net een transactie gedaan van 25 euro via mijn bank. En zo zullen er veel meer transacties zijn. Het algoritme genereert volledige nieuwe en fictieve datapunten, je zou het ‘nep data’ kunnen noemen. Het algoritme reproduceert in de gegenereerde data de statische eigenschappen, kenmerken en patronen. Met als resultaat dat je op het niveau van datapunten fictieve data hebt. Individuen bestaan simpelweg niet meer. Terwijl op dataset- of databaseniveau de eigenschappen, kenmerken en patronen wél bewaard blijven op een dusdanig niveau dat je zelf analyses kunt doen op de synthetische data alsof het echte data is.’

‘Individuen bestaan simpelweg niet meer’

Hoe goed komt die data overeen met echte data?

Janssen: ‘Dit is een veelgestelde vraag, dus genereren wij voor elke synthetische dataset een kwaliteitsrapport waarin we testen op data-nauwkeurigheid.’

Hoe ziet dit er in de praktijk voor een klant uit?

Moustaghfir: ‘We hebben een platform gebouwd dat die synthetische data genereert. De klant maakt een connectie met de originele data. Dat is nodig om de kenmerken aan te leren. Het model herkent automatisch welk type data dat is. Daarnaast maakt de gebruiker een connectie met de locatie waarin de synthetische data naartoe geschreven moet worden, wat resulteert in een end-to-end geïntegreerde aanpak. Dat maakt het voor de gebruiker heel eenvoudig, want het maakt ook niet uit of het om gezondheidsdata gaat of om een financiële dataset is. Het werkt allemaal precies hetzelfde.”

Younes Moustaghfir
Younes Moustaghfir

Wat zijn de voordelen van ten opzichte van het ‘klassieke’ anonimiseren?

Janssen: ‘Die technieken bewerken originele data om het moeilijker te maken om individuen te herleiden. Maar doordat je data bewerkt, maak je data kapot. Hoe meer je de data bewerkt, hoe beter je privacy beschermt. Maar ook hoe meer data je kapot maakt. waardoor de data minder bruikbaar is voor analyses. Dat is de paradox van klassieke technieken om te anonimiseren. Een derde nadeel is dat je veel moet configureren, handmatig en met lange doorlooptijden. Met synthetische data heb je een optimale combinatie van privacybescherming en bruikbaarheid van data. Daarnaast laat je het algoritme het werk doen, dus daar win je in snelheid en gebruikersgemak.’

‘Het is een optimale combinatie van privacybescherming en bruikbaarheid van data’

Eigenlijk een vrij simpel principe. Hebben jullie concurrentie?

Janssen: ‘Niet in Nederland. En ja het is vrij simpel maar het concept is redelijk abstract, dus het spreekt niet altijd direct tot de verbeelding. Het heeft uitleg nodig. Dat zien we niet alleen bij kennismakingssessies, maar ook bij implementaties. Veel organisaties die met synthetische data aan de slag willen, hebben ook allerlei organisatorische vragen. Daar helpen we ook bij.’

Hoe groot schatten jullie de behoefte waar jullie een antwoord op zijn, in?

‘Vaak gaat het bij privacy over hoe jurisprudentie je beperkt: wat mag niet en welke papierwinkel is er nodig om het dicht te timmeren. Terwijl onze insteek is: privacy is heel belangrijk, maar wat zijn de oplossingen. Wij geloven niet in de papierwinkel, maar in slimme oplossingen.’

Meer informatie over het MIE op 20 en 21 september en inschrijven: www.mie.nl

Auteur: Ellen Nap,

Deze artikelen vind je vast ook interessant

Ook de laatste bytes ontvangen?