Als ‘locatiespecialist’ verzamelt TomTom iedere dag een gigantische hoeveelheid geanonimiseerde data. Datawetenschapper Zeinab Bakhtiarinoodeh vertelt aan de hand van drie cases hoe TomTom die data gebruikt.
Dagelijks krijgt TomTom gps-informatie binnen van voertuigen van over de hele wereld – bij elkaar bedraagt die data meer dan 70 miljoen rij-uren per dag. ‘Dat is dagelijks 3,5 miljard gereden kilometers, om je een idee te geven hoe ‘big’ die big data is’, aldus datawetenschapper Zeinab Bakhtiarinoodeh. De Iraanse, afgestudeerd in wiskunde en gepromoveerd op computerwetenschap, werkt sinds 2018 bij het Nederlandse TomTom.
Een tweede databron zijn de auto’s van TomTom, uitgerust met meetapparatuur zoals sensoren en camera’s. ‘Ze rijden wereldwijd rond en verzamelen allerlei soorten informatie. Iedere kilometer maakt zo’n voertuig 125 360-graden beelden op hoge resolutie. Heel fijn voor datawetenschappers, want die houden van visualisaties.’ Als derde databron noemt Bakhtiarinoodeh satellietbeelden – ‘de favoriet, omdat je op deze beelden veel verschillende technieken kunt loslaten’.
‘Ik hoop dat we over 15 jaar geen gender bias meer in de tech wereld hebben’
Connected cars
Met al deze data bij elkaar maakt TomTom navigatiekaarten, een van de belangrijkste producten. ‘Onze focus ligt op het verbeteren van mobiliteit. ‘Connected cars, smart mobility en autonomous driving’ zijn de pijlers onder onze visie naar veiligere wegen en slimme steden.’ Als datawetenschapper ziet Bakhtiarinoodeh het als haar taak om inzichten verkrijgen uit data met behulp van machine learning, data science en wiskundige modellen.
‘Ik definieer datawetenschap als een set aan stappen en procedures die ons helpt inzichten te extraheren om waarde voor de business te creëren.’ In de praktijk komt dat neer op het verbeteren van de producten en diensten die TomTom maakt. ‘Hoe beter wij ze maken, hoe meer onze klanten ze gebruiken. En hoe meer data ze creëren, die wij weer kunnen gebruiken om inzichten op te doen om producten te verbeteren.’
Aankomsttijd
Haar doel is dus collega’s te helpen betere besluiten te nemen op basis van data. ‘Het begint met kijken waar je kleine veranderingen kunt maken. Kleine stapjes in bijvoorbeeld het optimaliseren van de geschatte aankomsttijd. Daar zit waarde waarmee je stakeholders de voordelen van datagedreven besluitvorming kunt laten zien. Je traint namelijk niet alleen je modellen om meer datagedreven te werken, maar ook je stakeholders en managers. Als je dat nu doet bij kleine besluiten, zijn ze al gewend aan die werkwijze als het straks om grotere besluiten gaat.’
Het optimaliseren van de aankomsttijd is van groot belang voor de gebruiker bij het plannen van zijn trip. Die moet zo precies mogelijk zijn. ‘Met behulp van gps-data en real time verkeersdata hebben onze onderzoekers eerst een proof of concept gemaakt. Dat is een kleine moeite. De waarde is duidelijk. Dus nu is het een product. Dit is een heel algemeen voorbeeld, te gebruiken voor een grote range aan producten binnen TomTom.’ Een ander voorbeeld van hoe Bakhtiarinoodeh data inzet is de Traffic Index. Dat is een ranking van verkeersopstoppingen per stad, van vele steden wereldwijd. ‘We gebruiken real time en historische verkeersdata om de lijst te maken. Je kunt de QR-code in de slide scannen om het verkeer in je eigen stad te checken.’
Deep learning
Om HD-kaarten te maken, moet de data die TomTom gebruikt heel consistent en nauwkeurig zijn gelabeld. De oplossing daarvoor ligt volgens Bakhtiarinoodeh in het gebruik van AI. Om te snappen hoe TomTom AI gebruikt, maakt Bakhtiarinoodeh een uitstapje in de geschiedenis van de verschillende technieken die het computers mogelijk maakt om taken uit te voeren die menselijke intelligentie vereisen (want dat is wat AI feitelijk is).
‘Hier maken we onderscheid tussen deep learning versus machine learning. Bij de laatste zie je dat op sommige punten de invoer van meer data de accuraatheid niet erg verandert. Dus meer data maakt het niet beter. Voor de eerste techniek, deep learning, geldt dat je veel data nodig hebt. Dat betekent dat je voor een simpel probleem deep learning kunt gebruiken. Maar als je beperkte bronnen hebt, gebruik dan machine learning.’
‘Als je een zwarte doos aan data over de schutting gooit, begrijpt niemand het’
Ken je data
Een ander advies is: maak het niet te complex. ‘Als je een zwarte doos aan data over de schutting gooit, begrijpt niemand het. Voor je een model gaat ontwikkelen, moet je dus het probleem heel scherp hebben. Kijk naar je gebruikers en stakeholders. Ken je data en bronnen goed en vertaal de informatie en insights naar de juiste vraag. Toegankelijkheid is een voorwaarde, mensen moeten het model begrijpen.’
En dan kun je met deep learning ‘geweldige dingen doen’, aldus Bakhtiarinoodeh, terugkomend op het maken van HD-kaarten. Neem de techniek van Generative Adversarial Networks (GANs). ‘Met die techniek uit 2014 is kunst gemaakt. En is oud-president Obama woorden in de mond gelegd die niet van hem waren.’ Kort gezegd zet de genoemde techniek twee AI-systemen tegenover elkaar om elkaars resultaten te verbeteren. ‘De ene is de generator die samples van je data genereert en de ander de discriminator die discrimineert tussen echte en nepbeelden. Het doel van de generator is om de discriminator voor de gek te houden.’
Magie
‘Magie’, noemt Bakhtiarinoodeh het project van een collega die voor het maken van HD-kaarten op deze techniek voortborduurde. ‘Het maken van zo’n kaart vraagt om heel gedetailleerde semantiek en geometrie van wegen. Je zou denken dat je daar een neuraal netwerk voor kunt gebruiken, dat goed is in semantische fragmentatie. Maar ons probleem is niet het per pixel classificeren van beeld, maar het behouden van de structuur van een beeld dat je op de weg ziet. Een beeld mag niet vervloeien met zijn omgeving.’
Om dat te bereiken heeft een van de onderzoekers van TomTom een nieuwe techniek gebouwd. Gebaseerd op het bestaande GANs dat in staat is structuren te behouden. ‘We noemen het EL-GAN, embedded GAN. In die techniek is de discriminator beter getraind op het onderscheid tussen nep en echt en daardoor is de uitkomst betere labelling en meer echt lijkende beelden.’ Een toepassing die is in te zetten bij autonoom rijdende auto’s, waarbij ‘lane detection’ enorm belangrijk is. Met EL-GAN gecreëerde beelden zijn heel nauwkeurig en komen dicht bij de werkelijke beelden. We kunnen dus op basis van deze techniek heel goed de weg detecteren.’