Het is niet waarschijnlijk dat synthetische data in de toekomst de primaire, echte data volledig zullen vervangen; althans dat zegt een paper van de Engelse MRS Advanced Insights and Analytics Council. ‘De opwinding over synthetische data berust vooral op hype.’
▼
De paper, onder de naam AI en synthetische data in marktonderzoek, stelt dat synthetische gegevens een paar voordelen hebben ten opzichte van echte data. Bij die voordelen zit betere privacy omdat synthetische data geen tot een persoon te herleiden informatie bevatten.
Andere voordelen zijn onder meer dat kleine segmenten en/of moeilijk bereikbare groepen kunnen worden geëxtrapoleerd om de steekproefomvang voor analyse te vergroten, en ook dat goed getrainde modellen sterke correlaties vertonen met de real-world datasets waarop ze zijn gebaseerd.
Kijken naar het verleden
De paper betoogt ook dat de aanname dat synthetische data de echte data zullen vervangen komt doordat dat nieuwe technologieën altijd lijden onder een te veel aan hype. Daar komen ethische en regulerende richtlijnen bij, en de kans dat synthetische data vooroordelen versterken in de trainingsdata en het algoritme. Nog een argument: synthetische data kijken naar het verleden en missen de gave om actueel te zijn of opkomende trends te signaleren. Ze zijn daarmee ongeschikt voor longitudinaal onderzoek. De mens is tenslotte een complex wezen en het is moeilijk om de vele nuances in gedrag en meningen met synthetische data in kaart te brengen. De paper geeft als oplossing om aan synthetische data nog niet geteste variabelen toe te voegen.
Bron: research-live.com