Hoe groter de analytische waarde van de synthetische data, hoe groter ook het onthullingsrisico om een “natuurgetrouwe” synthetische dataset te maken. Uitdagingen De eerste uitdaging voor het werken met synthetische data is hoe je aantoont dat zo’n synthetische dataset correct gegenereerd is en alle vereiste verbanden bevat. Wat is de kans dat de conclusies van het onderzoek niet kloppen, Kennisnetwerk Synthetische Data In 2023 is het initiatief genomen om het Kennisnetwerk Synthetische Data op te richten. Hierin werkt het CBS actief samen met een kernteam bestaande uit het ministerie van Justitie en Veiligheid, TNO, Avans Hogeschool en oprichter DUO. In dit netwerk delen we kennis en ervaring met vooral Nederlandse overheidspartijen en kennisinstellingen, en zijn we op zoek naar antwoorden op vragen rond verschillende aspecten van synthetische data. omdat het syntheseproces een relatie heeft geïntroduceerd die helemaal niet bestaat of een belangrijke relatie over het hoofd ziet? De tweede uitdaging is dat er zoveel variabelen en zoveel statistische informatie over verbanden tussen die variabelen nodig is voor een realistische synthetische dataset, dat de kans op identificatie van personen of kleine groepen toch weer toeneemt. Dit blijkt een algemene regel te zijn. Hoe groter de analytische waarde van de synthetische data, hoe groter ook het onthullingsrisico. Een zorgvuldig gebruik van synthetische data vereist daarom dat je de geschiktheid voor een bepaald doel en het risico op onthulling tegen elkaar afweegt. Een synthetische dataset is daarom altijd een maatwerkproduct. Nog veel onderzoek nodig Er is nog veel onderzoek en kennisopbouw nodig rond specifieke aspecten van synthetische data. Zo is nog onvoldoende bekend over het meten en karakteriseren van de kwaliteit van synthetische data. Ook wat de beste methoden zijn is onderwerp van onderzoek. Generative Adversarial Networks, een vorm van kunstmatige intelligentie, bereiken verbluffende resultaten met het maken van echt lijkende menselijke gezichten (deep fakes) en daar zijn ook al bewegende en pratende varianten van die steeds beter worden. Maar voor het synthetiseren van statistische data is dit niet noodzakelijk de beste aanpak. En hoe kom je tot een soepel en verantwoord proces om synthetische data te genereren, beoordelen en beschikbaar te stellen? Naast de wiskundig-statistische vragen zijn er ook nog juridische en ethische vragen. Hoe verhouden synthetische data zich tot meer gangbare methoden van anonimiseren en pseudonimiseren? Wie is aansprakelijk voor de gevolgen van het gebruik van een synthetische dataset? Is synthetiseren ethisch verantwoord als het over patiënten met zeldzame ziektebeelden gaat? Het zijn lastige vragen. Desondanks is het wel belangrijk dat er een breed gedragen beeld ontstaat, op zijn minst binnen de Nederlandse overheid maar bij voorkeur breder, op nationale of internationale schaal. Reinier Bikker is projectmanager bij CBS, Barteld Braaksma is innovatiemanager bij het CBS. Dit is een verkorte versie. Lees het volledige Podium-artikel op ibestuur.nl iBestuur 50, april 2024 89
90 Online Touch Home