DATA EN AI PODIUM Ongehinderd datadelen met synthetische data? Overheidsorganisaties willen graag meer persoonlijke data gebruiken om proactieve dienstverlening mogelijk te maken of maatschappelijke opgaven op te pakken. Ze stuiten daarbij vaak op juridische en ethische bezwaren. Synthetische data worden wel genoemd als dé oplossing om ongehinderd data te kunnen delen zonder de privacy van personen te schenden. TEKST: reinier bikker, barteld braaksma • BEELD: shutterstock W at zijn synthetische data eigenlijk en kunnen ze die hoge verwachtingen waarmaken? En hoe maak je duidelijk dat de risico’s goed zijn afgedekt? Synthetische data simuleren kenmerken van en relaties tussen personen en objecten (bijvoorbeeld een school of een wijk), waardoor de realiteit kan worden nagebootst zonder dat een persoon of object geïdentificeerd wordt. Er zijn veel verschillende manieren om dit te doen. De verschillen zitten in hoeveel informatie de synthetische dataset bevat over de oorspronkelijke dataset en hoe het risico op onthulling van gevoelige gegevens wordt beschermd. Hoe eenvoudiger, hoe veiliger In het eenvoudigste geval maak je een synthetische dataset die alleen maar de juiste kolomindeling heeft. Een toevalsgenerator vult de waarden van 88 iBestuur 50, april 2024 de records in, zonder te kijken hoe dat overeenkomt met de echte data. Dat lijkt niet erg nuttig, maar zo’n dataset kun je bijvoorbeeld gebruiken om software te testen. En omdat er behalve de structuur, geen enkele informatie over de echte dataset gebruikt wordt, is er geen kans op privacy problemen. Voor meer geavanceerde systeemtesten is overigens al gauw een betere dataset nodig. Denk aan het Federatief Datastelsel dat de overheid in samenhang met de Interbestuurlijke Datastrategie aan het ontwikkelen is. Daar komen diverse soorten overheidsgegevens, waaronder de basisregistraties zoals het bevolkingsregister en het Kadaster, bij elkaar. Het testen van de verschillende koppelingen en verwerken van gebeurtenissen (events) in de data bij bijvoorbeeld een geboorte of een eigendomsoverdracht, vraagt om een meer verfijnde aanpak. In zo’n soort test wil je bijvoorbeeld ook allerlei bijzondere gevallen kunnen testen. Dat geeft wel een bijkomend voordeel van synthetische data aan: bij het aanmaken van de datasets kun je die er naar wens in verwerken. Voor andere gebruiksdoelen is het gewenst meer informatie over de oorspronkelijke dataset te gebruiken. Een stap verder is om ervoor te zorgen dat statistische kenmerken zoals gemiddelde en spreiding van iedere variabele in de synthetische dataset overeenkomen met de oorspronkelijke. Nog een stap verder is ervoor te zorgen dat ook de verbanden tussen variabelen kloppen. Zo’n verband kan een statistische correlatie zijn, maar kan ook bestaan uit meer complexe regels, zoals dat er geen zwangere mannen kunnen zijn, geen moeders van zes jaar oud en geen minderjarigen met rijbewijzen. Echte data bevatten vaak erg veel verbanden die niet altijd vanzelfsprekend naar voren komen. Dat maakt het lastig
89 Online Touch Home