Anonimiseren is wat anders dan “zwartlakken”

Documenten waar organisaties mee te maken hebben, bevatten vaak een heleboel (privacy)gevoelige gegevens. Dat is zeker het geval bij overheidsorganisaties, maar ook bij heel veel commerciële bedrijven. Vanwege onder andere de AVG moeten die documenten geanonimiseerd en/of gepseudonimiseerd worden, voordat ze verder verwerkt kunnen (en mogen) worden. Dat moet ervoor zorgen dat lezers van die documenten zulke gegevens niet in hun oorspronkelijke vorm te zien krijgen. Maar de tekst moet natuurlijk wel leesbaar en begrijpelijk blijven. De zwartgelakte stukken die regelmatig in het politieke nieuws opduiken, zijn voorbeelden van een wel heel ruwe methode van anonimiseren; gewoon alles zwart maken. Met eisen van leesbaarheid staat die werkwijze op wel heel gespannen voet.

Gezien de hoeveelheid en de omvang van de documenten waarmee organisaties te maken hebben, is het haast ondoenlijk om dit anonimiseren nog handmatig te doen. En – je voelt het al aankomen – ook daarvoor wordt intussen AI ingezet. Daarbij worden technieken als Natural Language Processing (NLP) en Named Entity Recognition (NER) toegepast. Ìn de workshop van Leonard van der Leeden over “beproefde AI-oplossingen voor gegevensbescherming bij overheden” maken deelnemers kennis met de DataMask software (nu onder de naam xxllinc Anonimiseren). Hoe dat in zijn werk gaat wordt onder meer geïllustreerd aan het voorbeeld van het pseudonimiseren van uitspraken van de Hoge Raad.

Leuk dat we bij de VOGIN-IP-lezing nu ook eens een workshop vanuit de juridische praktijk kunnen aanbieden. En het goede nieuws is dat er nog plaatsen vrij zijn.