Anonimiseren is wat anders dan “zwartlakken”

Documenten waar organisaties mee te maken hebben, bevatten vaak een heleboel (privacy)gevoelige gegevens. Dat is zeker het geval bij overheidsorganisaties, maar ook bij heel veel commerciële bedrijven. Vanwege onder andere de AVG moeten die documenten geanonimiseerd en/of gepseudonimiseerd worden, voordat ze verder verwerkt kunnen (en mogen) worden. Dat moet ervoor zorgen dat lezers van die documenten zulke gegevens niet in hun oorspronkelijke vorm te zien krijgen. Maar de tekst moet natuurlijk wel leesbaar en begrijpelijk blijven. De zwartgelakte stukken die regelmatig in het politieke nieuws opduiken, zijn voorbeelden van een wel heel ruwe methode van anonimiseren; gewoon alles zwart maken. Met eisen van leesbaarheid staat die werkwijze op wel heel gespannen voet.

Gezien de hoeveelheid en de omvang van de documenten waarmee organisaties te maken hebben, is het haast ondoenlijk om dit anonimiseren nog handmatig te doen. En – je voelt het al aankomen – ook daarvoor wordt intussen AI ingezet. Daarbij worden technieken als Natural Language Processing (NLP) en Named Entity Recognition (NER) toegepast. Ìn de workshop van Leonard van der Leeden over “beproefde AI-oplossingen voor gegevens­bescherming bij overheden” maken deelnemers kennis met de DataMask software (nu onder de naam xxllinc Anonimiseren). Hoe dat in zijn werk gaat wordt onder meer geïllustreerd aan het voorbeeld van het pseudonimiseren van uitspraken van de Hoge Raad.

Leuk dat we bij de VOGIN-IP-lezing nu ook eens een workshop vanuit de juridische praktijk kunnen aanbieden. En het goede nieuws is dat er nog plaatsen vrij zijn.

aanmelden

AI’s ecological footprint revisited

In een eerdere blogpost getiteld “Voetafdrukken van ChatGPT” hebben we een half jaar geleden hier al eens aandacht besteed aan de niet geringe ecologische voetafdruk die generatieve AI-technieken met zich mee brengen. Nu vorige week bij de VOGIN-IP-lezing zoveel aandacht werd besteed aan AI-aspecten van ons vakgebied, lijkt het goed daar nog eens op terug te komen. Te meer omdat aan dat ecologische aspect eindelijk ook in wat ruimere kring aandacht lijkt te worden besteed.

Zo is onlangs de “Stichting Duurzame Data” opgericht, die een campagne lanceert voor meer bewustzijn van energieverbruik door dataprocessen. Zij stellen onder meer: ‘Aankomende data-explosie heeft serieuze gevolgen voor milieu, maatschappij en economie’.
Hier vind je het volledige persbericht dat aan de pas opgerichte stichting wordt gewijd.

Maar eerder kwamen we ook al wat berichten in deze richting tegen:
Aartsvijand van crypto richt zich nu op AI“: Al een aantal jaren berekent Alex de Vries de klimaatschade van crypto. Nu neemt hij het energieverbruik van AI onder de loep.
En ook:
The growing energy footprint of artificial intelligence.

Hier moeten we toch nog maar eens aan denken voordat we systemen als ChatGPT, Bard of DALL-E inzetten voor toepassingen waarvoor dat geen echte meerwaarde biedt.

Eric Sieverts

Latere aanvulling:

In KNVI’s IT-INFRA nieuwsbrief waaruit we hier al eerder citeerden stuitten we ook nog op een bericht dat de energiehonger van AI duidelijk illustreert:
“Kunstmatige intelligentie heeft zoveel elektriciteit nodig, dat bedrijven in deze sector beginnen te investeren in de energiesector. Zo investeerde Sam Altman, de CEO van OpenAI, onlangs in Exowatt, een bedrijf dat zonnestroom gebruikt voor datacenters. […]
Intussen werkt Microsoft er aan om goedkeuring te krijgen voor kernenergie voor de AI-activiteiten, en vorig jaar zei Amazon, grote investeerder in AI-bedrijf Anthropic, dat het in meer dan 100 duurzame energieprojecten heeft geïnvesteerd, waardoor het ‘voor het vierde jaar op rij de grootste zakelijke afnemer van duurzame energie ter wereld is.”

Uit KNVI’s IT-INFRA nieuwsbrief

 
Twee van de nieuwtjes uit de IT-Infra nieuwsbrief van de KNVI zijn ook interessant vanuit VOGIN-IP perspectief.
 

  • OpenAI, de maker van de ChatGPT software zou afspraken geschonden hebben. Volgens mede-oprichter Elon Musk houdt OpenAI zich niet aan afspraken om AI-ontwikkelingen op non-profitbasis te laten plaats vinden. Volgens Musk is OpenAI in feite een dochteronderneming van Microsoft geworden, met als oogmerk de winst voor Microsoft te optimaliseren. OpenAI reageert daarop dat het ‘Categorically Disagrees’ met de beschuldigingen van Musk.
  • Gartner voorspelt dat traditionele zoekmachines tegen 2026 hun marktaandeel met 25% zullen zien dalen, als gevolg van toenemend gebruik van AI Chatbots. Generatieve AI oplossingen worden volgens Gartner antwoordmachines, die vragen beantwoorden die voorheen aan traditionele zoekmachines werden gesteld.

Voetafdrukken van ChatGPT

Er zullen weinig informatieprofessionals zijn, die de laatste maanden het nieuws over kunstmatige intelligentie (AI) niet met belangstelling gevolgd hebben. Large Language Models, generatieve AI en in het bijzonder OpenAI’s programma ChatGPT en Google-applicatie Bard hebben de talige kant van AI het afgelopen jaar een enorme boost gegeven. Voor allerlei toepassingen blijken die systemen verbazingwekkende resultaten op te leveren.

Aan de negatieve kanten van deze toepassingen wordt ook wel regelmatig aandacht besteed, zoals aan de vervuiling van het informatieaanbod met zogenaamde “hallucinaties” van ChatGPT en met domweg foute antwoorden. Een vervuiling die gewone zoekmachines dan ook weer als zodanig moeten onderkennen. Een negatief aspect waarop in het nieuws wat minder nadruk wordt gelegd, is de ecologische voetafdruk van deze technieken. Die is namelijk beslist niet verwaarloosbaar. Zowel het vooraf trainen van de gebruikte taalmodellen als het verwerken van elk request dat op dergelijke systemen wordt losgelaten, doet een enorm beroep op processor-capaciteit. Voor de servers waarop dit soort systemen draaien moet daarom al extreme koeling worden toegepast.

Aan een recent onderzoek van Kasper Groes Albin Ludvigsen, een Deense data scientist, ontlenen we hier wat gegevens over de CO2 uitstoot die met dat energiegebruik gepaard gaat.


“Training OpenAI’s GPT-4 model may have emitted upwards of 15,000 tons CO2e, according to my estimates that are based on leaked data.”
“In comparison, it’s estimated that training GPT-3 [de vorige versie] emitted 552 tons CO2e.”
“15,000 tons is roughly the same as the annual emissions of 938 Americans.”

Een andere bron van informatie over het energiegebruik van dit soort generatieve AI biedt Columbia University in AI’s Growing Carbon Footprint. Zij schrijven:

“To process and analyze the vast amounts of data, large language models need tens of thousands of advanced high-performance chips for training and, once trained, for making predictions about new data and responding to queries.”
“In 2018, a large language model had 100 million parameters. GPT-2, launched in 2019, had 1.5 billion parameters; GPT-3 at 100 times larger, had 175 billion parameters; no one knows how large GPT-4 is. Google’s PaLM large language model, which is much more powerful than Bard, had 540 billion parameters.”

Zij citeren ook een andere recente studie die berekende dat het trainen van GPT-3 (de vorige versie dus nog, met het taalmodel met 175 miljard parameters) 1287 MWh aan electriciteit gebruikte, wat resulteerde in emissies van 502 ton CO2, het equivalent van een jaar lang rijden met 112 benzineauto’s. Volgens de cijfers uit de Deense studie zou dat voor GPT-4 dus nog eens bijna 30x zoveel kunnen zijn.

En dat is dan alleen nog het trainen. Google schatte dat van de totale energie die in AI gebruikt wordt, maar 40% op rekening komt van het trainen en 60% gebruikt wordt voor “inference”, het uit taalmodellen afleiden van antwoorden en het genereren van de tekst van reacties op vragen en opdrachten van gebruikers. Het verwerken van een enkele vraag vergt natuurlijk veel en veel minder energie dan zo’n trainingssessie. Ook al moet het model frequent hertraind worden, staat dat niet in verhouding tot het zeer vele malen grotere aantal te beantwoorden vragen. Het genereren van zulke antwoorden verbruikt ook wel 100 keer zoveel energie als het gewoon beantwoorden van een zoekvraag met Google. Bovendien heeft ChatGPT intussen al meer dan 200 miljoen actieve gebruikers die een tijdlang heel veel niet zo serieuze test- en fun-requests op het systeem hebben afgevuurd. Hoewel ChatGPT verreweg het bekendste systeem voor generatieve AI is, zijn er intussen nog veel meer van dergelijke systemen actief, die ook allemaal energie verstoken.

Nu generatieve AI hard op weg lijkt te zijn om als energieverspiller de plaats over te nemen van een vorige notoire verspiller als blockchain, is energieverbruik dus wel een dingetje om bij stil te staan, voordat we voor elke kleinigheid van generatieve AI gebruik gaan maken. Als we cijfers over het maandelijks aantal ChatGPT gebruikers mogen geloven, die Nerdynav vorige week publiceerde, schijnt de grootste hype overigens alweer een beetje voorbij te zijn. Na een piek in april lijkt het gebruik intussen al aardig te stabiliseren.

Eric Sieverts

Valt ChatGPT te vertrouwen?

Iedereen heeft het ineens over ChatGPT, het programma dat onwaarschijnlijk goed lopende, plausibel klinkende, coherente (Engelse) teksten over willekeurig welk onderwerp kan schrijven, en zelfs hele stukken computercode kan genereren. Daardoor komen op dit moment op alle media zowel grappige voorbeelden als serieuze toepassingen langs. Zo’n toepassing – met bezorgde kanttekening – is bijvoorbeeld dat studenten door het systeem essays kunnen laten schrijven, die voldoendes opleveren als ze die bij een toets inleveren. [1], [2]

ChatGPT werkt op basis van een zogenaamd LLM, een “large language model”, een taalmodel dat getraind is met gigantische hoeveelheden tekst. Zoals uit de naam al blijkt, gebruikt ChatGPT daarvoor de GPT-3 software (Generative Pre-trained Transformer – versie 3) die twee jaar geleden, als opvolger van “BERT“, een ware revolutie in AI-land teweeg bracht. Bij de VOGIN-IP-lezing 2021 kwam GPT-3 al aan de orde in de keynote van Antal van den Bosch.

In dit stuk geven we verder vooral voorbeelden die direct op ons vakgebied aansluiten. Zo wordt soms al gesteld dat je net zo goed een vraag aan ChatGPT kunt stellen als aan een klassieke zoekmachine. Inderdaad krijg je hiermee in de meeste gevallen ook onmiddellijk een heel plausibel antwoord. Alleen is het even de vraag hoe betrouwbaar dat antwoord is, waar dat antwoord vandaan komt, hoe ChatGPT dat antwoord bij elkaar geharkt heeft uit losse tekstfragmentjes uit het gigantische tekstcorpus waarmee het systeem getraind is (de “provenance”-vraag). Verderop volgen nog wel wat voorbeelden van dergelijke fraai klinkende teksten. Wellicht moeten we onze keynote spreekster Nava Tintarev op 16 maart maar eens vragen of dat provenance-probleem wellicht kan worden opgelost met de systemen die in haar lezing aan de orde komen: “explainable AI-systems” die zelf aan gebruikers kunnen uitleggen hoe ze tot hun recommandaties en antwoorden komen.

“Provenance” is overigens niet het enige probleem met betrekking tot ChatGPT om je zorgen over te maken. Een volgende complicatie is de verwachting dat heel veel van dit soort AI-gegenereerde teksten ook weer hun weg zullen vinden op internet en daarmee terecht zullen komen in de zoekresultaten uit gewone zoekmachines. Nog weer een stapje verder dan dergelijke directe vervuiling van zoekresultaten, gaat de verwachting dat zulke door ChatGPT gegenereerde teksten bovendien terechtkomen in het materiaal waarmee taalmodellen als ChatGPT nu juist getraind worden, leidend tot een soort Baron von Münchhausen-effect.

Overigens wekt ChatGPT de indruk zich zelf ook “bewust” te zijn van de gevaren die dergelijk hergebruik met zich meebrengt (als je hem daarnaar vraagt).

Als je ChatGPT vraagt een artikel te schrijven met een referentielijst, ziet het resultaat er heel vertrouwenwekkend uit; de literatuurverwijzingen bestaan uit combinaties van plausibel klinkende titels en tijdschrift- en auteursnamen. Alleen zijn ze net zo fake als al die profielfoto’s van nepaccounts, die met deepfake technologie gegenereerd worden. “It is literally bullshitting”.

Het is trouwens opmerkelijk hoeveel informatie over het trainen van AI-systemen – kennelijk – in de trainingsdata verwerkt zat. Op vragen over de data waarmee het programma zelf getraind is, weet ChatGPT namelijk heel plausibel klinkende antwoorden te genereren .

Zo geeft ChatGPT ook antwoord op de vraag of het in staat is artikelen en antwoorden in Wikipedia-stijl te genereren, omdat het systeem ook met dergelijke artikelen getraind is. Dat is langzamerhand wel heel erg “meta” …. 😉

Bij die artikelen komen ook meteen al lijstjes verwijzingen. En structuur en templates van Wikipedia artikelen komen er ook uit.

Speciaal voor de Wikipedia nerds onder onze lezers hier een voorbeeld van de kant-en-klare Wikipedia Templates die ChatGPT hierbij kan genereren. Als je dit voorbeeld ziet, verbaast het niet meer dat ChatGPT ook in staat is om redelijk bruikbare code voor diverse populaire programmeertalen te genereren [vb].

Wat deze laatste voorbeelden ook duidelijk maken, is dat dit soort geavanceerde chatbots een bron als Wikipedia makkelijk kunnen vervuilen met een overmaat aan moeilijk te herkennen fake-teksten. Ik vrees dat er extra werk aan de winkel komt voor serieuze menselijke wikipedians. Of zou ChatGPT zelf wellicht getraind kunnen worden om dit soort fake bijdragen automatisch te herkennen?

Eric Sieverts

Aanvulling d.d. 21/12/2022:
Gisteren heeft Jan Scholtes (in 2017 spreker op ons congres) een blogpost met een uitgebreide beschrijving van voorgeschiedenis, werking en problemen van ChatGPT op LinkedIn geplaatst. Ondanks dat het verhaal deels wel wat technisch is, is het zeker een aanrader.

[Op 10/12/2022 waren nog enkele kleine aanvullingen in deze tekst toegevoegd.]
De bij dit artikel afgebeelde voorbeelden zijn ontleend aan berichten die gepost waren op Twitter en op Mastodon.