Valt ChatGPT te vertrouwen?

Iedereen heeft het ineens over ChatGPT, het programma dat onwaarschijnlijk goed lopende, plausibel klinkende, coherente (Engelse) teksten over willekeurig welk onderwerp kan schrijven, en zelfs hele stukken computercode kan genereren. Daardoor komen op dit moment op alle media zowel grappige voorbeelden als serieuze toepassingen langs. Zo’n toepassing – met bezorgde kanttekening – is bijvoorbeeld dat studenten door het systeem essays kunnen laten schrijven, die voldoendes opleveren als ze die bij een toets inleveren. [1], [2]

ChatGPT werkt op basis van een zogenaamd LLM, een “large language model”, een taalmodel dat getraind is met gigantische hoeveelheden tekst. Zoals uit de naam al blijkt, gebruikt ChatGPT daarvoor de GPT-3 software (Generative Pre-trained Transformer – versie 3) die twee jaar geleden, als opvolger van “BERT“, een ware revolutie in AI-land teweeg bracht. Bij de VOGIN-IP-lezing 2021 kwam GPT-3 al aan de orde in de keynote van Antal van den Bosch.

In dit stuk geven we verder vooral voorbeelden die direct op ons vakgebied aansluiten. Zo wordt soms al gesteld dat je net zo goed een vraag aan ChatGPT kunt stellen als aan een klassieke zoekmachine. Inderdaad krijg je hiermee in de meeste gevallen ook onmiddellijk een heel plausibel antwoord. Alleen is het even de vraag hoe betrouwbaar dat antwoord is, waar dat antwoord vandaan komt, hoe ChatGPT dat antwoord bij elkaar geharkt heeft uit losse tekstfragmentjes uit het gigantische tekstcorpus waarmee het systeem getraind is (de “provenance”-vraag). Verderop volgen nog wel wat voorbeelden van dergelijke fraai klinkende teksten. Wellicht moeten we onze keynote spreekster Nava Tintarev op 16 maart maar eens vragen of dat provenance-probleem wellicht kan worden opgelost met de systemen die in haar lezing aan de orde komen: “explainable AI-systems” die zelf aan gebruikers kunnen uitleggen hoe ze tot hun recommandaties en antwoorden komen.

“Provenance” is overigens niet het enige probleem met betrekking tot ChatGPT om je zorgen over te maken. Een volgende complicatie is de verwachting dat heel veel van dit soort AI-gegenereerde teksten ook weer hun weg zullen vinden op internet en daarmee terecht zullen komen in de zoekresultaten uit gewone zoekmachines. Nog weer een stapje verder dan dergelijke directe vervuiling van zoekresultaten, gaat de verwachting dat zulke door ChatGPT gegenereerde teksten bovendien terechtkomen in het materiaal waarmee taalmodellen als ChatGPT nu juist getraind worden, leidend tot een soort Baron von Münchhausen-effect.

Overigens wekt ChatGPT de indruk zich zelf ook “bewust” te zijn van de gevaren die dergelijk hergebruik met zich meebrengt (als je hem daarnaar vraagt).

Als je ChatGPT vraagt een artikel te schrijven met een referentielijst, ziet het resultaat er heel vertrouwenwekkend uit; de literatuurverwijzingen bestaan uit combinaties van plausibel klinkende titels en tijdschrift- en auteursnamen. Alleen zijn ze net zo fake als al die profielfoto’s van nepaccounts, die met deepfake technologie gegenereerd worden. “It is literally bullshitting”.

Het is trouwens opmerkelijk hoeveel informatie over het trainen van AI-systemen – kennelijk – in de trainingsdata verwerkt zat. Op vragen over de data waarmee het programma zelf getraind is, weet ChatGPT namelijk heel plausibel klinkende antwoorden te genereren .

Zo geeft ChatGPT ook antwoord op de vraag of het in staat is artikelen en antwoorden in Wikipedia-stijl te genereren, omdat het systeem ook met dergelijke artikelen getraind is. Dat is langzamerhand wel heel erg “meta” …. 😉

Bij die artikelen komen ook meteen al lijstjes verwijzingen. En structuur en templates van Wikipedia artikelen komen er ook uit.

Speciaal voor de Wikipedia nerds onder onze lezers hier een voorbeeld van de kant-en-klare Wikipedia Templates die ChatGPT hierbij kan genereren. Als je dit voorbeeld ziet, verbaast het niet meer dat ChatGPT ook in staat is om redelijk bruikbare code voor diverse populaire programmeertalen te genereren [vb].

Wat deze laatste voorbeelden ook duidelijk maken, is dat dit soort geavanceerde chatbots een bron als Wikipedia makkelijk kunnen vervuilen met een overmaat aan moeilijk te herkennen fake-teksten. Ik vrees dat er extra werk aan de winkel komt voor serieuze menselijke wikipedians. Of zou ChatGPT zelf wellicht getraind kunnen worden om dit soort fake bijdragen automatisch te herkennen?

Eric Sieverts

Aanvulling d.d. 21/12/2022:
Gisteren heeft Jan Scholtes (in 2017 spreker op ons congres) een blogpost met een uitgebreide beschrijving van voorgeschiedenis, werking en problemen van ChatGPT op LinkedIn geplaatst. Ondanks dat het verhaal deels wel wat technisch is, is het zeker een aanrader.

[Op 10/12/2022 waren nog enkele kleine aanvullingen in deze tekst toegevoegd.]
De bij dit artikel afgebeelde voorbeelden zijn ontleend aan berichten die gepost waren op Twitter en op Mastodon.

Het pure zoeken


In voorgaande blogposts hadden we nog niet veel aandacht besteed aan het “pure zoeken”, wat toch altijd een wezenlijk onderdeel van ons jaarlijkse programma vormt. Naast de veelheid aan gereedschappen voor het verwerken van gevonden gegevens dat eerder aan de orde kwam, zijn er namelijk ook wel degelijk pure zoekonderdelen.

In de eerste plaats zijn dat twee heel praktische onderdelen. Zo verzorgt Ewoud Sanders zijn bekende workshop “Slimmer zoeken in Delpher“. Met ruim 100 miljoen gedigitaliseerde pagina’s uit Nederlandse kranten, boeken en tijdschriften is Delpher een ware goudmijn, waarin je meer en betere resultaten vindt als je weet welke zoektechnieken je kunt toepassen.
Daarnaast is er een nieuwe workshop van Bianca Kramer en Jeroen Bosman. Zij besteden aandacht aan zoektechnieken om betrouwbare informatie op te sporen, zoals die nodig is voor systematic reviews. Maar dan niet via de gecontroleerde bibliografische databases die daar meestal voor gebruikt worden, maar met webzoekmachines. Zij stellen de vraag of je daarmee ook zodanig precies en gecontroleerd kunt zoeken, dat het resultaat aan de strengere eisen voor systematic reviews voldoet.

Naast deze workshops is er dan natuurlijk nog de spannende keynote waarmee we de dag openen. Andrew Yates, assistent hoogleraar bij IRlab aan de Universiteit van Amsterdam, is specialist op het gebied van de toepassing van neurale netwerken. De meesten van ons zullen die term waarschijnlijk alleen kennen in relatie tot machine learning technieken die worden toegepast in systemen waarmee teksten of plaatjes steeds beter automatisch geclassificeerd kunnen worden. Maar zulke neural deep learning technieken zijn nu ook in gebruik voor het verbeteren van zoekresultaten. Dergelijke neural search zorgt dan vooral voor een verbeterde ranking van zoekresultaten, doordat de betekenis van stukken tekst beter door zoeksystemen begrepen kan worden. Hoe dat precies werkt en wat voor verbetering dat oplevert, daarover zal Andrew Yates ons 11 mei bijpraten.

Do not use Google


In een eerdere blogpost citeerden we een blad waarin onze medeorganisator Arno Reuser geciteerd werd, dat we met Google moesten stoppen. Die opmerking van Arno was specifiek gericht op professionele zoekers. En terecht, want er is heel wat professioneel belangrijke informatie die je met Google niet kunt vinden. De meest voor de hand liggende reden daarvoor tekende het blad ook al op uit Arno’s mond: dat een heleboel serieuze informatie domweg “niet in Google zit”. Maar er is nog wel wat meer over te zeggen. Een heleboel dat wel in Google zit, vind je namelijk vaak ook niet meer. Daarbij spelen echter zaken die de gemiddelde journalistieke belangstelling wat te boven gaat. Vandaar dat ik beloofde er hier nog even op terug te komen.

Waar denk ik dan aan? De voornaamste reden is dat Google eigenlijk geen zoekmachine meer is, maar dat het een antwoordmachine is geworden. Dat houdt in dat Google probeert te begrijpen wat je eigenlijk met je zoekvraag bedoelt en daar antwoorden bij probeert te vinden. Daarbij wordt nu bijvoorbeeld BERT -Bidirectional Encoder Representations from Transformers JAWEL …..- natuurlijke taalverwerking technologie toegepast. Dat proberen te begrijpen is natuurlijk een loflijk streven, maar het betekent wel dat Google zoekvragen vaak herschrijft, waarbij met groot gemak zoekwoorden kunnen worden weggelaten of veranderd. En bij de inhoud van gevonden pagina’s wordt dat soort interpretatie ook toegepast. Zoekmachine Bing gebruikt BERT intussen trouwens ook.
Anders dan wat informatieprofessionals van zoeksystemen gewend zijn, hoeven getoonde zoekresultaten dus helemaal niet meer 1-op-1 overeen te komen met een ingetikte zoekvraag. Dat is natuurlijk prachtig voor “gewone” gebruikers, die Google als haar primaire doelgroep ziet. Die gebruikers zijn meestal alleen maar op zoek naar wat informatie over een onderwerp of een product, die nuttig en relevant is in hun eigen context en die daartoe vaak niet zulke correct geformuleerde zoekvragen formuleren. Maar voor professioneel gebruik, waar je vaak “alles” wilt hebben en waar de gebruiker al weet hoe die moet zoeken, is dat natuurlijk een ramp.

Wat dat in de praktijk inhoudt, wordt aardig geïllustreerd in een reeks tweets van @jeroenbosman eerder dit jaar. Die reeks begon met:

Hieronder een wat geredigeerde versie van dit draadje, inclusief enkele interessante reacties daarop.

The @Google web @search is now so limited it’s useless & dangerous for serious tasks. It finds you just ~200 pages with “climate crisis”: https://www.google.com/search?q=%22climate+crisis%22 … Why so few? Why these? What if one wants to check more than a few 100 pages containing a certain combination of words?

Christian Gutknecht‏ @chgutknecht:
hm.. the results of your query looks different to me. May you have another filter still activated?

Try to view more than a few hundred… Google never showed more than 1K results but last year reduced that even further to a very problematic few hundred.
Indeed. So much for Google’s broad and deep index. Of course you can add terms and still get a few hundreds, but sometimes you do not want that. Imagine wanting to find pages mentioning Plan S | cOAlition S and open access. You will get about 25% of what’s out there…

Lena Karvovskaya‏ @LangData:
As a follow-up on Jeroen’s critical twit about relying too much upon Google searches I thought I’d share this article about the intricacies and the limits of search. https://blogs.scientificamerican.com/observations/how-to-be-a-better-web-searcher-secrets-from-google-scientists/

Thanks, useful piece. Actually I do apply those tactics, but there are cases where they cannot be used to solve your problem. Suppose you wish to find all pages/post that mention “Plan S” or “cOAlition S”. There are at least 1200 pages known to Google that contain these terms, twice even. But you can not find them in a single search. You could trace them by consecutively guessing additional words that might appear in the pages, but that will inevitably create bias and still incomplete coverage. Only current solution is the date filter.

Lena Karvovskaya‏ @LangData:
Oh I see, you want ALL the pages. That’s not what google is made to do. There are ways to get around the limits: https://developers.google.com/webmaster-tools/search-console-api-original/v3/how-tos/all-your-data people who program can probably get even more results out of it

Relatie met de VOGIN-IP-lezing? In elk geval zal Jeroen Bosman op 19 maart weer een workshop verzorgen – al zal die dan niet over Google gaan. En we proberen nog te regelen dat één van de lezingen op BERT zal ingaan.

Eric Sieverts