Valt ChatGPT te vertrouwen?

Iedereen heeft het ineens over ChatGPT, het programma dat onwaarschijnlijk goed lopende, plausibel klinkende, coherente (Engelse) teksten over willekeurig welk onderwerp kan schrijven, en zelfs hele stukken computercode kan genereren. Daardoor komen op dit moment op alle media zowel grappige voorbeelden als serieuze toepassingen langs. Zo’n toepassing – met bezorgde kanttekening – is bijvoorbeeld dat studenten door het systeem essays kunnen laten schrijven, die voldoendes opleveren als ze die bij een toets inleveren. [1], [2]

ChatGPT werkt op basis van een zogenaamd LLM, een “large language model”, een taalmodel dat getraind is met gigantische hoeveelheden tekst. Zoals uit de naam al blijkt, gebruikt ChatGPT daarvoor de GPT-3 software (Generative Pre-trained Transformer – versie 3) die twee jaar geleden, als opvolger van “BERT“, een ware revolutie in AI-land teweeg bracht. Bij de VOGIN-IP-lezing 2021 kwam GPT-3 al aan de orde in de keynote van Antal van den Bosch.

In dit stuk geven we verder vooral voorbeelden die direct op ons vakgebied aansluiten. Zo wordt soms al gesteld dat je net zo goed een vraag aan ChatGPT kunt stellen als aan een klassieke zoekmachine. Inderdaad krijg je hiermee in de meeste gevallen ook onmiddellijk een heel plausibel antwoord. Alleen is het even de vraag hoe betrouwbaar dat antwoord is, waar dat antwoord vandaan komt, hoe ChatGPT dat antwoord bij elkaar geharkt heeft uit losse tekstfragmentjes uit het gigantische tekstcorpus waarmee het systeem getraind is (de “provenance”-vraag). Verderop volgen nog wel wat voorbeelden van dergelijke fraai klinkende teksten. Wellicht moeten we onze keynote spreekster Nava Tintarev op 16 maart maar eens vragen of dat provenance-probleem wellicht kan worden opgelost met de systemen die in haar lezing aan de orde komen: “explainable AI-systems” die zelf aan gebruikers kunnen uitleggen hoe ze tot hun recommandaties en antwoorden komen.

“Provenance” is overigens niet het enige probleem met betrekking tot ChatGPT om je zorgen over te maken. Een volgende complicatie is de verwachting dat heel veel van dit soort AI-gegenereerde teksten ook weer hun weg zullen vinden op internet en daarmee terecht zullen komen in de zoekresultaten uit gewone zoekmachines. Nog weer een stapje verder dan dergelijke directe vervuiling van zoekresultaten, gaat de verwachting dat zulke door ChatGPT gegenereerde teksten bovendien terechtkomen in het materiaal waarmee taalmodellen als ChatGPT nu juist getraind worden, leidend tot een soort Baron von Münchhausen-effect.

Overigens wekt ChatGPT de indruk zich zelf ook “bewust” te zijn van de gevaren die dergelijk hergebruik met zich meebrengt (als je hem daarnaar vraagt).

Als je ChatGPT vraagt een artikel te schrijven met een referentielijst, ziet het resultaat er heel vertrouwenwekkend uit; de literatuurverwijzingen bestaan uit combinaties van plausibel klinkende titels en tijdschrift- en auteursnamen. Alleen zijn ze net zo fake als al die profielfoto’s van nepaccounts, die met deepfake technologie gegenereerd worden. “It is literally bullshitting”.

Het is trouwens opmerkelijk hoeveel informatie over het trainen van AI-systemen – kennelijk – in de trainingsdata verwerkt zat. Op vragen over de data waarmee het programma zelf getraind is, weet ChatGPT namelijk heel plausibel klinkende antwoorden te genereren .

Zo geeft ChatGPT ook antwoord op de vraag of het in staat is artikelen en antwoorden in Wikipedia-stijl te genereren, omdat het systeem ook met dergelijke artikelen getraind is. Dat is langzamerhand wel heel erg “meta” …. 😉

Bij die artikelen komen ook meteen al lijstjes verwijzingen. En structuur en templates van Wikipedia artikelen komen er ook uit.

Speciaal voor de Wikipedia nerds onder onze lezers hier een voorbeeld van de kant-en-klare Wikipedia Templates die ChatGPT hierbij kan genereren. Als je dit voorbeeld ziet, verbaast het niet meer dat ChatGPT ook in staat is om redelijk bruikbare code voor diverse populaire programmeertalen te genereren [vb].

Wat deze laatste voorbeelden ook duidelijk maken, is dat dit soort geavanceerde chatbots een bron als Wikipedia makkelijk kunnen vervuilen met een overmaat aan moeilijk te herkennen fake-teksten. Ik vrees dat er extra werk aan de winkel komt voor serieuze menselijke wikipedians. Of zou ChatGPT zelf wellicht getraind kunnen worden om dit soort fake bijdragen automatisch te herkennen?

Eric Sieverts

Aanvulling d.d. 21/12/2022:
Gisteren heeft Jan Scholtes (in 2017 spreker op ons congres) een blogpost met een uitgebreide beschrijving van voorgeschiedenis, werking en problemen van ChatGPT op LinkedIn geplaatst. Ondanks dat het verhaal deels wel wat technisch is, is het zeker een aanrader.

[Op 10/12/2022 waren nog enkele kleine aanvullingen in deze tekst toegevoegd.]
De bij dit artikel afgebeelde voorbeelden zijn ontleend aan berichten die gepost waren op Twitter en op Mastodon.

Het programma vordert snel


Het programma voor 16 maart is intussen al bijna klaar. We wachten nog op een enkele toezegging, op een paar stukjes tekst en op wat foto’s. Dan kunnen we het hele programma hier publiceren. In elk geval zal nog voor oudjaar de inschrijving open gaan.
Maar om je nu vast enthousiast te maken, lichten we hier al een paar tipjes van de sluier op:

  • Ons programma is diverser dan ooit, met 5 vrouwelijke sprekers (van de 8), waaronder beide keynotes.
  • Over de keynote van Elisabeth Bik blogden we hier vorige week al.
  • Een andere buitenlandse spreker is Katariina Kari over de bij Ikea gebruikte Knowledge Graph.
  • Er zal keuze zijn uit opnieuw 11 workshops (waarvan hier al een sneak preview van de voorlopige line-up).
  • Het schema voor de dag zal weer hetzelfde zijn als vorige keer, met twee plenaire keynote-lezingen, als opening en afsluiting van het programma. Daartussen, zowel in de ochtend als in de middag, keuze tussen het bijwonen van meer lezingen of deelname aan workshops. Dat biedt de volgende mogelijkheden voor het keuzegedeelte van het programma:
    • bijwonen van alleen alle lezingen (zowel in de ochtend als de middag),
    • deelnemen aan twee verschillende workshops (in de ochtend én in de middag),
    • deelnemen aan één workshop + bijwonen van één reeks van 3 lezingen.
  • Hoewel alom (terecht) over de inflatie geklaagd wordt, hebben wij besloten het inschrijfgeld niet te verhogen.

Om bij dat laatste punt aan te sluiten: [HIER] kun je de tarieven al bekijken.

Eerste keynote: Elisabeth Bik

Tot ons genoegen kunnen we de eerste keynote spreker voor 16 maart aankondigen.
Elisabeth Bik is een Nederlandse microbioloog die al heel lang in Amerika werkt. De laatste jaren heeft zij internationale bekendheid gekregen door haar onvermoeibare inzet bij het detecteren van frauduleuze praktijken van wetenschappers bij het publiceren van hun onderzoeksresultaten. Dat kan bijvoorbeeld de vorm aannemen van gesjoemel met plaatjes waaruit auteurs soms vergaande ongerechtvaardigde conclusies trekken. Dit is een heel andere soort “fakenews” en “factchecking” dan tot nu toe in ons programma aan bod gekomen is. En ook met verdergaande consequenties: op basis van haar bevindingen hebben uitgevers al bijna 1000 artikelen moeten terugtrekken en bijna evenzoveel gecorrigeerde versies moeten publiceren. Maar ook voor haar zelf zitten er soms – minder leuke – consequenties aan: veel aandacht kreeg een aanklacht voor “Intimidatie, afpersing en chantage” door een “getroffen” wetenschapper. Overigens kreeg ze daarop massale steunbetuiging van andere “echte” wetenschappers.

Ook in andere kranten dan NRC werd al geregeld aandacht besteed aan haar manier van onderzoek, zoals in onder meer Trouw, Volkskrant, De Morgen, Guardian, The New York Times en The New Yorker.

We zijn bijzonder verheugd dat Elisabeth Bik nu bij ons over haar ervaringen en technieken komt vertellen.

Nog even een geruststelling voor wie zich bekommert om de CO2 emissies van ons congres. Het is niet alleen voor een praatje van 40 minuten bij ons dat Elisabeth Bik uit Californië komt overvliegen; ze combineert dat met diverse andere verplichtingen in Europa.

VOGIN-IP nu ook op Mastodon

Ook VOGIN-IP heeft dezer dagen zijn heil gezocht op Mastodon. Je kunt onze twitterachtige berichten nu dus ook vinden op mastodon.online/@vogin_ip https://akademienl.social/@vogin_ip. *
Maar dat betekent niet dat we Twitter nu al helemaal vaarwel zeggen. Zolang we daar nog veel meer bereik hebben (en we daar ook nog veel handiger mee zijn), blijven we al onze berichten zeker ook op Twitter publiceren. Blijf onze tweets dus retweeten, maar “boost” ook onze “toots” op mastodon. Ja, dat nieuwe jargon is nog wel even wennen ….

* Vanwege de zeer trage response op mastodon.online hebben we ons account op 7/11/2022 naar deze andere (Nederlandse) server overgezet.
 

Nieuwsbrief is uit


De eerste nieuwsbrief voor de VOGIN-IP-lezing 2023 is vandaag uitgegaan. Daarin nog geen programma (want anders had u dat hier ook wel al gehoord). Maar vooral als een opwarmertje voor de vaste bezoekers.
Hebt u de nieuwsbrief niet ontvangen? Dan kunt u hem [HIER] alsnog lezen.
Nog geen abonnement op de nieuwsbrief? Dan kunt u zich [HIER] registreren om volgende afleveringen automatisch in uw mailbox te krijgen.

Trust me, I’m a journalist

Maandag 26 september wordt in het VPRO-programma Tegenlicht gesproken met Christiaan Triebert. Dat gaat uiteraard over OSINT en over de manier waarop hij OSINT-technieken bij de New York Times toepast. Niet alleen op TV, maar ook online is die Tegenlicht-aflevering te bekijken.

En uiteraard is het ook een goed moment om nog eens terug te zien wat Christiaan als keynote-spreker op de VOGIN-IP-lezing 2020 ons daar (online) al over vertelde.

 


 

Save the date: 16 maart


Gisteren hebben we de definitieve bevestiging gekregen dat de volgende VOGIN-IP-lezing op 16 maart gehouden kan worden, weer bij de OBA. Dat wordt dan al de 11de editie.
De beoordeling van de vorige VOGIN-IP-lezing zal zeker maken dat je de volgende niet wilt missen. Vergeet dus niet om 16 maart 2023 nu al vast in je agenda te reserveren.

Wat u ervan vond

Na afloop van de VOGIN-IP-lezing benaderen we elk jaar de deelnemers om te horen wat ze van het evenement vonden. Soms vraag je je wel eens af of zo’n evaluatie nog wel zinvol is. Als je hieronder de resultaten van een paar vragen uit de laatste paar jaar met elkaar vergelijkt, heb je het gevoel dat we de antwoorden langzamerhand wel ongeveer zelf kunnen invullen.

2018 2019 2021 2022
De organisatie van de dag was
De prijs/kwaliteit verhouding was

Mogelijkheid tot professionele en sociale contacten was

Keuze voor te volgen workshops was

Toch levert het voor ons wel degelijk zinvolle inzichten op. Alleen zitten die meer in de antwoorden die de deelnemers er nog bijschrijven. Maar die zijn niet eenvoudig in te passen in dit soort lekker overzichtelijke grafiekjes voor op de website.
Een andere nuttige terugkoppeling vormen de beoordelingen van de sprekers en de workshops. Daar kunnen we in deze blogpost nog wel iets mee. Zo hebben we de vorig jaar al gepubliceerde vergelijking van de “rapportcijfers” van de afgelopen jaren kunnen aanvullen met de cijfers van dit jaar.

Dat stemt redelijk tevreden:
– De keynotes waren gemiddeld iets beter beoordeeld dan vorig jaar – 7,8 vs 7,55;
– Het gemiddelde cijfer voor de overige sprekers was exact gelijk gebleven;
– Maar de best beoordeelde spreker (Brecht Castel) had de hoogste beoordeling ooit;
– De workshops waren gemiddeld een fractie minder beoordeeld dan vorig jaar (maar dat jaar was dan ook een absolute topper);
– En de hoogst beoordeelde workshop was hoger beoordeeld dan enig eerder jaar, terwijl ook de slechtst beoordeelde nog altijd een hoger cijfer kreeg dan de slechtste van eerdere jaren.
Overigens is bij de workshops wel een voorbehoud op zijn plaats. Gezien de veelal kleine aantallen respondenten zeggen de resultaten voor de afzonderlijke workshops niet zo heel veel.

Om een indruk te geven van de spreiding van gegeven beoordelingen, als voorbeeld tot slot nog plaatjes van de totale scores voor de twee hoogst gewaardeerde sprekers, Brecht Castel uit het ochtendprogramma en Cynthia Liem uit het middagprogramma.


PS:
In onderstaande tweet ook nog een commentaar van Brecht Castel zelf op zijn eigen performance 😉 :

11 mei


Gisteren waren 175 deelnemers getuige van een succesvolle 10de aflevering van de VOGIN-IP-lezing. Dat waren al weer wat meer bezoekers dan bij het vorige evenement, vorig jaar oktober. Maar aan de pre-corona aantallen kwamen we daarmee toch nog niet.

Als organisatoren waren we dit keer zelf ook weer aangenaam verrast door de kwaliteit van veel van de lezingen. Het organiserend en uitvoerend team op de foto hierboven, ziet er aan het eind van de dag dan ook tevreden uit. Maar ook als we op de reacties van de bezoekers afgaan, hebben de thuisblijvers echt weer wat gemist.

De presentaties van bijna alle sprekers en van een paar van de workshops staan intussen al op deze website. Meer zal binnenkort nog volgen. Ook hebben we de gisteren verstuurde tweets al verzameld. En verder staan op die terugblikpagina al een paar foto’s. Maar het wachten is natuurlijk op de officiële congresfoto’s die we zo spoedig mogelijk zullen proberen te publiceren.