De Bellingcat-methode

Middels bij ons bekend geworden namen als Eliot Higgins en Christiaan Triebert is Bellingcat in het verleden al een aantal keren paraat geweest bij de VOGIN-IP-lezing. Bellingcat is intussen alom bekend om zijn methode van open bronnenonderzoek. En dat beperkt zich lang niet alleen tot het befaamde onderzoek naar het neerschieten van MH17, maar ook naar intussen honderden andere zaken. Van de coup in Turkije tot de Skripal vergiftiging, van bombardementen in Syrië tot executies in Lybië en Kameroen, van de moord op Shireen Abu Akleh tot recent gepleegde oorlogsmisdaden in Oekraïne. Daarom wilden we in onze workshops graag weer eens praktisch aandacht besteden aan de “Bellingcat methode”. Te meer daar Bellingcat intussen in Nederland gevestigd is en hier als stichting staat ingeschreven.

Toepassen van “OSINT” kan natuurlijk allerlei doelen dienen, waarbij heel uiteenlopende technieken en tools worden toegepast. Een techniek die bij Bellingcat – maar ook elders – vaak met succes wordt gebruikt, is geolocation. Het bepalen op welke exacte lokatie een foto of video gemaakt is, en liefst ook nog wanneer. We zijn dan ook blij dat een docent van Bellingcat – de Nederlandse Annique Mossou – een workshop komt geven over dit specifieke onderdeel van de “Bellingcat methode”.


Een workshop van 2 uur biedt helaas onvoldoende tijd om deelnemers ook kennis te laten maken met al die andere technieken en te gebruiken hulpmiddelen, analysetools en bronnen uit het Bellingcat-arsenaal. Wie daar een indruk van wil krijgen moet maar eens op de site van Bellingcat kijken. En Annique zal ook zeker verwijzen naar dit soort nuttige bronnen voor wie verder wil gaan dan “alleen maar” geolocatie.


Geolocatie is een techniek die natuurlijk ook bij Factchecking een belangrijke rol kan spelen. Maar om te bepalen of iets “waar” is, wordt vaak nog heel wat meer ingezet. We zijn dan ook blij dat we dit jaar ook weer een workshop “Zo word je factchecker” kunnen aanbieden. Hoewel dat nu al voor het zesde jaar op rij is, blijft daar onverminderd belangstelling voor. Ook dit jaar weer verzorgd door factcheckers van “Nieuwscheckers.


Voor beide hier genoemde workshops geldt de aanbeveling je tijdig aan te melden.

Joyce over vindbaarheid en taxonomieën

Joyce van Aalten is al heel wat keren met workshops present geweest in het VOGIN-IP programma. Dit jaar is zij “gepromoveerd” tot spreker. En waarover anders dan over vindbaarheid van informatie en de rol van taxonomieën daarin. In de laatste (digitale) aflevering van IP van vorig jaar stond ook al een stuk van haar hand. Dit mede naar aanleiding van het uitkomen van een nieuw boek Taxonomies: Practical Approaches to Developing and Managing Vocabularies for Digital Information, waaraan Joyce een hoofdstuk over taxonomie-software had bijgedragen.
Haar lezing op 16 maart heeft ze een intrigerende titel meegegeven: Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar niks aan kan doen). Alleen al die titel zou een reden moeten zijn haar lezing niet te willen missen. Hopelijk dat ze daarbij ook uit de doeken kan doen wie dan wel wat aan die vijf problemen kan doen (of er de schuld van kan krijgen …….).

Terug- en vooruitblik

Met de opnamen die vorig jaar bij ons congres gemaakt zijn, hebben we bovenstaande korte promotie-video gemaakt, bedoeld om mensen te verleiden zich (weer) aan te melden voor het evenement van dit jaar. Of het nu gaat om vaste bezoekers of om nieuwe belangstellenden die we de sfeer willen laten proeven.
Deze video maakte ook prominent deel uit van de nieuwsbrief die we deze week verspreid hebben. Daarin uiteraard vooral ook een vooruitblik op enkele geselecteerde onderdelen uit het komende programma.
Met aandacht voor beide keynotes, voor nog een paar meer lezingen en vast voor één van de vele workshops. Heb je die nieuwsbrief niet ontvangen, lees en bekijk hem dan [hier] nog even.

En hier nog even de aanbeveling om je tijdig aan te melden, want:

  • bij workshops is maar beperkt ruimte (vol=vol) en sommige worden maar 1x gegeven (alleen ‘s ochtends of alleen ‘s middags),
  • bij aanmelden voor 1 februari geniet je van vroege vogel voordeel.

aanmelden

Wetenschappelijke netwerken visualiseren met VOSviewer


De wetenschap is bij uitstek een terrein van verbanden en relaties. Relaties tussen auteurs, verbanden tussen onderwerpen, links tussen publicaties, connecties tussen instituten en relaties tussen al dit soort entiteiten onderling. Informatie daarover is al heel lang digitaal beschikbaar en, met de toegenomen populariteit van open access, ook in toenemende mate vrij toegankelijk.
Het in kaart brengen van die verbanden is iets wat je niet meer handmatig moet willen doen. Bij CWTS, Centre for Science and Technology Studies, een onderzoeksinstituut van de Universiteit Leiden, is daar een fraai softwarepakket voor ontwikkeld: VOSviewer.
Gezien de achtergrond van CWTS is VOSviewer primair toegesneden op de analyse van bibliometrische netwerken, maar in feite kan die software ook gebruikt worden om andere soorten netwerken te exploreren en visualiseren. En het goede nieuws is ook nog dat je VOSviewer gratis online kunt gebruiken. Geen wonder dat er over de hele wereld gebruik van wordt gemaakt. Publicaties die de makers over het pakket schreven, zijn zelf dus ook al onderdeel van zo’n bibliometrisch netwerk. Dat heeft die publicaties intussen al vele duizenden bibliografische citaties opgeleverd. Hoofdontwikkelaar van het pakket, Nees Jan van Eck heeft daarmee al een formidabele H-index van 50 kunnen opbouwen.

Voor wie praktijkervaring wil opdoen met VOSviewer, geeft Nees Jan op 16 maart bij de VOGIN-IP-lezing een workshop over gebruik en mogelijkheden van het pakket. Sinds de vorige keer, twee jaar geleden, dat hij deze workshop voor ons verzorgde, is nog weer nieuwe functionaliteit toegevoegd. Dat betreft onder meer ondersteuning van meer vrij toegankelijke en open databronnen (zoals OpenAlex) en een nieuwe functie om eenvoudig interactieve visualisaties online te delen. Nog extra redenen om je nu voor deze workshop aan te melden.

Wiki** toepassingen bij VOGIN-IP

Bij de VOGIN-IP-lezing van dit jaar is nogal wat aandacht voor zaken die met Wikipedia, Wikidata en Wikimedia van doen hebben.
Zo is er in de eerste plaats een lezing van Odin Essers over de manier waarop in het onderwijs informatievaardigheden – met Wikipedia als belangrijke bron – gecombineerd kunnen worden met het op Wikipedia publiceren van informatie uit lokale bronnen.
De workshops bieden nog meer keuze. Zo is er een vorig jaar heel goed beoordeelde, maar toen nog niet zo goed bezochte, workshop over gebruik van Wikidata als databron, om feitelijk gegevens aan te ontlenen of om er juist gegevens aan toe te voegen.
Je kunt 16 maart ook leren met SPARQL te werken. Dat is een algemene zoektaal voor linked open data bronnen. Dat hoeft niet direct voor alleen Wikimedia-gerelateerde zaken te zijn, maar Wikidata is wel een heel belangrijke (en zeer omvangrijke) bron om SPARQL zoekacties op los te laten.
In dit verband willen we dan ook nog even de workshop OpenRefine noemen. Dat is een ook weer algemener tool voor het bewerken en opschonen van datasets. En daarvoor geldt eveneens dat het heel nuttig in combinatie met Wikidata kan worden toegepast.

Wacht niet te lang met aanmelden voor deze en andere workshops. Het aantal plaatsen is beperkt en sommige workshops zullen 16 maart sowieso maar 1x gegeven worden.

Op naar 2023

Het VOGIN-IP-team wenst u allen van harte mooie feestdagen en een inspirerend 2023. Met de situatie in de Oekraïne in gedachten, hoort daar meer dan ooit de dringende roep om vrede bij.

Even naar ons eigen kleine wereldje kijkend, hopen we u natuurlijk allemaal op 16 maart bij de OBA te treffen. Daarom is het een goed voornemen om, nog voor het nieuwe jaar begonnen is, te zorgen dat u verzekerd bent van zo’n felbegeerd entreebewijs voor de VOGIN-IP-lezing 2023.     aanmelden

Marjo, Monique, Peter, Will, Michel, Eric

Valt ChatGPT te vertrouwen?

Iedereen heeft het ineens over ChatGPT, het programma dat onwaarschijnlijk goed lopende, plausibel klinkende, coherente (Engelse) teksten over willekeurig welk onderwerp kan schrijven, en zelfs hele stukken computercode kan genereren. Daardoor komen op dit moment op alle media zowel grappige voorbeelden als serieuze toepassingen langs. Zo’n toepassing – met bezorgde kanttekening – is bijvoorbeeld dat studenten door het systeem essays kunnen laten schrijven, die voldoendes opleveren als ze die bij een toets inleveren. [1], [2]

ChatGPT werkt op basis van een zogenaamd LLM, een “large language model”, een taalmodel dat getraind is met gigantische hoeveelheden tekst. Zoals uit de naam al blijkt, gebruikt ChatGPT daarvoor de GPT-3 software (Generative Pre-trained Transformer – versie 3) die twee jaar geleden, als opvolger van “BERT“, een ware revolutie in AI-land teweeg bracht. Bij de VOGIN-IP-lezing 2021 kwam GPT-3 al aan de orde in de keynote van Antal van den Bosch.

In dit stuk geven we verder vooral voorbeelden die direct op ons vakgebied aansluiten. Zo wordt soms al gesteld dat je net zo goed een vraag aan ChatGPT kunt stellen als aan een klassieke zoekmachine. Inderdaad krijg je hiermee in de meeste gevallen ook onmiddellijk een heel plausibel antwoord. Alleen is het even de vraag hoe betrouwbaar dat antwoord is, waar dat antwoord vandaan komt, hoe ChatGPT dat antwoord bij elkaar geharkt heeft uit losse tekstfragmentjes uit het gigantische tekstcorpus waarmee het systeem getraind is (de “provenance”-vraag). Verderop volgen nog wel wat voorbeelden van dergelijke fraai klinkende teksten. Wellicht moeten we onze keynote spreekster Nava Tentarev op 16 maart maar eens vragen of dat provenance-probleem wellicht kan worden opgelost met de systemen die in haar lezing aan de orde komen: “explainable AI-systems” die zelf aan gebruikers kunnen uitleggen hoe ze tot hun recommandaties en antwoorden komen.

“Provenance” is overigens niet het enige probleem met betrekking tot ChatGPT om je zorgen over te maken. Een volgende complicatie is de verwachting dat heel veel van dit soort AI-gegenereerde teksten ook weer hun weg zullen vinden op internet en daarmee terecht zullen komen in de zoekresultaten uit gewone zoekmachines. Nog weer een stapje verder dan dergelijke directe vervuiling van zoekresultaten, gaat de verwachting dat zulke door ChatGPT gegenereerde teksten bovendien terechtkomen in het materiaal waarmee taalmodellen als ChatGPT nu juist getraind worden, leidend tot een soort Baron von Münchhausen-effect.

Overigens wekt ChatGPT de indruk zich zelf ook “bewust” te zijn van de gevaren die dergelijk hergebruik met zich meebrengt (als je hem daarnaar vraagt).

Als je ChatGPT vraagt een artikel te schrijven met een referentielijst, ziet het resultaat er heel vertrouwenwekkend uit; de literatuurverwijzingen bestaan uit combinaties van plausibel klinkende titels en tijdschrift- en auteursnamen. Alleen zijn ze net zo fake als al die profielfoto’s van nepaccounts, die met deepfake technologie gegenereerd worden. “It is literally bullshitting”.

Het is trouwens opmerkelijk hoeveel informatie over het trainen van AI-systemen – kennelijk – in de trainingsdata verwerkt zat. Op vragen over de data waarmee het programma zelf getraind is, weet ChatGPT namelijk heel plausibel klinkende antwoorden te genereren .

Zo geeft ChatGPT ook antwoord op de vraag of het in staat is artikelen en antwoorden in Wikipedia-stijl te genereren, omdat het systeem ook met dergelijke artikelen getraind is. Dat is langzamerhand wel heel erg “meta” …. 😉

Bij die artikelen komen ook meteen al lijstjes verwijzingen. En structuur en templates van Wikipedia artikelen komen er ook uit.

Speciaal voor de Wikipedia nerds onder onze lezers hier een voorbeeld van de kant-en-klare Wikipedia Templates die ChatGPT hierbij kan genereren. Als je dit voorbeeld ziet, verbaast het niet meer dat ChatGPT ook in staat is om redelijk bruikbare code voor diverse populaire programmeertalen te genereren [vb].

Wat deze laatste voorbeelden ook duidelijk maken, is dat dit soort geavanceerde chatbots een bron als Wikipedia makkelijk kunnen vervuilen met een overmaat aan moeilijk te herkennen fake-teksten. Ik vrees dat er extra werk aan de winkel komt voor serieuze menselijke wikipedians. Of zou ChatGPT zelf wellicht getraind kunnen worden om dit soort fake bijdragen automatisch te herkennen?

Eric Sieverts

Aanvulling d.d. 21/12/2022:
Gisteren heeft Jan Scholtes (in 2017 spreker op ons congres) een blogpost met een uitgebreide beschrijving van voorgeschiedenis, werking en problemen van ChatGPT op LinkedIn geplaatst. Ondanks dat het verhaal deels wel wat technisch is, is het zeker een aanrader.

[Op 10/12/2022 waren nog enkele kleine aanvullingen in deze tekst toegevoegd.]
De bij dit artikel afgebeelde voorbeelden zijn ontleend aan berichten die gepost waren op Twitter en op Mastodon.

Het programma vordert snel


Het programma voor 16 maart is intussen al bijna klaar. We wachten nog op een enkele toezegging, op een paar stukjes tekst en op wat foto’s. Dan kunnen we het hele programma hier publiceren. In elk geval zal nog voor oudjaar de inschrijving open gaan.
Maar om je nu vast enthousiast te maken, lichten we hier al een paar tipjes van de sluier op:

  • Ons programma is diverser dan ooit, met 5 vrouwelijke sprekers (van de 8), waaronder beide keynotes.
  • Over de keynote van Elisabeth Bik blogden we hier vorige week al.
  • Een andere buitenlandse spreker is Katariina Kari over de bij Ikea gebruikte Knowledge Graph.
  • Er zal keuze zijn uit opnieuw 11 workshops (waarvan hier al een sneak preview van de voorlopige line-up).
  • Het schema voor de dag zal weer hetzelfde zijn als vorige keer, met twee plenaire keynote-lezingen, als opening en afsluiting van het programma. Daartussen, zowel in de ochtend als in de middag, keuze tussen het bijwonen van meer lezingen of deelname aan workshops. Dat biedt de volgende mogelijkheden voor het keuzegedeelte van het programma:
    • bijwonen van alleen alle lezingen (zowel in de ochtend als de middag),
    • deelnemen aan twee verschillende workshops (in de ochtend én in de middag),
    • deelnemen aan één workshop + bijwonen van één reeks van 3 lezingen.
  • Hoewel alom (terecht) over de inflatie geklaagd wordt, hebben wij besloten het inschrijfgeld niet te verhogen.

Om bij dat laatste punt aan te sluiten: [HIER] kun je de tarieven al bekijken.

Eerste keynote: Elisabeth Bik

Tot ons genoegen kunnen we de eerste keynote spreker voor 16 maart aankondigen.
Elisabeth Bik is een Nederlandse microbioloog die al heel lang in Amerika werkt. De laatste jaren heeft zij internationale bekendheid gekregen door haar onvermoeibare inzet bij het detecteren van frauduleuze praktijken van wetenschappers bij het publiceren van hun onderzoeksresultaten. Dat kan bijvoorbeeld de vorm aannemen van gesjoemel met plaatjes waaruit auteurs soms vergaande ongerechtvaardigde conclusies trekken. Dit is een heel andere soort “fakenews” en “factchecking” dan tot nu toe in ons programma aan bod gekomen is. En ook met verdergaande consequenties: op basis van haar bevindingen hebben uitgevers al bijna 1000 artikelen moeten terugtrekken en bijna evenzoveel gecorrigeerde versies moeten publiceren. Maar ook voor haar zelf zitten er soms – minder leuke – consequenties aan: veel aandacht kreeg een aanklacht voor “Intimidatie, afpersing en chantage” door een “getroffen” wetenschapper. Overigens kreeg ze daarop massale steunbetuiging van andere “echte” wetenschappers.

Ook in andere kranten dan NRC werd al geregeld aandacht besteed aan haar manier van onderzoek, zoals in onder meer Trouw, Volkskrant, De Morgen, Guardian, The New York Times en The New Yorker.

We zijn bijzonder verheugd dat Elisabeth Bik nu bij ons over haar ervaringen en technieken komt vertellen.

Nog even een geruststelling voor wie zich bekommert om de CO2 emissies van ons congres. Het is niet alleen voor een praatje van 40 minuten bij ons dat Elisabeth Bik uit Californië komt overvliegen; ze combineert dat met diverse andere verplichtingen in Europa.