Eerste keynote: Elisabeth Bik

Tot ons genoegen kunnen we de eerste keynote spreker voor 16 maart aankondigen.
Elisabeth Bik is een Nederlandse microbioloog die al heel lang in Amerika werkt. De laatste jaren heeft zij internationale bekendheid gekregen door haar onvermoeibare inzet bij het detecteren van frauduleuze praktijken van wetenschappers bij het publiceren van hun onderzoeksresultaten. Dat kan bijvoorbeeld de vorm aannemen van gesjoemel met plaatjes waaruit auteurs soms vergaande ongerechtvaardigde conclusies trekken. Dit is een heel andere soort “fakenews” en “factchecking” dan tot nu toe in ons programma aan bod gekomen is. En ook met verdergaande consequenties: op basis van haar bevindingen hebben uitgevers al bijna 1000 artikelen moeten terugtrekken en bijna evenzoveel gecorrigeerde versies moeten publiceren. Maar ook voor haar zelf zitten er soms – minder leuke – consequenties aan: veel aandacht kreeg een aanklacht voor “Intimidatie, afpersing en chantage” door een “getroffen” wetenschapper. Overigens kreeg ze daarop massale steunbetuiging van andere “echte” wetenschappers.

Ook in andere kranten dan NRC werd al geregeld aandacht besteed aan haar manier van onderzoek, zoals in onder meer Trouw, Volkskrant, De Morgen, Guardian, The New York Times en The New Yorker.

We zijn bijzonder verheugd dat Elisabeth Bik nu bij ons over haar ervaringen en technieken komt vertellen.

Nog even een geruststelling voor wie zich bekommert om de CO2 emissies van ons congres. Het is niet alleen voor een praatje van 40 minuten bij ons dat Elisabeth Bik uit Californië komt overvliegen; ze combineert dat met diverse andere verplichtingen in Europa.

Al 2x bij NPO-OP1, a.s. woensdag live bij VOGIN-IP


Altijd leuk als een voor VOGIN-IP geboekte spreker ineens ook op TV verschijnt. Eerder gebeurde dat met Christiaan Triebert, nu is de beurt aan Knack-factchecker Brecht Castel. Al twee keer mocht hij vorige maand bij NPO-OP1 aanschuiven om te vertellen over zijn factchecking-activiteiten, vooral met betrekking tot (nep)nieuws over Oekraïne ([8 april], [26 april]). Op TV is natuurlijk leuk, maar Brecht a.s. woensdag live horen vertellen is nog veel leuker. Want dan krijgt hij veel ruimer de tijd (40 minuten) om iets van zijn methoden te laten zien en bovendien kan hij daar niet worden onderbroken door eigenwijze presentatoren en andere gasten.

Naar zo’n live lezing zitten luisteren is natuurlijk fantastisch, maar zelf doen is zeker zo leuk. Daarom zijn we blij dat je ook actief met factchecken aan de gang kunt in de workshop van Leon Pauw. Hij is factchecker voor het Leidse Nieuwscheckers en vervangt in deze workshop onze reguliere docent Alexander Pleijter die onverwacht verhinderd was.

Woensdag is natuurlijk kort dag, maar aanmelden kan nog tot uiterlijk dinsdagavond (wel hoe eerder, hoe fijner voor de organisatoren). En je kunt het ook nog combineren: in het ochtendprogramma naar Brecht, in de middag naar Leon’s workshop.
Zien we je woensdag?

 
aanmelden
 

Het pure zoeken


In voorgaande blogposts hadden we nog niet veel aandacht besteed aan het “pure zoeken”, wat toch altijd een wezenlijk onderdeel van ons jaarlijkse programma vormt. Naast de veelheid aan gereedschappen voor het verwerken van gevonden gegevens dat eerder aan de orde kwam, zijn er namelijk ook wel degelijk pure zoekonderdelen.

In de eerste plaats zijn dat twee heel praktische onderdelen. Zo verzorgt Ewoud Sanders zijn bekende workshop “Slimmer zoeken in Delpher“. Met ruim 100 miljoen gedigitaliseerde pagina’s uit Nederlandse kranten, boeken en tijdschriften is Delpher een ware goudmijn, waarin je meer en betere resultaten vindt als je weet welke zoektechnieken je kunt toepassen.
Daarnaast is er een nieuwe workshop van Bianca Kramer en Jeroen Bosman. Zij besteden aandacht aan zoektechnieken om betrouwbare informatie op te sporen, zoals die nodig is voor systematic reviews. Maar dan niet via de gecontroleerde bibliografische databases die daar meestal voor gebruikt worden, maar met webzoekmachines. Zij stellen de vraag of je daarmee ook zodanig precies en gecontroleerd kunt zoeken, dat het resultaat aan de strengere eisen voor systematic reviews voldoet.

Naast deze workshops is er dan natuurlijk nog de spannende keynote waarmee we de dag openen. Andrew Yates, assistent hoogleraar bij IRlab aan de Universiteit van Amsterdam, is specialist op het gebied van de toepassing van neurale netwerken. De meesten van ons zullen die term waarschijnlijk alleen kennen in relatie tot machine learning technieken die worden toegepast in systemen waarmee teksten of plaatjes steeds beter automatisch geclassificeerd kunnen worden. Maar zulke neural deep learning technieken zijn nu ook in gebruik voor het verbeteren van zoekresultaten. Dergelijke neural search zorgt dan vooral voor een verbeterde ranking van zoekresultaten, doordat de betekenis van stukken tekst beter door zoeksystemen begrepen kan worden. Hoe dat precies werkt en wat voor verbetering dat oplevert, daarover zal Andrew Yates ons 11 mei bijpraten.

Archief beter vindbaar maken met Records in Contexts


Linked (Open) Data is voor informatieprofessionals belangrijk gereedschap bij het vindbaar maken van informatie. Het onderwerp komt dit jaar daarom in een aantal lezingen en workshops aan bod. Onder andere in de lezing van Merel Geerlings en Ivo Zandhuis.

Merel en Ivo komen vertellen hoe men bij het Stadsarchief Amsterdam linked data inzet om tot betere zoekresultaten voor de gebruiker te komen. De sprekers zien dat linked data veel denkstappen wegneemt bij de gebruiker omdat je via de relaties die in het schema zijn vastgelegd, makkelijker associatief kunt zoeken. Bovendien kun je als informatieprofessional profiteren van elkaars kennis door verbindingen te leggen met elkaars terminologiebronnen. Zo concentreert het Stadsarchief zich bijvoorbeeld op de metadata waar zij expert in is – de straten, personen en organisaties van Amsterdam – en richt zich voor de andere te beschrijven concepten op de terminologiebronnen die collega’s elders al hebben gemaakt.


Visualisatie van een metadatanetwerk in RiC.
Bron: Stadsarchief Amsterdam, ‘Records in Contexts (4): Metadatanetwerk,’ 21 april 2021

 
Het Stadsarchief gebruikt sinds kort de nieuwe archiefbeschrijvingsstandaard Records in Contexts (RiC) om het archiefmateriaal vindbaar te maken. RiC is gebaseerd op linked data en heel geschikt om digitaal materiaal mee te beschrijven. Komt er met RiC een einde aan de voor gebruikers soms ingewikkelde hiërarchisch opgebouwde inventarissen? Merel en Ivo zullen ons in hun lezing daar meer over vertellen. En misschien ook wel over de ‘blauwdruk’ die bij het Stadsarchief is gemaakt van alle interne metadata en vocabulaires èn de verbindingen naar buiten.

Omdat het Stadsarchief één van de eerste archiefinstellingen is die RiC gebruikt, verscheen afgelopen jaar speciaal voor de vakgenoten een tiental blogposts over de implementatie. De blogposts vind je terug op het Bronnen in bytes blog van het Stadsarchief.

De algoritmes achter het toeslagenschandaal


Algoritmes zijn overal. Dus is het niet verwonderlijk dat ze ook een rol speelden bij de besluitvorming achter het toeslagenschandaal. Je kunt je natuurlijk afvragen, wat wij als informatieprofessionals daarmee van doen hebben. Cynthia Liem heeft daar wel een antwoord op:

In het veelbesproken toeslagenschandaal speelden digitale en algoritmische componenten een belangrijke rol. Hoewel er in het toeslagenschandaal sprake was van een toepassing die ver af lijkt te staan van de informatieprofessional (automatische inschatting van onrechtmatigheid/fraude), hebben de gebruikte digitale en algoritmische componenten wel degelijk veel overeenkomsten met componenten waar een informatieprofessional mee te maken zou krijgen in zoek- en aanbevelingsscenario’s.

 
Vandaar dat we blij zijn dat juist zij ons komt vertellen hoe het daarmee zat en welke les ook wij daaruit kunnen trekken. De bovenstaande quote komt dan ook uit de tekst over haar lezing die ze ons had toegestuurd. Voor dagblad Trouw (zie boven) en RTL-nieuws heeft ze – samen met Trouw-columnist Ilyaz Nasrullah – namelijk onderzoek gedaan naar die “digitale en algoritmische componenten” die de belastingdienst gebruikte.

Cynthia was al eens eerder bij ons te gast. In 2019 bleef ze met de voorbeelden in haar lezing nog dicht bij haar andere discipline, de muziek – zij is ook professioneel uitvoerend musicus. Aan onderstaande toen gemaakte foto is dat wel af te zien. Dit keer sluit zij in hoge mate aan bij de actualiteit.

Het programma


Het programma voor de komende VOGIN-IP-lezing is nog niet klaar, maar er wordt wel hard aan gewerkt. Het vaste organiserende team is daartoe uitgebreid met een adviescommissie die vanuit verschillende achtergronden ideeën voor sprekers en workshops kan inbrengen en bespreken. Overleg vindt nog even via Zoom plaats. Maar ook dat blijkt heel inspirerend en vruchtbaar te kunnen zijn.
Het overleg heeft dan ook al geresulteerd in een flink aantal uitnodigingen aan potentiële sprekers en workshopdocenten. Voor de workshops zijn er zelfs al vijf toegezegd. Houdt hier onze berichten over de voortgang in de gaten.

VOGIN-IP-lezingen terugkijken

De op 21 oktober gehouden lezingen zijn op video opgenomen. Zelfs voor het VOGIN-IP-team was dat een prettige verrassing. En dat zal helemaal het geval zijn voor degenen die 21 oktober verhinderd waren er zelf bij te zijn, of die toen de moeilijke keuze moesten maken om aan een workshop mee te doen, terwijl er tegelijkertijd ook interessante lezingen te beluisteren waren. Van zeven van de acht sprekers hebben we gelukkig achteraf toestemming kunnen krijgen om hun lezingen te publiceren.

Omdat bijna 5 uur binge watching zelfs bij deze interessante sprekers wellicht wat veel van het goede is, hebben we hieronder een lijstje deep-links die je rechtstreeks naar het begin van elk van de lezingen brengt. Dan kun je zelf kiezen wie je wanneer bekijkt.

In bovenstaande volgorde zit geen kwaliteitsoordeel; het is gewoon de volgorde waarin ze op 21 oktober gepresenteerd zijn. Amuseer je ermee.

Deepfakes – de keynote

Eind vorig jaar wees Arjen Lubach al eens op de gevaren van deepfakes. Als informatieprofessionals keken we daar natuurlijk niet heel erg van op. Toch gaan we bij de komende VOGIN-IP-lezing verder op dat thema in. En nog wel in één van onze keynotes, de laatst geboekte, waarover we jullie nog niet echt geïnformeerd hadden. Voor de keynote waarmee het programma ‘s ochtends geopend wordt, hebben we professor Zeno Geradts uitgenodigd. Hij is werkzaam bij het Nederlands Forensisch Instituut en is daarnaast bijzonder hoogleraar Forensic Data Science bij het Instituut voor Informatica van de UvA. Zijn lezing koppelt ook die twee instituten. Die werken namelijk samen in een net nieuw gestart project waarin technieken worden ontwikkeld waarmee automatisch kan worden herkend of een video een deepfake is. Nu de technieken om deepfakes te genereren steeds geavanceerder – en laagdrempeliger – worden, wordt het steeds moeilijker om ze nog met simpele technieken te herkennen.

Dat herkennen is wel zo’n beetje de heilige graal geworden voor zowel factcheckers als forensisch onderzoekers. Bij het Forensisch Instituut willen ze ten behoeve van juridische procedures bijvoorbeeld onomstotelijk kunnen bewijzen dat een bepaalde persoon werkelijk in een video voorkomt of dat die het in werkelijkheid niet is. Ook bij de verspreiding van nepnieuws spelen deepfakes steeds vaker een rol. Hoe weten we of een politicus of een BNer werkelijk de stuitende uitspraak heeft gedaan die je hem net hebt zien doen. Ook voor nieuws- en factcheckers is het dus van belang te kunnen bepalen of een video een deepfake is of dat hij echt is.

Beeld uit video van American Academy of Forensic Sciences – Is dit echt Zeno Geradts? 😉

Dit onderzoek berust voor een belangrijk deel op kunstmatige intelligentie en wordt dan ook uitgevoerd bij het Innovation Center for Artificial Intelligence, een nationaal netwerk waarin universiteiten, bedrijven en overheid samenwerken. Volgens Zeno Geradts zijn de huidige modellen voor het herkennen van deepfakes in staat om dat in zo’n 80% van de gevallen correct te doen, maar hij wil graag dat toch wel meer dan 99% eruit gevist kan worden. Er is dus nog genoeg werk te doen, des te meer omdat het een kat-en-muis spel is waarin snelle verbeteringen aan de maakkant moeten worden bijgehouden aan de detectiekant. Marcel Worring, de UvA-collega waarmee Zeno Geradts in dit project samenwerkt, memoreerde al dat van alle investeringen in deepfakes 90 procent gaat naar het verbeteren van de techniek om ze te maken en op dit moment maar 10 procent naar onderzoek om ze te herkennen.

Het programma – de lezingen

Op deze blog hebben we wel al kort stil gestaan bij de workshops, voorzover die twee maanden geleden bekend waren. Maar we hadden nog weinig over het lezingenprogramma gemeld, terwijl de inschrijving voor ons congres toch al heel snel gaat starten. Daarom nu wat meer daarover.

Van de beoogde sprekers ontbreekt er op dit moment nog eentje. Dat betekent dat we in elk geval al één van onze keynote sprekers bij jullie kunnen introduceren. Dat is professor Antal van de Bosch. Ooit, bij de eerste VOGIN-IP-lezing in 2013, heeft hij ook al eens een lezing verzorgd. Intussen zijn we acht jaar verder en is hij nu directeur van het Meertensinstituut van de KNAW en sinds kort hoogleraar bij de UVA. Daar doet hij uiteraard al weer andere dingen dan in 2013, zodat we zeer benieuwd zijn wat hij nu te vertellen heeft.
Zijn lezing zal gaan over een onderwerp dat we in de afgelaste 2020 editie ook al gepland hadden. Dat betreft taalmodellen waarmee bijvoorbeeld automatisch teksten gegenereerd kunnen worden, of waarmee voorspeld kan worden wat er op een gegeven tekst kan volgen. Dergelijke taalmodellen zijn gebaseerd op kunstmatige intelligentie en machine learning, waarbij de software gevoed wordt met onvoorstelbaar omvangrijke tekstcorpora. Ook grote zoekmachines maken steeds meer gebruik van dit soort technieken, bijvoorbeeld om te voorspellen wat gebruikers (zeer waarschijnlijk) met hun zoekvragen bedoelen.
De eerste techniek waarvan de vakbladen drie jaar geleden vol stonden, was BERT. Onder meer Google had daarvoor belangrijke toepassingen ontwikkeld. Over de wat raadselachtige omschrijving waarvan BERT het acroniem was – Bidirectional Encoder Representations from Transformers – schreven we in 2019 al eens blogposts (HIER en HIER), voorafgaand aan die 2020 editie.

Intussen is er nog weer een nieuwere variant, GPT-3 (Generative Pre-trained Transformer, version 3) die nog krachtiger is en voor nog weer meer toepassingen gebruikt moet kunnen worden. In een artikel in NRC hierover mocht Antal van den Bosch daar al één en ander over vertellen. We zijn dus heel blij dat hij 21 oktober ons daarover komt bijpraten op een manier die ook begrijpelijk is voor toehoorders die geen informaticus of taaltechnoloog zijn.

Informatie over de zes gewone lezingen uit ons programma kun je in voorlopige versie ook al op onze website bekijken. Alleen de tweede keynote spreker ontbreekt daar dus nog.