Deepfakes – de keynote

Eind vorig jaar wees Arjen Lubach al eens op de gevaren van deepfakes. Als informatieprofessionals keken we daar natuurlijk niet heel erg van op. Toch gaan we bij de komende VOGIN-IP-lezing verder op dat thema in. En nog wel in één van onze keynotes, de laatst geboekte, waarover we jullie nog niet echt geïnformeerd hadden. Voor de keynote waarmee het programma ‘s ochtends geopend wordt, hebben we professor Zeno Geradts uitgenodigd. Hij is werkzaam bij het Nederlands Forensisch Instituut en is daarnaast bijzonder hoogleraar Forensic Data Science bij het Instituut voor Informatica van de UvA. Zijn lezing koppelt ook die twee instituten. Die werken namelijk samen in een net nieuw gestart project waarin technieken worden ontwikkeld waarmee automatisch kan worden herkend of een video een deepfake is. Nu de technieken om deepfakes te genereren steeds geavanceerder – en laagdrempeliger – worden, wordt het steeds moeilijker om ze nog met simpele technieken te herkennen.

Dat herkennen is wel zo’n beetje de heilige graal geworden voor zowel factcheckers als forensisch onderzoekers. Bij het Forensisch Instituut willen ze ten behoeve van juridische procedures bijvoorbeeld onomstotelijk kunnen bewijzen dat een bepaalde persoon werkelijk in een video voorkomt of dat die het in werkelijkheid niet is. Ook bij de verspreiding van nepnieuws spelen deepfakes steeds vaker een rol. Hoe weten we of een politicus of een BNer werkelijk de stuitende uitspraak heeft gedaan die je hem net hebt zien doen. Ook voor nieuws- en factcheckers is het dus van belang te kunnen bepalen of een video een deepfake is of dat hij echt is.

Beeld uit video van American Academy of Forensic Sciences – Is dit echt Zeno Geradts? 😉

Dit onderzoek berust voor een belangrijk deel op kunstmatige intelligentie en wordt dan ook uitgevoerd bij het Innovation Center for Artificial Intelligence, een nationaal netwerk waarin universiteiten, bedrijven en overheid samenwerken. Volgens Zeno Geradts zijn de huidige modellen voor het herkennen van deepfakes in staat om dat in zo’n 80% van de gevallen correct te doen, maar hij wil graag dat toch wel meer dan 99% eruit gevist kan worden. Er is dus nog genoeg werk te doen, des te meer omdat het een kat-en-muis spel is waarin snelle verbeteringen aan de maakkant moeten worden bijgehouden aan de detectiekant. Marcel Worring, de UvA-collega waarmee Zeno Geradts in dit project samenwerkt, memoreerde al dat van alle investeringen in deepfakes 90 procent gaat naar het verbeteren van de techniek om ze te maken en op dit moment maar 10 procent naar onderzoek om ze te herkennen.

Het programma – de lezingen

Op deze blog hebben we wel al kort stil gestaan bij de workshops, voorzover die twee maanden geleden bekend waren. Maar we hadden nog weinig over het lezingenprogramma gemeld, terwijl de inschrijving voor ons congres toch al heel snel gaat starten. Daarom nu wat meer daarover.

Van de beoogde sprekers ontbreekt er op dit moment nog eentje. Dat betekent dat we in elk geval al één van onze keynote sprekers bij jullie kunnen introduceren. Dat is professor Antal van de Bosch. Ooit, bij de eerste VOGIN-IP-lezing in 2013, heeft hij ook al eens een lezing verzorgd. Intussen zijn we acht jaar verder en is hij nu directeur van het Meertensinstituut van de KNAW en sinds kort hoogleraar bij de UVA. Daar doet hij uiteraard al weer andere dingen dan in 2013, zodat we zeer benieuwd zijn wat hij nu te vertellen heeft.
Zijn lezing zal gaan over een onderwerp dat we in de afgelaste 2020 editie ook al gepland hadden. Dat betreft taalmodellen waarmee bijvoorbeeld automatisch teksten gegenereerd kunnen worden, of waarmee voorspeld kan worden wat er op een gegeven tekst kan volgen. Dergelijke taalmodellen zijn gebaseerd op kunstmatige intelligentie en machine learning, waarbij de software gevoed wordt met onvoorstelbaar omvangrijke tekstcorpora. Ook grote zoekmachines maken steeds meer gebruik van dit soort technieken, bijvoorbeeld om te voorspellen wat gebruikers (zeer waarschijnlijk) met hun zoekvragen bedoelen.
De eerste techniek waarvan de vakbladen drie jaar geleden vol stonden, was BERT. Onder meer Google had daarvoor belangrijke toepassingen ontwikkeld. Over de wat raadselachtige omschrijving waarvan BERT het acroniem was – Bidirectional Encoder Representations from Transformers – schreven we in 2019 al eens blogposts (HIER en HIER), voorafgaand aan die 2020 editie.

Intussen is er nog weer een nieuwere variant, GPT-3 (Generative Pre-trained Transformer, version 3) die nog krachtiger is en voor nog weer meer toepassingen gebruikt moet kunnen worden. In een artikel in NRC hierover mocht Antal van den Bosch daar al één en ander over vertellen. We zijn dus heel blij dat hij 21 oktober ons daarover komt bijpraten op een manier die ook begrijpelijk is voor toehoorders die geen informaticus of taaltechnoloog zijn.

Informatie over de zes gewone lezingen uit ons programma kun je in voorlopige versie ook al op onze website bekijken. Alleen de tweede keynote spreker ontbreekt daar dus nog.

Eerste spreker heeft toegezegd

De eerste spreker voor VOGIN-IP-2021 heeft intussen al weer toegezegd.  Jelle van Haaster is niet een helemaal nieuwe naam, want voor vorig jaar stond hij ook al op ons programma. Dit is wat we toen schreven over hem en over zijn toen geplande lezing:

Jelle van Haaster (‘89) is militair, academicus en softwarespecialist. Tussen 2008 en 2012 rondde hij de militaire opleiding tot officier af, samen met de bachelor Krijgswetenschappen. In 2013 studeerde hij Public International Law en won hij de René Olthuisprijs voor zijn bachelorscriptie over datamining op sociale media. Van 2013 tot 2019 deed hij promotieonderzoek aan de Faculteit Militaire Wetenschappen en de Universiteit van Amsterdam. Naast zijn promotieonderzoek deed hij andere projecten zoals het integreren van digitale capaciteiten in Mali, het bouwen van apps voor Defensie en een levensreddende app voor de VN. In 2018 werd hij uitgeroepen tot Ambtenaar van het Jaar. Op 5 juli 2019 promoveerde hij op een onderzoek naar het nut van militaire cyberoperaties.
21ste eeuw vs. Overheid
De maatschappij verandert snel. Waar een smartphone in 1998 nog gezien werd als “een mobiele telefoon? Wat moet ik daar nu mee?!” zijn we nu 22 jaar verder en is het een integraal deel van ons leven. De exponentiële acceptatie en adaptatie van technologie zoals smartphones en internet verandert een aantal cruciale onderdelen van onze samenleving.
Oorlogvoering is één van die onderdelen. Waarom zou je in de 21e eeuw nog fysiek naar een conflictgebied gaan als je iedereen over de hele wereld kunt bereiken zonder fysiek naar die persoon of groep toe te gaan? In deze presentatie gaat Jelle in op de veranderende maatschappij onder druk van digitale technologieën en de impact daarvan op de rol van de overheid en op de aard van conflicten in de 21e eeuw.

We verwezen toen ook al naar dit en dit artikel over hem die in NRC waren verschenen.

Voor Van Haaster maakt het niet uit of de definitieve datum voor zijn lezing uiteindelijk 30 september of 21 oktober wordt. Maar sowieso hopen we onze definitieve datumkeuze zeer binnenkort bekend te kunnen maken.

VOGIN-IP gaat weer online


We kondigden het al eerder aan, dat na het succes van het online voorjaarsprogramma ook weer aan een najaarsprogramma gewerkt werd. Intussen is dat programma al voor een groot deel gerealiseerd.

Om te beginnen is er, in samenwerking met LexisNexis een workshop waarin je, aan de hand van hun zoekspecialist Marlies Segers, beter leert zoeken in het nieuws dat LexisNexis online aanbiedt. De (Nederlandse) verkiezingen van komend voorjaar worden daarbij als leidende casus gebruikt. Die workshop is al op 22 september, zodat het zaak is je snel aan te melden.

Ook is intussen een tweetal lezingen gepland. Anders dan bij de workshops, is daarbij geen limiet gesteld aan het maximum aantal deelnemers.

Op 25 september komt Laura Hollink van het Centrum voor Wiskunde en Informatica aan het woord. Zij houdt zich bij het CWI onder andere bezig met diverse aspecten van mens-machine interactie. Op basis van inzichten uit de cognitieve psychologie kijkt zij hoe knowledge graphs een rol kunnen spelen bij het verbeteren van de mens-machine interactie. Dit gezichtspunt is bij VOGIN-IP nog niet eerder aan de orde geweest.

Op 8 oktober is het virtuele podium voor Bianca Kramer. Zij zal een overzicht geven van huidige initiatieven op het gebied van twee soorten metadata: open citaties en open abstracts. De open infrastructuur waarvan die deel uitmaken dient transparant, toegankelijk en vrij van commerciële invloed te zijn. In een interactieve discussie zal Bianca een aantal voorbeelden verkennen van hoe deze metadata in de praktijk gebruikt kunnen worden, en welke voorwaarden daarvoor gelden.

En last but not least in deze opsomming – en op de kalender al eerder dan de lezing van Bianca – is er een workshop van Arno Reuser. Daarmee komen we tegemoet aan een in eerdere evaluaties vaak uitgesproken wens. Hij zal op de hem eigen wijze ingaan op de basisprincipes van goed gestructureerd zoeken, waarvoor Booleaanse methoden nog altijd de grondslag vormen. Wel basisprincipes, maar zeker geen basale workshop. Op 30 september is Arno daarmee aan de beurt.

Kijk vooral ook nog op de programmapagina. Daar vind je nog wat meer inhoudelijke details en kun je je voor elk van deze sessies aanmelden. De LexisNexis workshop zal via hun eigen webinar-tool gegeven worden. Voor de overige sessies wordt Zoom gebruikt.
Houd onze programmapagina ook verder regelmatig in de gaten, om te zien welke interessante aanvullingen er wellicht nog komen. Er zit nog wat in de pijplijn.

Na @trbrtc voorlopig nog één laatste lezing


Afgelopen dinsdag was de druk bezochte lezing van Christiaan Triebert. Met bijna 90 simultane deelnemers liep het technisch gezien gelukkig nog steeds tamelijkk soepel. Niet alleen wijzelf vonden het weer een spannend verhaal, maar ook een heleboel deelnemers lieten (ongevraagd) via de Zoom-chat hun enthousiasme blijken.

14:59:20   From Janneke : Zeer interessant! Dank. Ik haak helaas af vanwege een verplichting door de werkgever. Klasse, echt.
15:01:44   From Saxion Bibliotheek : dank voor deze interessante lezing
15:02:36   From Donk : Een diepe buiging voor je werk…
15:02:38   From ingrid : Machtig interessant!!! Top!!
15:02:45   From Martijn : fascinerend ga vooral door ;-)!!
15:02:57   From e.m.middelhuis@saxion.nl : Bedankt, zeer interessant
15:04:13   From jan : Prachtig werk ! Thanks
15:13:51   From Donk : Wauw. Knappe analyse weer.
15:16:20   From Sigrid : Super interessant, veel dank Christiaan!
15:16:46   From Jesper : Waanzinnig interessant Christiaan, veel dank
15:16:49   From Thomas : Bedankt!
15:16:52   From Marianne : Veel dank!!
15:16:52   From Michel : veel dank aan Christtiaan
15:16:53   From Marieke : dank je voor het interessante (informatiemanagement) verhaal
15:16:55   From Mark : tnx
15:16:55   From Arnoud : DANK!!!
15:16:57   From hilde : Dank je wel!
15:16:58   From Ali : Goed en interessant verhaal, dank je wel
15:16:59   From IViR : dank
15:17:06   From Anneke : Jammer dat het afgelopen is. Bedankt!
15:17:08   From marije : Ontzettend bedankt. Heel interessant.
15:17:08   From Willg : Dank!
15:17:08   From Ageeth : Bedankt
15:17:16   From Jurn : dank

Een klein schoonheidsfoutje van onze kant was nog dat de live stream via YouTube door een omissie onzerzijds veel te laat gestart werd. Maar daar hebben de mensen die via Zoom deelnamen, niets van gemerkt …..
Nog een andere opmerking daarover: door regels van de New York Times is deze registratie (voorlopig?) niet vrij beschikbaar.

Met deze lezing achter de rug, willen we nu graag nog wat extra animo opwekken voor de voorlopig laatste lezing in ons programma voor de zomer. Voor de lezing van Andreas Blumauer, over twee weken, op 11 juni a.s. zijn voorlopig nog voldoende plaatsen beschikbaar. Vergeet niet je aan te melden voor dit op heel ander niveau ook weer razend interessant verhaal. In zijn lezing “Deep Text Analytics based on Knowledge Graphs” brengt Andreas Blumauer twee populaire ontwikkelingen samen: het via AI automatisch categoriseren van teksten en de toepassing van Knowledge Graphs daarbij.

Pulitzer-prijs voor Christiaan’s New York Times team


Gisteren was een bijzondere dag voor het Visual Investigations Team van Christiaan Triebert. Samen met nog een paar andere groepen bij de New York Times, kregen zij de prestigieuze Pulitzer-prijs toegekend. De prijs in de categorie waarin zij bekroond werden, wordt jaarlijks toegekend aan Amerikaanse nieuwsorganisaties – to honor the best of American journalism, adhering to the highest journalistic principles. In hun geval was dat voor hun onderzoeken naar en hun verhalen over Russische “shadow warfare” in het Midden-Oosten en Afrika. [Zie ook dit Volkskrant-artikel over de bekroning].
visual investigationsHet onderwerp waarover Christiaan’s keynote op 19 maart zou gaan, vormt hier een belangrijk onderdeel van. Dat is het opmerkelijke relaas van de analyse van cockpit-gesprekken van de piloten van Russische bommenwerpers. Door tijdsynchronisatie tussen de opgedoken geluidsopnamen van die gesprekken en de door omstanders ter plekke gemaakte video-opnamen van bombardementen van Syrische ziekenhuizen, konden de door de piloten uitgesproken codewoorden gecorreleerd worden met individuele bombardementen. Eerdere schreven we daar al een blogpost over.

Gelukkig komt er intussen een herkansing om dit verhaal alsnog rechtstreeks uit Christiaan’s mond te horen. Op 26 mei verzorgt hij voor ons namelijk een online sessie met zijn keynote lezing. Zie daarvoor ons programma met alle online sessies die voor de komende tijd gepland zijn, inclusief aanmeldmogelijkheden.

Informatie-oorlog


In de informatie die we over de lezing van Jelle van Haaster op onze site hebben staan, zat al een link naar een interview met hem dat in NRC heeft gestaan. Wat we gemist hadden, was dat hij afgelopen najaar nog in een ander artikel in NRC optrad. In de hier gelinkte webversie van 30 oktober overigens met een andere kop dan in de print/PDF-versie van 31 oktober die je hierboven ziet.
In dat stuk gaat Jelle van Haaster, zelf ook hobbygamer, nader in op de rol die games spelen in het bereiken, beïnvloeden en uiteindelijk werven van jeugdige strijders. Achter die games gaat volgens hem „een hele belevingswereld schuil, vol fora waar teksten en filmpjes worden gepost.”  Verder uit het artikel citerend:

Met zijn “moderne beeldtaal” drong IS heimelijk binnen in de psyche van beïnvloedbare jongeren, die ook via een app zagen hoe IS “voor de poorten van Bagdad” stond. Uiteindelijk zouden honderden jongeren – al dan niet beïnvloed door de oorlogsgame – in Syrië gaan vechten op een echt slagveld, tegen (bondgenoten van) Nederland. “Ik denk dat we dit fenomeen hebben onderschat.”

Meer daarover horen, rechtstreeks uit de mond van Van Haaster? Op donderdag 19 maart is hij één van de sprekers in de OBA.

Factchecking bij #voginip

Dit filmpje met interviews en uitspraken rond het thema factchecking en fake-nieuws (4:36 minuten met o.a. Christiaan Triebert en Alexander Pleijter) werd opgenomen tijdens de VOGIN-IP-lezing 2018. Het geeft nog altijd een goede impressie van de zaken waarmee zowel Alexander als Christiaan zich ook nu nog bezig houden. Bovendien geven zij beiden komend jaar ook weer acte de présence op de VOGIN-IP-lezing. Christiaan verzorgt een keynote, nu met voorbeelden uit de praktijk bij zijn huidige werkgever, de New York Times (zie bijv. deze video en deze web-publicatie). Alexander verzorgt, vanwege eerder succes, opnieuw een workshop “Zo word je factchecker”.

PS: … en wie wil terugzien hoe bij Bellingcat nieuws en feiten ontdekt worden, moet nog maar eens de VPRO documentaire “Bellingcat – Truth in a post-truth world” terugkijken, die vorige week in New York een Emmy Award won. In die film zie je Christiaan ook een aantal keren langskomen.

PS2: Er zijn trouwens nog meer filmpjes van #voginip-2018, die first-time-visitors alvast een goede indruk geven hoe het eraan toe pleegt te gaan bij de VOGIN-IP-lezing.

Dawn Anderson’s keynote:     BERT, NLP, IR & SEO

Ook de tweede #voginip keynote is vastgelegd. Dawn Anderson is in onze kringen misschien wat minder bekend, maar bij SEO-congressen is zij een veelgevraagd spreker, omdat zij de link weet te leggen tussen SEO en moderne information retrieval technieken. En daarmee dus ook tussen SEO en ons vakgebied. De titel van de presentatie die ze 26 november bij Search Solutions 2019 in Londen gaf, illustreert dat al aardig.

In dat kader heeft ze zich de laatste tijd ook verdiept in BERT, de nieuwe deep learning techniek voor betere natuurlijke taalverwerking – de niet-neurolinguistische NLP …..
In een eerdere post schreven we al al dat BERT zowel door Google als door Bing wordt toegepast. De omschrijving waar het acroniem BERT van afkomstig is, Bidirectional Encoder Representations from Transformers, blijft voor niet-informatici natuurlijk nogal mysterieus. Maar ook zonder daarvan de betekenis te begrijpen, is het zinvol om te weten dat de toepassing van BERT leidt tot een opmerkelijke verbetering van de relevantie van zoekresultaten. Vooral voor Bing wordt zo’n verbetering vaak gemeld. BERT maakt namelijk dat zoekmachines veel beter de betekenis van tekst “begrijpen”, zowel in zoekvragen als in gevonden webresultaten.

Wellicht dat Dawn zich wat extra tot deze nieuwe techniek aangetrokken voelt, omdat haar eigen bedrijf BERTey heet. En of dat bedrijf dan weer naar haar hond vernoemd is of omgekeerd, laten we hier maar even in het midden …..

Hoe dan ook, behalve bovenstaande presentatie bij PubCon, heeft Dawn begin november voor SearchEngineLand ook een lange bijdrage – voor niet-informatici – over BERT en NLP geschreven: A deep dive into BERT: How BERT launched a rocket into natural language understanding. Die vooraf dus maar even lezen.