Happy 2020


Het VOGIN-IP-team wenst alle bezoekers van de VOGIN-IP-lezing (en … vooruit … ook alle andere lezers van dit bericht) vredige kerstdagen en een interessant, uitdagend en inspirerend 2020.
En tot de goede voornemens voor 2020 hoort natuurlijk ook een bezoek aan Amsterdam op 19 maart.
Laten we daar vast op toosten.

Joyce, Monique, Marjo, Peter, Arno, Peter, Eric

Februari

IP gasthoofdredacteur Maxim Februari ontvangt de P.C. Hooft-prijs.


Op de omslag van het decembernummer van ons vakblad IP en in het digitale IP-nieuws stond trots vermeld dat essayist / NRC-columnist / jurist / filosoof / …   Maxim Februari als gasthoofdredacteur voor dat nummer was opgetreden. Nog maar luttele dagen later explodeerde die trots zelfs, toen NRC en alle andere media meldden dat aan Maxim Februari de P.C. Hooft-prijs voor beschouwend proza was toegekend. Een wel heel gelukkige samenloop van gebeurtenissen.
Er was voor onze partner IP dus alle reden om welgemeende gelukwensen naar de laureaat te doen uitgaan. Als VOGIN-IP-team sluiten we ons daar van harte bij aan.
Wie geïnteresseerd is (en nog geen abonnee), kan hier een proefnummer van dit onvolprezen vakblad aanvragen.

Inschrijvingsloket weer open

De definitieve aanmeldingen voor de VOGIN-IP-lezing kunnen nu echt van start gaan.

Een tipje van de sluier was al opgelicht in een aankondiging in IP. En ook over de workshops hadden we al wat onthuld. Maar nu is het programma echt helemaal klaar. Alle sprekers en alle workshopdocenten hebben hun deelname definitief bevestigd.
Je kunt nu dus beredeneerde keuzes uit het programma maken, zodat je die bij aanmelding kunt opgeven.

NB: Wie gebruik gemaakt heeft van de voorinschrijving ontvangt zeer binnenkort een link naar een speciaal formulier om programmakeuzes door te geven. Zij moeten dus geen gebruik maken van het reguliere aanmeldingsformulier.

Workshops: wie is wie


Even een puzzeltje wie wie is? Dit zijn 12 docenten die op 19 maart 10 workshops verzorgen.
Wellicht wil je daar al meer over weten, om goed voorbereid te zijn op de keuzes die je binnenkort moet maken als de officiële inschrijving voor #voginip begint. HIER kun je al een sneak preview krijgen van alle op dit moment bekende workshops.
Of wordt het straks toch gewoon de dobbelsteen?

Factchecking bij #voginip

Dit filmpje met interviews en uitspraken rond het thema factchecking en fake-nieuws (4:36 minuten met o.a. Christiaan Triebert en Alexander Pleijter) werd opgenomen tijdens de VOGIN-IP-lezing 2018. Het geeft nog altijd een goede impressie van de zaken waarmee zowel Alexander als Christiaan zich ook nu nog bezig houden. Bovendien geven zij beiden komend jaar ook weer acte de présence op de VOGIN-IP-lezing. Christiaan verzorgt een keynote, nu met voorbeelden uit de praktijk bij zijn huidige werkgever, de New York Times (zie bijv. deze video en deze web-publicatie). Alexander verzorgt, vanwege eerder succes, opnieuw een workshop “Zo word je factchecker”.

PS: … en wie wil terugzien hoe bij Bellingcat nieuws en feiten ontdekt worden, moet nog maar eens de VPRO documentaire “Bellingcat – Truth in a post-truth world” terugkijken, die vorige week in New York een Emmy Award won. In die film zie je Christiaan ook een aantal keren langskomen.

PS2: Er zijn trouwens nog meer filmpjes van #voginip-2018, die first-time-visitors alvast een goede indruk geven hoe het eraan toe pleegt te gaan bij de VOGIN-IP-lezing.

Dawn Anderson’s keynote:     BERT, NLP, IR & SEO

Ook de tweede #voginip keynote is vastgelegd. Dawn Anderson is in onze kringen misschien wat minder bekend, maar bij SEO-congressen is zij een veelgevraagd spreker, omdat zij de link weet te leggen tussen SEO en moderne information retrieval technieken. En daarmee dus ook tussen SEO en ons vakgebied. De titel van de presentatie die ze 26 november bij Search Solutions 2019 in Londen gaf, illustreert dat al aardig.

In dat kader heeft ze zich de laatste tijd ook verdiept in BERT, de nieuwe deep learning techniek voor betere natuurlijke taalverwerking – de niet-neurolinguistische NLP …..
In een eerdere post schreven we al al dat BERT zowel door Google als door Bing wordt toegepast. De omschrijving waar het acroniem BERT van afkomstig is, Bidirectional Encoder Representations from Transformers, blijft voor niet-informatici natuurlijk nogal mysterieus. Maar ook zonder daarvan de betekenis te begrijpen, is het zinvol om te weten dat de toepassing van BERT leidt tot een opmerkelijke verbetering van de relevantie van zoekresultaten. Vooral voor Bing wordt zo’n verbetering vaak gemeld. BERT maakt namelijk dat zoekmachines veel beter de betekenis van tekst “begrijpen”, zowel in zoekvragen als in gevonden webresultaten.

Wellicht dat Dawn zich wat extra tot deze nieuwe techniek aangetrokken voelt, omdat haar eigen bedrijf BERTey heet. En of dat bedrijf dan weer naar haar hond vernoemd is of omgekeerd, laten we hier maar even in het midden …..

Hoe dan ook, behalve bovenstaande presentatie bij PubCon, heeft Dawn begin november voor SearchEngineLand ook een lange bijdrage – voor niet-informatici – over BERT en NLP geschreven: A deep dive into BERT: How BERT launched a rocket into natural language understanding. Die vooraf dus maar even lezen.

Emmy en Christiaan

Dat de vorig jaar door VPRO uitgezonden documentaire over Bellingcat begin deze week in New York een Emmy Award ontving is intussen wel bekend. Dat net op dat moment Christiaan Triebert ook in Nederland was, was natuurlijk gelukkig toeval en voor Mathijs van Nieuwkerk een uitgelezen kans hem weer naar DWDD te halen.

Klik op image om video te starten

Klik op het image om DWDD-video fragment van gesprek met Christiaan te starten

Misschien ook wel jammer dat we nu gisteren al op TV gehoord en gezien hebben wat Christiaan ons 19 maart in zijn keynote bij #voginip gaat vertellen? Nee natuurlijk niet. Juist een prachtige promotie en stimulans om dan nog eens direct uit Christiaan’s mond, veel uitgebreider en live te kunnen horen hoe dit soort informatieanalyses in hun werk gaan, ook voor andere en op dat moment actuele gebeurtenissen. Want de bewijsvoering dat Syrische ziekenhuizen eerder dit jaar door systematische Russische bombardementen getroffen waren, was weer een fantastisch voorbeeld van het slim analyseren en combineren van gegevensbronnen. En dit keer dan niet door Bellingcat, maar door het New York Times Visual Investigation Team waar Christiaan tegenwoordig deel van uitmaakt.

nyt
Het verhaal over hun onderzoek kwam niet alleen in de gedrukte en web-versie van de New York Times terecht, maar ze hebben daar ook een video van gemaakt die je hieronder kunt bekijken.

En om de belangstelling nog meer te prikkelen, volgt hieronder ook een reeks tweets die Christiaan hier half november aan gewijd had.
Nog meer stimulans om Christiaan 19 maart niet te willen missen, zou je toch niet nodig moeten hebben.

Do not use Google


In een eerdere blogpost citeerden we een blad waarin onze medeorganisator Arno Reuser geciteerd werd, dat we met Google moesten stoppen. Die opmerking van Arno was specifiek gericht op professionele zoekers. En terecht, want er is heel wat professioneel belangrijke informatie die je met Google niet kunt vinden. De meest voor de hand liggende reden daarvoor tekende het blad ook al op uit Arno’s mond: dat een heleboel serieuze informatie domweg “niet in Google zit”. Maar er is nog wel wat meer over te zeggen. Een heleboel dat wel in Google zit, vind je namelijk vaak ook niet meer. Daarbij spelen echter zaken die de gemiddelde journalistieke belangstelling wat te boven gaat. Vandaar dat ik beloofde er hier nog even op terug te komen.

Waar denk ik dan aan? De voornaamste reden is dat Google eigenlijk geen zoekmachine meer is, maar dat het een antwoordmachine is geworden. Dat houdt in dat Google probeert te begrijpen wat je eigenlijk met je zoekvraag bedoelt en daar antwoorden bij probeert te vinden. Daarbij wordt nu bijvoorbeeld BERT -Bidirectional Encoder Representations from Transformers JAWEL …..- natuurlijke taalverwerking technologie toegepast. Dat proberen te begrijpen is natuurlijk een loflijk streven, maar het betekent wel dat Google zoekvragen vaak herschrijft, waarbij met groot gemak zoekwoorden kunnen worden weggelaten of veranderd. En bij de inhoud van gevonden pagina’s wordt dat soort interpretatie ook toegepast. Zoekmachine Bing gebruikt BERT intussen trouwens ook.
Anders dan wat informatieprofessionals van zoeksystemen gewend zijn, hoeven getoonde zoekresultaten dus helemaal niet meer 1-op-1 overeen te komen met een ingetikte zoekvraag. Dat is natuurlijk prachtig voor “gewone” gebruikers, die Google als haar primaire doelgroep ziet. Die gebruikers zijn meestal alleen maar op zoek naar wat informatie over een onderwerp of een product, die nuttig en relevant is in hun eigen context en die daartoe vaak niet zulke correct geformuleerde zoekvragen formuleren. Maar voor professioneel gebruik, waar je vaak “alles” wilt hebben en waar de gebruiker al weet hoe die moet zoeken, is dat natuurlijk een ramp.

Wat dat in de praktijk inhoudt, wordt aardig geïllustreerd in een reeks tweets van @jeroenbosman eerder dit jaar. Die reeks begon met:

Hieronder een wat geredigeerde versie van dit draadje, inclusief enkele interessante reacties daarop.

The @Google web @search is now so limited it’s useless & dangerous for serious tasks. It finds you just ~200 pages with “climate crisis”: https://www.google.com/search?q=%22climate+crisis%22 … Why so few? Why these? What if one wants to check more than a few 100 pages containing a certain combination of words?

Christian Gutknecht‏ @chgutknecht:
hm.. the results of your query looks different to me. May you have another filter still activated?

Try to view more than a few hundred… Google never showed more than 1K results but last year reduced that even further to a very problematic few hundred.
Indeed. So much for Google’s broad and deep index. Of course you can add terms and still get a few hundreds, but sometimes you do not want that. Imagine wanting to find pages mentioning Plan S | cOAlition S and open access. You will get about 25% of what’s out there…

Lena Karvovskaya‏ @LangData:
As a follow-up on Jeroen’s critical twit about relying too much upon Google searches I thought I’d share this article about the intricacies and the limits of search. https://blogs.scientificamerican.com/observations/how-to-be-a-better-web-searcher-secrets-from-google-scientists/

Thanks, useful piece. Actually I do apply those tactics, but there are cases where they cannot be used to solve your problem. Suppose you wish to find all pages/post that mention “Plan S” or “cOAlition S”. There are at least 1200 pages known to Google that contain these terms, twice even. But you can not find them in a single search. You could trace them by consecutively guessing additional words that might appear in the pages, but that will inevitably create bias and still incomplete coverage. Only current solution is the date filter.

Lena Karvovskaya‏ @LangData:
Oh I see, you want ALL the pages. That’s not what google is made to do. There are ways to get around the limits: https://developers.google.com/webmaster-tools/search-console-api-original/v3/how-tos/all-your-data people who program can probably get even more results out of it

Relatie met de VOGIN-IP-lezing? In elk geval zal Jeroen Bosman op 19 maart weer een workshop verzorgen – al zal die dan niet over Google gaan. En we proberen nog te regelen dat één van de lezingen op BERT zal ingaan.

Eric Sieverts