VOGIN-IP gaat weer online


We kondigden het al eerder aan, dat na het succes van het online voorjaarsprogramma ook weer aan een najaarsprogramma gewerkt werd. Intussen is dat programma al voor een groot deel gerealiseerd.

Om te beginnen is er, in samenwerking met LexisNexis een workshop waarin je, aan de hand van hun zoekspecialist Marlies Segers, beter leert zoeken in het nieuws dat LexisNexis online aanbiedt. De (Nederlandse) verkiezingen van komend voorjaar worden daarbij als leidende casus gebruikt. Die workshop is al op 22 september, zodat het zaak is je snel aan te melden.

Ook is intussen een tweetal lezingen gepland. Anders dan bij de workshops, is daarbij geen limiet gesteld aan het maximum aantal deelnemers.

Op 25 september komt Laura Hollink van het Centrum voor Wiskunde en Informatica aan het woord. Zij houdt zich bij het CWI onder andere bezig met diverse aspecten van mens-machine interactie. Op basis van inzichten uit de cognitieve psychologie kijkt zij hoe knowledge graphs een rol kunnen spelen bij het verbeteren van de mens-machine interactie. Dit gezichtspunt is bij VOGIN-IP nog niet eerder aan de orde geweest.

Op 8 oktober is het virtuele podium voor Bianca Kramer. Zij zal een overzicht geven van huidige initiatieven op het gebied van twee soorten metadata: open citaties en open abstracts. De open infrastructuur waarvan die deel uitmaken dient transparant, toegankelijk en vrij van commerciële invloed te zijn. In een interactieve discussie zal Bianca een aantal voorbeelden verkennen van hoe deze metadata in de praktijk gebruikt kunnen worden, en welke voorwaarden daarvoor gelden.

En last but not least in deze opsomming – en op de kalender al eerder dan de lezing van Bianca – is er een workshop van Arno Reuser. Daarmee komen we tegemoet aan een in eerdere evaluaties vaak uitgesproken wens. Hij zal op de hem eigen wijze ingaan op de basisprincipes van goed gestructureerd zoeken, waarvoor Booleaanse methoden nog altijd de grondslag vormen. Wel basisprincipes, maar zeker geen basale workshop. Op 30 september is Arno daarmee aan de beurt.

Kijk vooral ook nog op de programmapagina. Daar vind je nog wat meer inhoudelijke details en kun je je voor elk van deze sessies aanmelden. De LexisNexis workshop zal via hun eigen webinar-tool gegeven worden. Voor de overige sessies wordt Zoom gebruikt.
Houd onze programmapagina ook verder regelmatig in de gaten, om te zien welke interessante aanvullingen er wellicht nog komen. Er zit nog wat in de pijplijn.

Na @trbrtc voorlopig nog één laatste lezing


Afgelopen dinsdag was de druk bezochte lezing van Christiaan Triebert. Met bijna 90 simultane deelnemers liep het technisch gezien gelukkig nog steeds tamelijkk soepel. Niet alleen wijzelf vonden het weer een spannend verhaal, maar ook een heleboel deelnemers lieten (ongevraagd) via de Zoom-chat hun enthousiasme blijken.

14:59:20   From Janneke : Zeer interessant! Dank. Ik haak helaas af vanwege een verplichting door de werkgever. Klasse, echt.
15:01:44   From Saxion Bibliotheek : dank voor deze interessante lezing
15:02:36   From Donk : Een diepe buiging voor je werk…
15:02:38   From ingrid : Machtig interessant!!! Top!!
15:02:45   From Martijn : fascinerend ga vooral door ;-)!!
15:02:57   From e.m.middelhuis@saxion.nl : Bedankt, zeer interessant
15:04:13   From jan : Prachtig werk ! Thanks
15:13:51   From Donk : Wauw. Knappe analyse weer.
15:16:20   From Sigrid : Super interessant, veel dank Christiaan!
15:16:46   From Jesper : Waanzinnig interessant Christiaan, veel dank
15:16:49   From Thomas : Bedankt!
15:16:52   From Marianne : Veel dank!!
15:16:52   From Michel : veel dank aan Christtiaan
15:16:53   From Marieke : dank je voor het interessante (informatiemanagement) verhaal
15:16:55   From Mark : tnx
15:16:55   From Arnoud : DANK!!!
15:16:57   From hilde : Dank je wel!
15:16:58   From Ali : Goed en interessant verhaal, dank je wel
15:16:59   From IViR : dank
15:17:06   From Anneke : Jammer dat het afgelopen is. Bedankt!
15:17:08   From marije : Ontzettend bedankt. Heel interessant.
15:17:08   From Willg : Dank!
15:17:08   From Ageeth : Bedankt
15:17:16   From Jurn : dank

Een klein schoonheidsfoutje van onze kant was nog dat de live stream via YouTube door een omissie onzerzijds veel te laat gestart werd. Maar daar hebben de mensen die via Zoom deelnamen, niets van gemerkt …..
Nog een andere opmerking daarover: door regels van de New York Times is deze registratie (voorlopig?) niet vrij beschikbaar.

Met deze lezing achter de rug, willen we nu graag nog wat extra animo opwekken voor de voorlopig laatste lezing in ons programma voor de zomer. Voor de lezing van Andreas Blumauer, over twee weken, op 11 juni a.s. zijn voorlopig nog voldoende plaatsen beschikbaar. Vergeet niet je aan te melden voor dit op heel ander niveau ook weer razend interessant verhaal. In zijn lezing “Deep Text Analytics based on Knowledge Graphs” brengt Andreas Blumauer twee populaire ontwikkelingen samen: het via AI automatisch categoriseren van teksten en de toepassing van Knowledge Graphs daarbij.

Pulitzer-prijs voor Christiaan’s New York Times team


Gisteren was een bijzondere dag voor het Visual Investigations Team van Christiaan Triebert. Samen met nog een paar andere groepen bij de New York Times, kregen zij de prestigieuze Pulitzer-prijs toegekend. De prijs in de categorie waarin zij bekroond werden, wordt jaarlijks toegekend aan Amerikaanse nieuwsorganisaties – to honor the best of American journalism, adhering to the highest journalistic principles. In hun geval was dat voor hun onderzoeken naar en hun verhalen over Russische “shadow warfare” in het Midden-Oosten en Afrika. [Zie ook dit Volkskrant-artikel over de bekroning].
visual investigationsHet onderwerp waarover Christiaan’s keynote op 19 maart zou gaan, vormt hier een belangrijk onderdeel van. Dat is het opmerkelijke relaas van de analyse van cockpit-gesprekken van de piloten van Russische bommenwerpers. Door tijdsynchronisatie tussen de opgedoken geluidsopnamen van die gesprekken en de door omstanders ter plekke gemaakte video-opnamen van bombardementen van Syrische ziekenhuizen, konden de door de piloten uitgesproken codewoorden gecorreleerd worden met individuele bombardementen. Eerdere schreven we daar al een blogpost over.

Gelukkig komt er intussen een herkansing om dit verhaal alsnog rechtstreeks uit Christiaan’s mond te horen. Op 26 mei verzorgt hij voor ons namelijk een online sessie met zijn keynote lezing. Zie daarvoor ons programma met alle online sessies die voor de komende tijd gepland zijn, inclusief aanmeldmogelijkheden.

Informatie-oorlog


In de informatie die we over de lezing van Jelle van Haaster op onze site hebben staan, zat al een link naar een interview met hem dat in NRC heeft gestaan. Wat we gemist hadden, was dat hij afgelopen najaar nog in een ander artikel in NRC optrad. In de hier gelinkte webversie van 30 oktober overigens met een andere kop dan in de print/PDF-versie van 31 oktober die je hierboven ziet.
In dat stuk gaat Jelle van Haaster, zelf ook hobbygamer, nader in op de rol die games spelen in het bereiken, beïnvloeden en uiteindelijk werven van jeugdige strijders. Achter die games gaat volgens hem „een hele belevingswereld schuil, vol fora waar teksten en filmpjes worden gepost.”  Verder uit het artikel citerend:

Met zijn “moderne beeldtaal” drong IS heimelijk binnen in de psyche van beïnvloedbare jongeren, die ook via een app zagen hoe IS “voor de poorten van Bagdad” stond. Uiteindelijk zouden honderden jongeren – al dan niet beïnvloed door de oorlogsgame – in Syrië gaan vechten op een echt slagveld, tegen (bondgenoten van) Nederland. “Ik denk dat we dit fenomeen hebben onderschat.”

Meer daarover horen, rechtstreeks uit de mond van Van Haaster? Op donderdag 19 maart is hij één van de sprekers in de OBA.

Factchecking bij #voginip

Dit filmpje met interviews en uitspraken rond het thema factchecking en fake-nieuws (4:36 minuten met o.a. Christiaan Triebert en Alexander Pleijter) werd opgenomen tijdens de VOGIN-IP-lezing 2018. Het geeft nog altijd een goede impressie van de zaken waarmee zowel Alexander als Christiaan zich ook nu nog bezig houden. Bovendien geven zij beiden komend jaar ook weer acte de présence op de VOGIN-IP-lezing. Christiaan verzorgt een keynote, nu met voorbeelden uit de praktijk bij zijn huidige werkgever, de New York Times (zie bijv. deze video en deze web-publicatie). Alexander verzorgt, vanwege eerder succes, opnieuw een workshop “Zo word je factchecker”.

PS: … en wie wil terugzien hoe bij Bellingcat nieuws en feiten ontdekt worden, moet nog maar eens de VPRO documentaire “Bellingcat – Truth in a post-truth world” terugkijken, die vorige week in New York een Emmy Award won. In die film zie je Christiaan ook een aantal keren langskomen.

PS2: Er zijn trouwens nog meer filmpjes van #voginip-2018, die first-time-visitors alvast een goede indruk geven hoe het eraan toe pleegt te gaan bij de VOGIN-IP-lezing.

Dawn Anderson’s keynote:     BERT, NLP, IR & SEO

Ook de tweede #voginip keynote is vastgelegd. Dawn Anderson is in onze kringen misschien wat minder bekend, maar bij SEO-congressen is zij een veelgevraagd spreker, omdat zij de link weet te leggen tussen SEO en moderne information retrieval technieken. En daarmee dus ook tussen SEO en ons vakgebied. De titel van de presentatie die ze 26 november bij Search Solutions 2019 in Londen gaf, illustreert dat al aardig.

In dat kader heeft ze zich de laatste tijd ook verdiept in BERT, de nieuwe deep learning techniek voor betere natuurlijke taalverwerking – de niet-neurolinguistische NLP …..
In een eerdere post schreven we al al dat BERT zowel door Google als door Bing wordt toegepast. De omschrijving waar het acroniem BERT van afkomstig is, Bidirectional Encoder Representations from Transformers, blijft voor niet-informatici natuurlijk nogal mysterieus. Maar ook zonder daarvan de betekenis te begrijpen, is het zinvol om te weten dat de toepassing van BERT leidt tot een opmerkelijke verbetering van de relevantie van zoekresultaten. Vooral voor Bing wordt zo’n verbetering vaak gemeld. BERT maakt namelijk dat zoekmachines veel beter de betekenis van tekst “begrijpen”, zowel in zoekvragen als in gevonden webresultaten.

Wellicht dat Dawn zich wat extra tot deze nieuwe techniek aangetrokken voelt, omdat haar eigen bedrijf BERTey heet. En of dat bedrijf dan weer naar haar hond vernoemd is of omgekeerd, laten we hier maar even in het midden …..

Hoe dan ook, behalve bovenstaande presentatie bij PubCon, heeft Dawn begin november voor SearchEngineLand ook een lange bijdrage – voor niet-informatici – over BERT en NLP geschreven: A deep dive into BERT: How BERT launched a rocket into natural language understanding. Die vooraf dus maar even lezen.

Emmy en Christiaan

Dat de vorig jaar door VPRO uitgezonden documentaire over Bellingcat begin deze week in New York een Emmy Award ontving is intussen wel bekend. Dat net op dat moment Christiaan Triebert ook in Nederland was, was natuurlijk gelukkig toeval en voor Mathijs van Nieuwkerk een uitgelezen kans hem weer naar DWDD te halen.

Klik op image om video te starten

Klik op het image om DWDD-video fragment van gesprek met Christiaan te starten

Misschien ook wel jammer dat we nu gisteren al op TV gehoord en gezien hebben wat Christiaan ons 19 maart in zijn keynote bij #voginip gaat vertellen? Nee natuurlijk niet. Juist een prachtige promotie en stimulans om dan nog eens direct uit Christiaan’s mond, veel uitgebreider en live te kunnen horen hoe dit soort informatieanalyses in hun werk gaan, ook voor andere en op dat moment actuele gebeurtenissen. Want de bewijsvoering dat Syrische ziekenhuizen eerder dit jaar door systematische Russische bombardementen getroffen waren, was weer een fantastisch voorbeeld van het slim analyseren en combineren van gegevensbronnen. En dit keer dan niet door Bellingcat, maar door het New York Times Visual Investigation Team waar Christiaan tegenwoordig deel van uitmaakt.

nyt
Het verhaal over hun onderzoek kwam niet alleen in de gedrukte en web-versie van de New York Times terecht, maar ze hebben daar ook een video van gemaakt die je hieronder kunt bekijken.

En om de belangstelling nog meer te prikkelen, volgt hieronder ook een reeks tweets die Christiaan hier half november aan gewijd had.
Nog meer stimulans om Christiaan 19 maart niet te willen missen, zou je toch niet nodig moeten hebben.

1 september j.l. bij Buitenhof; maart 2020 bij VOGIN-IP


Het verheugt ons bijzonder al een eerste spreker voor de VOGIN-IP-lezing te kunnen aankondigen. Christiaan Triebert is een oude bekende. Het is al weer even geleden dat hij ons in een lezing en het jaar daarop in een workshop wegwijs heeft gemaakt in de analysetechnieken die hij voor Bellingcat toepaste om uit open bronnen allerlei gegevens af te leiden en die tot betekenisvolle informatie te combineren. Maar intussen is hij al weer enige tijd werkzaam bij de New York Times, waar hij deel uitmaakt van het visual investigation team. Hij kan ons nu dus vanuit een heel andere omgeving bijpraten over de rol van data uit hetzelfde soort open bronnen als Bellingcat gebruikt, bij de nieuwsgaring van dit mondiaal toonaangevende mediabedrijf. Daarbij zal ook aan de orde komen hoe ze die gegevens verwerken en de resultaten presenteren.
Wij blijken trouwens niet de enigen die hier graag over willen horen, want zondag 1 september j.l. was hij ook al te gast in het programma Buitenhof om hierover te vertellen. [HIER] kun je die hele uitzending nog terugkijken. Een kort fragment eruit zit in de tweet hieronder.

Het was niet toevallig dat Christiaan in Nederland was, want de volgende dag, bij de opening van het academisch jaar, mocht hij in Groningen als alumnus van het jaar de verzamelde hoogleraren en andere belangstellenden toespreken. Alle reden dus om in maart bij de VOGIN-IP-lezing Christiaan live te komen beluisteren.

Daan Odijk werkt graag met rijke content

Wordt gepubliceerd in IP 2019 nr. 2 [image]

Daan Odijk is lead data scientist bij RTL en promoveerde op een onderzoek naar algoritmes die zoeken naar nieuws. Tijdens de VOGIN-IP-lezing op 21 maart zal hij meer vertellen over de datatoepassingen die hij met zijn afdeling ontwikkelt.

Destijds bij Blendle werkte je aan gepersonaliseerde nieuwsbrieven, nu bij RTL lijkt dat weer het geval. Ben je gewoon doorgegaan met hetzelfde of is er toch wel verschil?
‘Mijn rol bij RTL is heel breed. Ik leid een team van data scientists en engineers die werken aan data-gedreven producten voor heel RTL. Een deel daarvan is personalisatie, maar er is heel veel meer, zoals bijvoorbeeld het voorspellen van kijkcijfers op tv en online of een diep directe interactie met consumenten, dat was waar ik bij Blendle plezier aan beleefde en nu bij RTL op een nog grotere schaal weer.‘

Personalisatie op basis van klikgedrag kan maken dat de lezer in een filterbubbel terecht komt. Hoe probeer je dat te voorkomen?
‘Het risico dat mensen alleen maar nieuws te lezen krijgen dat bij hun eigen wereldbeeld past heb je niet alleen bij personalisatie. Ook de keuze voor een krant (denk aan de verzuiling) en het promoten van populaire artikelen beperken de nieuwsconsumptie.‘
‘Ik vind het daarom belangrijk om nieuwspersonalisatie in nauwe samenwerking met de redactie te doen. Het aanbevelen van nieuws brengt een verantwoordelijkheid mee om bewust met deze risico’s om te gaan. Met de Universiteit van Amsterdam werken we daarom aan een onderzoeksproject (zie tinyurl.com/y4dtbsqz) om diversiteit in nieuwsaanbeveling beter meetbaar te maken.‘
‘Uiteindelijk maakt algoritmische personalisatie het juist mogelijk hier bewustere keuzes in te maken. In het wetenschappelijk onderzoek zien we dat personalisatie een positief effect kan hebben op de diversiteit aan aanbevelingen, vergeleken met bijvoorbeeld populair nieuws. Zo zagen we bij Blendle dat algoritmes om diversiteit in aanbevelingen te stimuleren zelfs op de lange termijn positief effect hadden op leesgedrag.‘

Heb je in je dagelijks werk nog voldoende gelegenheid om de snelle ontwikkelingen op jouw terrein te volgen en die ook in de praktijk toe te passen?
‘Jazeker. We zijn open over wat we doen en mijn vakgenoten bij andere mediabedrijven gelukkig ook. Daardoor leren we van elkaar en werken we samen met De Persgroep en het FD aan bijvoorbeeld open source tools voor het analyseren van tekst (github.com/rtl-nl/textpipe).’
‘Zelf kom ik maar beperkt toe aan het toepassen van nieuwe ontwikkelingen. Maar ik geef het team graag ruimte om nieuwe ontwikkelingen zelf uit te proberen. Daarnaast werken we veel samen met de universiteit en er lopen altijd wel studenten stage die frisse ideeën en technieken meebrengen.‘

RTL heeft destijds een aardige bijdrage ontvangen uit Google’s “Digital News Innovation Fund”. Heb jij daar ook van kunnen profiteren?
‘Ik was de aanvrager. Het idee is dat we, samen met de datajournalisten van RTL Nieuws, lokale nieuwsberichten gaan generen op basis van data. Waar een datajournalist nu een artikel schrijft met landelijk trends en eventueel een kaartje opneemt met lokale cijfers, willen we dat in dit project omdraaien. We genereren dan bijvoorbeeld een artikel over de veiligheid rondom de school bij jou om de hoek, dat leest alsof het handgeschreven is, maar eigenlijk een samenwerking is tussen journalist en algoritme.‘

Wat wordt de belangrijkste takeaway van je verhaal op de VOGIN-IP-lezing?
‘Ik wil laten zien waarom RTL, als mediabedrijf in transitie, een prachtige plek is om data science te bedrijven.‘