Machiavelliprijs voor Bellingcat

De Machiavelliprijs 2019 is toegekend aan onderzoekscollectief Bellingcat. Deze Nederlandse prijs wordt jaarlijks uitgereikt voor “een opmerkelijke prestatie op het gebied van publieke communicatie”.
Volgens het juryrapport krijgt Bellingcat de prijs vanwege

“zijn vernieuwende wijze van onderzoeksjournalistiek die keer op keer zorgt voor baanbrekende onthullingen”.

Het rapport verklaart verder:

“Bellingcat heeft diepgravende onderzoeksjournalistiek een stevige kwaliteitsimpuls gegeven in een tijdperk waarin we steeds meer ‘fake news’ zien. Deze innovatie is een schoolvoorbeeld voor zowel traditionele media als voor journalisten in opleiding. Waar traditionele media vaak huiverig zijn om hun kennis en aanpak te delen, moedigt Bellingcat dit juist aan. Dat Bellingcat zijn kennis verspreidt, verdient alle lof.”

Deze prijs straalt natuurlijk vooral af op Bellingcat-oprichter Eliot Higgins, vorig jaar nog keynote spreker bij de VOGIN-IP-lezing. Eliot zal op 12 februari de prijs in Den Haag in Perscentrum Nieuwspoort in ontvangst nemen.
Hoewel de keynote spreker van dit jaar, Christiaan Triebert intussen niet meer voor Bellingcat werkzaam is, maar voor de New York Times, straalt deze prijs natuurlijk ook nog wel een beetje op hem af.

Dawn Anderson’s keynote:     BERT, NLP, IR & SEO

Ook de tweede #voginip keynote is vastgelegd. Dawn Anderson is in onze kringen misschien wat minder bekend, maar bij SEO-congressen is zij een veelgevraagd spreker, omdat zij de link weet te leggen tussen SEO en moderne information retrieval technieken. En daarmee dus ook tussen SEO en ons vakgebied. De titel van de presentatie die ze 26 november bij Search Solutions 2019 in Londen gaf, illustreert dat al aardig.

In dat kader heeft ze zich de laatste tijd ook verdiept in BERT, de nieuwe deep learning techniek voor betere natuurlijke taalverwerking – de niet-neurolinguistische NLP …..
In een eerdere post schreven we al al dat BERT zowel door Google als door Bing wordt toegepast. De omschrijving waar het acroniem BERT van afkomstig is, Bidirectional Encoder Representations from Transformers, blijft voor niet-informatici natuurlijk nogal mysterieus. Maar ook zonder daarvan de betekenis te begrijpen, is het zinvol om te weten dat de toepassing van BERT leidt tot een opmerkelijke verbetering van de relevantie van zoekresultaten. Vooral voor Bing wordt zo’n verbetering vaak gemeld. BERT maakt namelijk dat zoekmachines veel beter de betekenis van tekst “begrijpen”, zowel in zoekvragen als in gevonden webresultaten.

Wellicht dat Dawn zich wat extra tot deze nieuwe techniek aangetrokken voelt, omdat haar eigen bedrijf BERTey heet. En of dat bedrijf dan weer naar haar hond vernoemd is of omgekeerd, laten we hier maar even in het midden …..

Hoe dan ook, behalve bovenstaande presentatie bij PubCon, heeft Dawn begin november voor SearchEngineLand ook een lange bijdrage – voor niet-informatici – over BERT en NLP geschreven: A deep dive into BERT: How BERT launched a rocket into natural language understanding. Die vooraf dus maar even lezen.

Emmy en Christiaan

Dat de vorig jaar door VPRO uitgezonden documentaire over Bellingcat begin deze week in New York een Emmy Award ontving is intussen wel bekend. Dat net op dat moment Christiaan Triebert ook in Nederland was, was natuurlijk gelukkig toeval en voor Mathijs van Nieuwkerk een uitgelezen kans hem weer naar DWDD te halen.

Klik op image om video te starten

Klik op het image om DWDD-video fragment van gesprek met Christiaan te starten

Misschien ook wel jammer dat we nu gisteren al op TV gehoord en gezien hebben wat Christiaan ons 19 maart in zijn keynote bij #voginip gaat vertellen? Nee natuurlijk niet. Juist een prachtige promotie en stimulans om dan nog eens direct uit Christiaan’s mond, veel uitgebreider en live te kunnen horen hoe dit soort informatieanalyses in hun werk gaan, ook voor andere en op dat moment actuele gebeurtenissen. Want de bewijsvoering dat Syrische ziekenhuizen eerder dit jaar door systematische Russische bombardementen getroffen waren, was weer een fantastisch voorbeeld van het slim analyseren en combineren van gegevensbronnen. En dit keer dan niet door Bellingcat, maar door het New York Times Visual Investigation Team waar Christiaan tegenwoordig deel van uitmaakt.

nyt
Het verhaal over hun onderzoek kwam niet alleen in de gedrukte en web-versie van de New York Times terecht, maar ze hebben daar ook een video van gemaakt die je hieronder kunt bekijken.

En om de belangstelling nog meer te prikkelen, volgt hieronder ook een reeks tweets die Christiaan hier half november aan gewijd had.
Nog meer stimulans om Christiaan 19 maart niet te willen missen, zou je toch niet nodig moeten hebben.

1 september j.l. bij Buitenhof; maart 2020 bij VOGIN-IP


Het verheugt ons bijzonder al een eerste spreker voor de VOGIN-IP-lezing te kunnen aankondigen. Christiaan Triebert is een oude bekende. Het is al weer even geleden dat hij ons in een lezing en het jaar daarop in een workshop wegwijs heeft gemaakt in de analysetechnieken die hij voor Bellingcat toepaste om uit open bronnen allerlei gegevens af te leiden en die tot betekenisvolle informatie te combineren. Maar intussen is hij al weer enige tijd werkzaam bij de New York Times, waar hij deel uitmaakt van het visual investigation team. Hij kan ons nu dus vanuit een heel andere omgeving bijpraten over de rol van data uit hetzelfde soort open bronnen als Bellingcat gebruikt, bij de nieuwsgaring van dit mondiaal toonaangevende mediabedrijf. Daarbij zal ook aan de orde komen hoe ze die gegevens verwerken en de resultaten presenteren.
Wij blijken trouwens niet de enigen die hier graag over willen horen, want zondag 1 september j.l. was hij ook al te gast in het programma Buitenhof om hierover te vertellen. [HIER] kun je die hele uitzending nog terugkijken. Een kort fragment eruit zit in de tweet hieronder.

Het was niet toevallig dat Christiaan in Nederland was, want de volgende dag, bij de opening van het academisch jaar, mocht hij in Groningen als alumnus van het jaar de verzamelde hoogleraren en andere belangstellenden toespreken. Alle reden dus om in maart bij de VOGIN-IP-lezing Christiaan live te komen beluisteren.

De verbazing van Christiaan


Dat Bellingcat-oprichter Eliot Higgins op 21 maart keynote spreker is, dat is intussen wel genoegzaam bekend. Toch komen we nog een keer op Bellingcat terug. Vorige week hebben ze namelijk maar liefst een half miljoen van de Postcodeloterij gekregen, onder meer te besteden aan hun nieuwe Haagse vestiging en aan de daar te ontplooien activiteiten. Het gezicht van Christiaan Triebert bij het in ontvangst nemen van de buitenmodel cheque, was zelf ook al goud waard.
Het in onze ogen flinke bedrag van £1500 dat we twee jaar geleden vanuit de VOGIN-IP-lezing hebben bijgedragen aan Bellingcat’s toenmalige crowdfunding-actie (plus gelijke bedragen uit VOGIN-fonds en GO-fonds), valt natuurlijk geheel in het niet bij deze gift. Maar misschien waren die bijdragen wel al de zaadjes waaruit dit verdere succes gegroeid is.

Daan Odijk werkt graag met rijke content

Wordt gepubliceerd in IP 2019 nr. 2 [image]

Daan Odijk is lead data scientist bij RTL en promoveerde op een onderzoek naar algoritmes die zoeken naar nieuws. Tijdens de VOGIN-IP-lezing op 21 maart zal hij meer vertellen over de datatoepassingen die hij met zijn afdeling ontwikkelt.

Destijds bij Blendle werkte je aan gepersonaliseerde nieuwsbrieven, nu bij RTL lijkt dat weer het geval. Ben je gewoon doorgegaan met hetzelfde of is er toch wel verschil?
‘Mijn rol bij RTL is heel breed. Ik leid een team van data scientists en engineers die werken aan data-gedreven producten voor heel RTL. Een deel daarvan is personalisatie, maar er is heel veel meer, zoals bijvoorbeeld het voorspellen van kijkcijfers op tv en online of een diep directe interactie met consumenten, dat was waar ik bij Blendle plezier aan beleefde en nu bij RTL op een nog grotere schaal weer.‘

Personalisatie op basis van klikgedrag kan maken dat de lezer in een filterbubbel terecht komt. Hoe probeer je dat te voorkomen?
‘Het risico dat mensen alleen maar nieuws te lezen krijgen dat bij hun eigen wereldbeeld past heb je niet alleen bij personalisatie. Ook de keuze voor een krant (denk aan de verzuiling) en het promoten van populaire artikelen beperken de nieuwsconsumptie.‘
‘Ik vind het daarom belangrijk om nieuwspersonalisatie in nauwe samenwerking met de redactie te doen. Het aanbevelen van nieuws brengt een verantwoordelijkheid mee om bewust met deze risico’s om te gaan. Met de Universiteit van Amsterdam werken we daarom aan een onderzoeksproject (zie tinyurl.com/y4dtbsqz) om diversiteit in nieuwsaanbeveling beter meetbaar te maken.‘
‘Uiteindelijk maakt algoritmische personalisatie het juist mogelijk hier bewustere keuzes in te maken. In het wetenschappelijk onderzoek zien we dat personalisatie een positief effect kan hebben op de diversiteit aan aanbevelingen, vergeleken met bijvoorbeeld populair nieuws. Zo zagen we bij Blendle dat algoritmes om diversiteit in aanbevelingen te stimuleren zelfs op de lange termijn positief effect hadden op leesgedrag.‘

Heb je in je dagelijks werk nog voldoende gelegenheid om de snelle ontwikkelingen op jouw terrein te volgen en die ook in de praktijk toe te passen?
‘Jazeker. We zijn open over wat we doen en mijn vakgenoten bij andere mediabedrijven gelukkig ook. Daardoor leren we van elkaar en werken we samen met De Persgroep en het FD aan bijvoorbeeld open source tools voor het analyseren van tekst (github.com/rtl-nl/textpipe).’
‘Zelf kom ik maar beperkt toe aan het toepassen van nieuwe ontwikkelingen. Maar ik geef het team graag ruimte om nieuwe ontwikkelingen zelf uit te proberen. Daarnaast werken we veel samen met de universiteit en er lopen altijd wel studenten stage die frisse ideeën en technieken meebrengen.‘

RTL heeft destijds een aardige bijdrage ontvangen uit Google’s “Digital News Innovation Fund”. Heb jij daar ook van kunnen profiteren?
‘Ik was de aanvrager. Het idee is dat we, samen met de datajournalisten van RTL Nieuws, lokale nieuwsberichten gaan generen op basis van data. Waar een datajournalist nu een artikel schrijft met landelijk trends en eventueel een kaartje opneemt met lokale cijfers, willen we dat in dit project omdraaien. We genereren dan bijvoorbeeld een artikel over de veiligheid rondom de school bij jou om de hoek, dat leest alsof het handgeschreven is, maar eigenlijk een samenwerking is tussen journalist en algoritme.‘

Wat wordt de belangrijkste takeaway van je verhaal op de VOGIN-IP-lezing?
‘Ik wil laten zien waarom RTL, als mediabedrijf in transitie, een prachtige plek is om data science te bedrijven.‘

Bellingcat in Nederland

SKUP 2015
Eliot Higgins
Foto: Marius Nyheim Kristoffersen

Als lezer van deze blog wist je natuurlijk al dat Bellingcat, in de persoon van oprichter Eliot Higgins, op 21 maart in de OBA is om daar een keynote voor de VOGIN-IP-lezing te verzorgen. Dat Bellingcat als organisatie zich bovendien in Nederland vestigt, werd hier ook al eerder gemeld. Toch komen we daar nog even op terug omdat Eliot recent een hele thread van Twitterberichten gewijd heeft aan allerlei nieuwtjes , waaronder meer duidelijkheid over wat ze in Den Haag gaan doen. Hieronder de belangrijkste punten uit die thread van 17 februari:

Hopefully by the end of Spring we’ll have the new Bellingcat office in The Hague open and operational, which will be the centre of two new major projects, focused on Yemen and local training in The Netherlands.

With The Netherlands training project we’ll be running workshops to train locals from a wide variety of backgrounds, both social and professional, to work on projects that have an impact on their own lives, building a Dutch community of open source investigators.

And on Yemen we’ve been working to develop a systematic process of investigation and archiving of open source material focused on the use of our work in courts, both local and international, but with wider applications to different fields, including advocacy and journalism.

My hope is that by the end of 2019 we’ll have a complete process for the investigation & archiving open source material up to a standard that can be used by local & international courts that can be rapidly deployed internally to new conflicts, & shared with other organisations.

While we’re aiming for a standard that can be used in justice and accountability, the evidence and analysis we gather will also be used for other areas, such as journalism and advocacy. It’s all about creating a solid base that grows a variety of projects and outcomes.

We’re also looking at producing a podcast series about our MH17 investigation ahead of the 5th anniversary, and there’s also some other big things, some more personal to me, we’ll be announcing in the coming weeks.

If everything works out we’ll be making huge advancements in how open source investigation is used, developing incredibly archiving systems to make verified conflict information available to those who need it, and spreading what we’ve learnt to other organisations.

By the start of March we’ll have 16 full time members of staff working for Bellingcat, and we’re focusing on hiring staff for our Yemen research projects and admin staff. We’ll also have a 50/50 gender split in our staff, something I hope to sustain as we grow.

Als er niet toch al aanleiding was om 21 maart Eliot in Amsterdam te komen beluisteren, dan is dat er nu dus zeker.

Een rappende tekstgenerator

Gepubliceerd in IP 2019 nr. 1 [PDF]

Deze zomer deden de makers van software die automatisch rapteksten genereert, op het Lowlands-festival een soort Turing-test: herkenden bezoekers of een raptekst door een computer of een mens gemaakt was? Op de VOGIN-IP-lezing komt Folgert Karsdorp (Meertensinstituut) daarover vertellen. IP stelde hem vooraf al wat vragen.

Met wat voor kenmerkende verschillen tussen een raptekst en ‘gewonere’ teksten moet een automatische tekstgenerator rekening houden?
‘Rap onderscheidt zich in veel opzichten van gewone tekst, zowel wat betreft inhoudelijke als stilistische aspecten. De stilistische eigenschappen, zoals rijm, metrum en flow, springen wellicht nog het meest in het oog. Dit zijn allemaal kenmerken waar “gewone” tekstgenerators niet direct mee om kunnen gaan, en waar we dus nieuwe oplossingen voor hebben moeten bedenken.’

Worden dergelijke kenmerken vooraf als regels in jullie programma ingevoerd, of leert het programma het helemaal op basis van voorbeelden?
‘De meeste kenmerken worden gegenereerd op basis van machine learning. Daarbij moet wel aangetekend worden dat we niet zomaar een grote hoeveelheid teksten “voeren” aan een algoritme in de hoop dat het zelf kenmerken als rijm en ritme zal herkennen en vervolgens ook zal toepassen. We hebben speciale modules voor specifieke kenmerken gemaakt, die – bijvoorbeeld in het geval van rijm – de regel hebben dat er gerijmd moet worden, maar waarbij niet bepaald wordt op welk woord. Ons systeem past een vrij losse definitie van rijm toe, die zegt dat twee woorden rijmen als hun beklemtoonde klinkers overeenkomen.’

Begint het programma met wat willekeurige woorden, of zijn er bepaalde aangeleverde zinnen of thema’s waarop het voortborduurt?
‘We hebben een reeks verschillende systemen geïmplementeerd die op verschillende taalniveaus tekst produceren. Zo hebben we een systeem gemaakt dat op letterniveau teksten maakt, maar ook systemen die op lettergreep en woordniveau opereren. Voor elk van deze systemen geldt dat ze beginnen met het selecteren van een willekeurige letter, lettergreep, of woord, afhankelijk van het gekozen systeem. ‘

Hoeveel van de door jullie programma gegenereerde teksten werden bij het experiment tijdens Lowlands door de proefpersonen als ‘echt’ beoordeeld?
‘Gemiddeld konden de proefpersonen in zestig procent van de gevallen het onderscheid maken tussen echte en gegenereerde teksten. De deelnemers kregen ongeveer evenveel authentieke als gegenereerde teksten te zien, dus in veertig procent van de gevallen werden gegenereerde teksten “foutief” als origineel beschouwd.’

Rapper Leafs probeert het zelf

Is er van jullie teksten ooit eentje echt door een rapper uitgevoerd?
Nog niet!

Wat hebben jullie van dit experiment geleerd?
‘Allereerst hebben we geleerd dat het genereren van rapteksten een grote uitdaging is. Gegeven al de verschillende eigenschappen en kenmerken van raps, is het lang niet zo eenvoudig om overtuigende teksten te schrijven. Dat was op zichzelf opvallend, omdat in eerdere experimenten met literair materiaal relatief eenvoudige tekstgenerators vrij makkelijk overtuigende literaire zinnen konden maken. Diezelfde generators waren echter ontoereikend voor de rapteksten. Daarnaast heeft het experiment ons inzicht gegeven in de perceptie van mensen in gegenereerde teksten. Wat zijn de verwachtingen van mensen als ze een gegenereerde tekst zien? Een opvallende en leuke uitkomst was dat mensen zich blijkbaar niet kunnen voorstellen dat een automatisch systeem schuttingtaal zou gebruiken. Nou, reken maar! Tot slot, ik denk dat het belangrijk is dat er in veel verschillende domeinen (zoals literatuur, muziek, nieuws, enzovoort) geëxperimenteerd wordt met tekstgeneratiesystemen. Op die manier kunnen we beter zicht krijgen op de enorme hoeveelheid uitdagingen die tekstgeneratie nog heeft en ook op de grote complexiteit van creativiteit en taal.’