De verbazing van Christiaan


Dat Bellingcat-oprichter Eliot Higgins op 21 maart keynote spreker is, dat is intussen wel genoegzaam bekend. Toch komen we nog een keer op Bellingcat terug. Vorige week hebben ze namelijk maar liefst een half miljoen van de Postcodeloterij gekregen, onder meer te besteden aan hun nieuwe Haagse vestiging en aan de daar te ontplooien activiteiten. Het gezicht van Christiaan Triebert bij het in ontvangst nemen van de buitenmodel cheque, was zelf ook al goud waard.
Het in onze ogen flinke bedrag van £1500 dat we twee jaar geleden vanuit de VOGIN-IP-lezing hebben bijgedragen aan Bellingcat’s toenmalige crowdfunding-actie (plus gelijke bedragen uit VOGIN-fonds en GO-fonds), valt natuurlijk geheel in het niet bij deze gift. Maar misschien waren die bijdragen wel al de zaadjes waaruit dit verdere succes gegroeid is.

Daan Odijk werkt graag met rijke content

Wordt gepubliceerd in IP 2019 nr. 2 [image]

Daan Odijk is lead data scientist bij RTL en promoveerde op een onderzoek naar algoritmes die zoeken naar nieuws. Tijdens de VOGIN-IP-lezing op 21 maart zal hij meer vertellen over de datatoepassingen die hij met zijn afdeling ontwikkelt.

Destijds bij Blendle werkte je aan gepersonaliseerde nieuwsbrieven, nu bij RTL lijkt dat weer het geval. Ben je gewoon doorgegaan met hetzelfde of is er toch wel verschil?
‘Mijn rol bij RTL is heel breed. Ik leid een team van data scientists en engineers die werken aan data-gedreven producten voor heel RTL. Een deel daarvan is personalisatie, maar er is heel veel meer, zoals bijvoorbeeld het voorspellen van kijkcijfers op tv en online of een diep directe interactie met consumenten, dat was waar ik bij Blendle plezier aan beleefde en nu bij RTL op een nog grotere schaal weer.‘

Personalisatie op basis van klikgedrag kan maken dat de lezer in een filterbubbel terecht komt. Hoe probeer je dat te voorkomen?
‘Het risico dat mensen alleen maar nieuws te lezen krijgen dat bij hun eigen wereldbeeld past heb je niet alleen bij personalisatie. Ook de keuze voor een krant (denk aan de verzuiling) en het promoten van populaire artikelen beperken de nieuwsconsumptie.‘
‘Ik vind het daarom belangrijk om nieuwspersonalisatie in nauwe samenwerking met de redactie te doen. Het aanbevelen van nieuws brengt een verantwoordelijkheid mee om bewust met deze risico’s om te gaan. Met de Universiteit van Amsterdam werken we daarom aan een onderzoeksproject (zie tinyurl.com/y4dtbsqz) om diversiteit in nieuwsaanbeveling beter meetbaar te maken.‘
‘Uiteindelijk maakt algoritmische personalisatie het juist mogelijk hier bewustere keuzes in te maken. In het wetenschappelijk onderzoek zien we dat personalisatie een positief effect kan hebben op de diversiteit aan aanbevelingen, vergeleken met bijvoorbeeld populair nieuws. Zo zagen we bij Blendle dat algoritmes om diversiteit in aanbevelingen te stimuleren zelfs op de lange termijn positief effect hadden op leesgedrag.‘

Heb je in je dagelijks werk nog voldoende gelegenheid om de snelle ontwikkelingen op jouw terrein te volgen en die ook in de praktijk toe te passen?
‘Jazeker. We zijn open over wat we doen en mijn vakgenoten bij andere mediabedrijven gelukkig ook. Daardoor leren we van elkaar en werken we samen met De Persgroep en het FD aan bijvoorbeeld open source tools voor het analyseren van tekst (github.com/rtl-nl/textpipe).’
‘Zelf kom ik maar beperkt toe aan het toepassen van nieuwe ontwikkelingen. Maar ik geef het team graag ruimte om nieuwe ontwikkelingen zelf uit te proberen. Daarnaast werken we veel samen met de universiteit en er lopen altijd wel studenten stage die frisse ideeën en technieken meebrengen.‘

RTL heeft destijds een aardige bijdrage ontvangen uit Google’s “Digital News Innovation Fund”. Heb jij daar ook van kunnen profiteren?
‘Ik was de aanvrager. Het idee is dat we, samen met de datajournalisten van RTL Nieuws, lokale nieuwsberichten gaan generen op basis van data. Waar een datajournalist nu een artikel schrijft met landelijk trends en eventueel een kaartje opneemt met lokale cijfers, willen we dat in dit project omdraaien. We genereren dan bijvoorbeeld een artikel over de veiligheid rondom de school bij jou om de hoek, dat leest alsof het handgeschreven is, maar eigenlijk een samenwerking is tussen journalist en algoritme.‘

Wat wordt de belangrijkste takeaway van je verhaal op de VOGIN-IP-lezing?
‘Ik wil laten zien waarom RTL, als mediabedrijf in transitie, een prachtige plek is om data science te bedrijven.‘

Bellingcat in Nederland

SKUP 2015
Eliot Higgins
Foto: Marius Nyheim Kristoffersen

Als lezer van deze blog wist je natuurlijk al dat Bellingcat, in de persoon van oprichter Eliot Higgins, op 21 maart in de OBA is om daar een keynote voor de VOGIN-IP-lezing te verzorgen. Dat Bellingcat als organisatie zich bovendien in Nederland vestigt, werd hier ook al eerder gemeld. Toch komen we daar nog even op terug omdat Eliot recent een hele thread van Twitterberichten gewijd heeft aan allerlei nieuwtjes , waaronder meer duidelijkheid over wat ze in Den Haag gaan doen. Hieronder de belangrijkste punten uit die thread van 17 februari:

Hopefully by the end of Spring we’ll have the new Bellingcat office in The Hague open and operational, which will be the centre of two new major projects, focused on Yemen and local training in The Netherlands.

With The Netherlands training project we’ll be running workshops to train locals from a wide variety of backgrounds, both social and professional, to work on projects that have an impact on their own lives, building a Dutch community of open source investigators.

And on Yemen we’ve been working to develop a systematic process of investigation and archiving of open source material focused on the use of our work in courts, both local and international, but with wider applications to different fields, including advocacy and journalism.

My hope is that by the end of 2019 we’ll have a complete process for the investigation & archiving open source material up to a standard that can be used by local & international courts that can be rapidly deployed internally to new conflicts, & shared with other organisations.

While we’re aiming for a standard that can be used in justice and accountability, the evidence and analysis we gather will also be used for other areas, such as journalism and advocacy. It’s all about creating a solid base that grows a variety of projects and outcomes.

We’re also looking at producing a podcast series about our MH17 investigation ahead of the 5th anniversary, and there’s also some other big things, some more personal to me, we’ll be announcing in the coming weeks.

If everything works out we’ll be making huge advancements in how open source investigation is used, developing incredibly archiving systems to make verified conflict information available to those who need it, and spreading what we’ve learnt to other organisations.

By the start of March we’ll have 16 full time members of staff working for Bellingcat, and we’re focusing on hiring staff for our Yemen research projects and admin staff. We’ll also have a 50/50 gender split in our staff, something I hope to sustain as we grow.

Als er niet toch al aanleiding was om 21 maart Eliot in Amsterdam te komen beluisteren, dan is dat er nu dus zeker.

Een rappende tekstgenerator

Gepubliceerd in IP 2019 nr. 1 [PDF]

Deze zomer deden de makers van software die automatisch rapteksten genereert, op het Lowlands-festival een soort Turing-test: herkenden bezoekers of een raptekst door een computer of een mens gemaakt was? Op de VOGIN-IP-lezing komt Folgert Karsdorp (Meertensinstituut) daarover vertellen. IP stelde hem vooraf al wat vragen.

Met wat voor kenmerkende verschillen tussen een raptekst en ‘gewonere’ teksten moet een automatische tekstgenerator rekening houden?
‘Rap onderscheidt zich in veel opzichten van gewone tekst, zowel wat betreft inhoudelijke als stilistische aspecten. De stilistische eigenschappen, zoals rijm, metrum en flow, springen wellicht nog het meest in het oog. Dit zijn allemaal kenmerken waar “gewone” tekstgenerators niet direct mee om kunnen gaan, en waar we dus nieuwe oplossingen voor hebben moeten bedenken.’

Worden dergelijke kenmerken vooraf als regels in jullie programma ingevoerd, of leert het programma het helemaal op basis van voorbeelden?
‘De meeste kenmerken worden gegenereerd op basis van machine learning. Daarbij moet wel aangetekend worden dat we niet zomaar een grote hoeveelheid teksten “voeren” aan een algoritme in de hoop dat het zelf kenmerken als rijm en ritme zal herkennen en vervolgens ook zal toepassen. We hebben speciale modules voor specifieke kenmerken gemaakt, die – bijvoorbeeld in het geval van rijm – de regel hebben dat er gerijmd moet worden, maar waarbij niet bepaald wordt op welk woord. Ons systeem past een vrij losse definitie van rijm toe, die zegt dat twee woorden rijmen als hun beklemtoonde klinkers overeenkomen.’

Begint het programma met wat willekeurige woorden, of zijn er bepaalde aangeleverde zinnen of thema’s waarop het voortborduurt?
‘We hebben een reeks verschillende systemen geïmplementeerd die op verschillende taalniveaus tekst produceren. Zo hebben we een systeem gemaakt dat op letterniveau teksten maakt, maar ook systemen die op lettergreep en woordniveau opereren. Voor elk van deze systemen geldt dat ze beginnen met het selecteren van een willekeurige letter, lettergreep, of woord, afhankelijk van het gekozen systeem. ‘

Hoeveel van de door jullie programma gegenereerde teksten werden bij het experiment tijdens Lowlands door de proefpersonen als ‘echt’ beoordeeld?
‘Gemiddeld konden de proefpersonen in zestig procent van de gevallen het onderscheid maken tussen echte en gegenereerde teksten. De deelnemers kregen ongeveer evenveel authentieke als gegenereerde teksten te zien, dus in veertig procent van de gevallen werden gegenereerde teksten “foutief” als origineel beschouwd.’

Rapper Leafs probeert het zelf

Is er van jullie teksten ooit eentje echt door een rapper uitgevoerd?
Nog niet!

Wat hebben jullie van dit experiment geleerd?
‘Allereerst hebben we geleerd dat het genereren van rapteksten een grote uitdaging is. Gegeven al de verschillende eigenschappen en kenmerken van raps, is het lang niet zo eenvoudig om overtuigende teksten te schrijven. Dat was op zichzelf opvallend, omdat in eerdere experimenten met literair materiaal relatief eenvoudige tekstgenerators vrij makkelijk overtuigende literaire zinnen konden maken. Diezelfde generators waren echter ontoereikend voor de rapteksten. Daarnaast heeft het experiment ons inzicht gegeven in de perceptie van mensen in gegenereerde teksten. Wat zijn de verwachtingen van mensen als ze een gegenereerde tekst zien? Een opvallende en leuke uitkomst was dat mensen zich blijkbaar niet kunnen voorstellen dat een automatisch systeem schuttingtaal zou gebruiken. Nou, reken maar! Tot slot, ik denk dat het belangrijk is dat er in veel verschillende domeinen (zoals literatuur, muziek, nieuws, enzovoort) geëxperimenteerd wordt met tekstgeneratiesystemen. Op die manier kunnen we beter zicht krijgen op de enorme hoeveelheid uitdagingen die tekstgeneratie nog heeft en ook op de grote complexiteit van creativiteit en taal.’

Een “Global Thinker” bij #voginip


Het Amerikaanse tijdschrift Foreign Policy maakte eerder deze week bekend wie ze tot “Global Thinkers” voor 2019 hebben uitgeroepen. In hun reeks van zwaargewichten figureert ook Eliot Higgins in de categorie “Defense & Security”.
Nog een extra reden dat we blij zijn Eliot op 21 maart als keynote spreker in de OBA bij de VOGIN-IP-lezing te mogen verwelkomen. En een extra reden om de VOGIN-IP-lezing niet te willen missen.

Toevoeging d.d. 23-01-2019:

Digitaal schatgraven voor 8+


“Digitaal schatgraven” is er niet alleen voor bezoekers van de VOGIN-IP-lezing, maar ook voor een heel andere leeftijdscategorie. Op 26 januari vertelt Cynthia Liem haar verhaal namelijk al op een kindercollege in het Delftse theater De Veste. Zoals uit onderstaande beschrijving blijkt, zal het daar voor een belangrijk deel over de algemene werking van zoekmachines gaan:

Hoe vind je informatie over een onderwerp dat je heel leuk vindt? Waarschijnlijk met behulp van een zoekmachine op het Internet. Maar hoe werkt zo’n zoekmachine dan?
Cynthia legt ons uit hoe we informatie op een slimme manier kunnen organiseren, en daagt ons uit om digitaal te gaan schatgraven. Want wat moet je doen als je bijvoorbeeld een nieuw liedje wilt ontdekken, dat heel anders is dan de muziek die je tot nu toe kende? In dit kindercollege gaan we samen op onderzoek uit!

Haar specialiteit “muziek” blijkt daar dus toch ook wel aan de orde te komen. En dat zal nu juist het thema zijn van haar grote-mensen-college bij de #voginip-lezing.

Elk land met een slecht geweten moet vrezen voor Christiaan …


Net als beide voorgaande jaren zouden we ook bij de komende VOGIN-IP-lezing Christiaan Triebert graag weer als spreker of workshopdocent hebben kunnen aankondigen. Maar jammer genoeg liet Christiaan weten dat hij het te druk zou hebben met andere verplichtingen. Wie dit fascinerende interview uit Vrij Nederland leest, zal dat helemaal begrijpen. “Te druk” lijkt dan nog een understatement. Dit keer zullen we dus genoegen moeten nemen met Eliot Higgins, de Bellingcat-oprichter zelf, die een keynote zal verzorgen …. 😉

Bellingcat documentaire op TV


Voor wie gisteravond de Bellingcat-documentaire van de VPRO gemist heeft, hierbij de herkansing op “Uitzending gemist“. Of anders rechtstreeks bij NPO (met waarschijnlijk iets langere reclame vooraf).
Voor wie Bellingcat regelmatig volgt, bood de film misschien niet zo heel veel nieuws. Vooral werking en belang van de vaak gebruikte geolocatietechnieken (*) kwamen er in de film wat bekaaid vanaf. We kregen wel wat meer zicht op de persoonlijke kant van de deelnemers aan het collectief. En ook inzicht in de verdere groei en professionalisering die heeft plaatsgevonden, sinds Christiaan Triebert (alias @trbrtc) in 2017 als spreker bij #voginip optrad. Het deed ons ook nog eens beseffen dat die professionalisering mede op gang geholpen is dankzij een crowdfunding-actie in dat jaar. Gecoördineerd door het VOGIN-IP-team, hebben VOGIN-fonds, GO-fonds en VOGIN-IP zelf daaraan een aanzienlijk bijdrage geleverd.
Hoe dan ook is het nu extra mooi dat Eliot Higgins 21 maart als keynote ons 2019 congres zal afsluiten.

(*) Latere toevoeging: Voor mooi geolocatievoorbeeld zie: https://www.youtube.com/watch?v=mPrxMn655lg

Keynote over datavisualisaties

Frédérik Ruys – vizualism

Ook een tweede keynote spreker voor 21 maart is vastgelegd. Frédérik Ruys van vizualism komt vertellen over (… inderdaad …) visualiseren. Ook wie Frédérik zelf niet heeft ontmoet, is waarschijnlijk wel al producten van hem tegengekomen. Hij is namelijk degene die de opvallende visualisaties van de VPRO-serie “Nederland van boven” heeft verzorgd.
Frédérik noemt zichzelf datajournalist en informatiearchitect. In die beschrijving komen allerlei voor ons vak belangrijke competenties samen. Nog een nuttige uitspraak op de website van vizualism: “Visualiseren betekent niet het versimpelen van de informatie, maar het verhelderen.”