Daan Odijk werkt graag met rijke content

Wordt gepubliceerd in IP 2019 nr. 2 [image]

Daan Odijk is lead data scientist bij RTL en promoveerde op een onderzoek naar algoritmes die zoeken naar nieuws. Tijdens de VOGIN-IP-lezing op 21 maart zal hij meer vertellen over de datatoepassingen die hij met zijn afdeling ontwikkelt.

Destijds bij Blendle werkte je aan gepersonaliseerde nieuwsbrieven, nu bij RTL lijkt dat weer het geval. Ben je gewoon doorgegaan met hetzelfde of is er toch wel verschil?
‘Mijn rol bij RTL is heel breed. Ik leid een team van data scientists en engineers die werken aan data-gedreven producten voor heel RTL. Een deel daarvan is personalisatie, maar er is heel veel meer, zoals bijvoorbeeld het voorspellen van kijkcijfers op tv en online of een diep directe interactie met consumenten, dat was waar ik bij Blendle plezier aan beleefde en nu bij RTL op een nog grotere schaal weer.‘

Personalisatie op basis van klikgedrag kan maken dat de lezer in een filterbubbel terecht komt. Hoe probeer je dat te voorkomen?
‘Het risico dat mensen alleen maar nieuws te lezen krijgen dat bij hun eigen wereldbeeld past heb je niet alleen bij personalisatie. Ook de keuze voor een krant (denk aan de verzuiling) en het promoten van populaire artikelen beperken de nieuwsconsumptie.‘
‘Ik vind het daarom belangrijk om nieuwspersonalisatie in nauwe samenwerking met de redactie te doen. Het aanbevelen van nieuws brengt een verantwoordelijkheid mee om bewust met deze risico’s om te gaan. Met de Universiteit van Amsterdam werken we daarom aan een onderzoeksproject (zie tinyurl.com/y4dtbsqz) om diversiteit in nieuwsaanbeveling beter meetbaar te maken.‘
‘Uiteindelijk maakt algoritmische personalisatie het juist mogelijk hier bewustere keuzes in te maken. In het wetenschappelijk onderzoek zien we dat personalisatie een positief effect kan hebben op de diversiteit aan aanbevelingen, vergeleken met bijvoorbeeld populair nieuws. Zo zagen we bij Blendle dat algoritmes om diversiteit in aanbevelingen te stimuleren zelfs op de lange termijn positief effect hadden op leesgedrag.‘

Heb je in je dagelijks werk nog voldoende gelegenheid om de snelle ontwikkelingen op jouw terrein te volgen en die ook in de praktijk toe te passen?
‘Jazeker. We zijn open over wat we doen en mijn vakgenoten bij andere mediabedrijven gelukkig ook. Daardoor leren we van elkaar en werken we samen met De Persgroep en het FD aan bijvoorbeeld open source tools voor het analyseren van tekst (github.com/rtl-nl/textpipe).’
‘Zelf kom ik maar beperkt toe aan het toepassen van nieuwe ontwikkelingen. Maar ik geef het team graag ruimte om nieuwe ontwikkelingen zelf uit te proberen. Daarnaast werken we veel samen met de universiteit en er lopen altijd wel studenten stage die frisse ideeën en technieken meebrengen.‘

RTL heeft destijds een aardige bijdrage ontvangen uit Google’s “Digital News Innovation Fund”. Heb jij daar ook van kunnen profiteren?
‘Ik was de aanvrager. Het idee is dat we, samen met de datajournalisten van RTL Nieuws, lokale nieuwsberichten gaan generen op basis van data. Waar een datajournalist nu een artikel schrijft met landelijk trends en eventueel een kaartje opneemt met lokale cijfers, willen we dat in dit project omdraaien. We genereren dan bijvoorbeeld een artikel over de veiligheid rondom de school bij jou om de hoek, dat leest alsof het handgeschreven is, maar eigenlijk een samenwerking is tussen journalist en algoritme.‘

Wat wordt de belangrijkste takeaway van je verhaal op de VOGIN-IP-lezing?
‘Ik wil laten zien waarom RTL, als mediabedrijf in transitie, een prachtige plek is om data science te bedrijven.‘

Bellingcat in Nederland

SKUP 2015
Eliot Higgins
Foto: Marius Nyheim Kristoffersen

Als lezer van deze blog wist je natuurlijk al dat Bellingcat, in de persoon van oprichter Eliot Higgins, op 21 maart in de OBA is om daar een keynote voor de VOGIN-IP-lezing te verzorgen. Dat Bellingcat als organisatie zich bovendien in Nederland vestigt, werd hier ook al eerder gemeld. Toch komen we daar nog even op terug omdat Eliot recent een hele thread van Twitterberichten gewijd heeft aan allerlei nieuwtjes , waaronder meer duidelijkheid over wat ze in Den Haag gaan doen. Hieronder de belangrijkste punten uit die thread van 17 februari:

Hopefully by the end of Spring we’ll have the new Bellingcat office in The Hague open and operational, which will be the centre of two new major projects, focused on Yemen and local training in The Netherlands.

With The Netherlands training project we’ll be running workshops to train locals from a wide variety of backgrounds, both social and professional, to work on projects that have an impact on their own lives, building a Dutch community of open source investigators.

And on Yemen we’ve been working to develop a systematic process of investigation and archiving of open source material focused on the use of our work in courts, both local and international, but with wider applications to different fields, including advocacy and journalism.

My hope is that by the end of 2019 we’ll have a complete process for the investigation & archiving open source material up to a standard that can be used by local & international courts that can be rapidly deployed internally to new conflicts, & shared with other organisations.

While we’re aiming for a standard that can be used in justice and accountability, the evidence and analysis we gather will also be used for other areas, such as journalism and advocacy. It’s all about creating a solid base that grows a variety of projects and outcomes.

We’re also looking at producing a podcast series about our MH17 investigation ahead of the 5th anniversary, and there’s also some other big things, some more personal to me, we’ll be announcing in the coming weeks.

If everything works out we’ll be making huge advancements in how open source investigation is used, developing incredibly archiving systems to make verified conflict information available to those who need it, and spreading what we’ve learnt to other organisations.

By the start of March we’ll have 16 full time members of staff working for Bellingcat, and we’re focusing on hiring staff for our Yemen research projects and admin staff. We’ll also have a 50/50 gender split in our staff, something I hope to sustain as we grow.

Als er niet toch al aanleiding was om 21 maart Eliot in Amsterdam te komen beluisteren, dan is dat er nu dus zeker.

Hoezo een knowledge graph?

Dat inhoudelijke ontsluiting nuttig is om informatie makkelijker vindbaar te maken voor klanten of voor andere geïnteresseerden, dat weet elke IP’er wel. Dat je daarvoor een taxonomie of een thesaurus kunt gebruiken is niets nieuws. Met een Knowledge Graph ligt dat nog wat anders. Vaak wordt zoiets nog gezien als het speeltje van Google, waarmee ze proberen concrete antwoorden op onze zoekvragen te geven. En eigenlijk ook een beetje als een tech-hype.
Toch zijn er steeds meer organisaties die hun eigen Enterprise Knowledge Graph ontwikkelen, omdat ze daar allerlei voordelen in zien. En die voordelen variëren van betere toegankelijkheid van hun informatie tot het krijgen van beter overzicht over hun eigen producten en de onderlinge relaties daartussen. Het is dus niet voor niets dat in ons programma zowel een lezing als een workshop aan dit onderwerp gewijd zijn.

In de workshop van Joyce van Aalten en Daphne Shinn leer je niet alleen hoe een Knowledge Graph werkt, maar ook hoe je er zelf een maakt – hands-on. Heel praktisch gericht dus.
In de lezing van Paula Kassenaar gaat het er vooral om hoe bij Zalando zo’n Knowledge Graph gebruikt wordt. Zowel ten behoeve van de klanten, zodat die makkelijker de producten kunnen vinden waar ze in geïnteresseerd zijn, als ten behoeve van het bedrijf zelf, om alle informatie over haar producten bij de hand te hebben. En uiteraard komt ook aan de orde hoe ze dat bij Zalando hebben aangepakt en hoe daar de graph wordt onderhouden.
Deze twee invalshoeken kun je ook nog combineren door ‘s ochtends de lezingen te bezoeken en ‘s middags naar die workshop te gaan.

Keuzestress


Wie naar de VOGIN-IP-lezing wil komen, moet de organisatoren daarvan wel haten. Want het is nogal pervers om beoogde bezoekers zo’n dosis keuzestress te bezorgen. Eerst al de keuze tussen lezingentracks en workshops. En dan nog: welk van die 10 workshops? Want die zien er allemaal interessant uit. Maar dat was natuurlijk ook de bedoeling van die organisatoren.
Niettemin hebben we één van hen gevraagd zich eens in zo’n bezoeker te verplaatsen. Wat zou hij kiezen als hij met dat aanmeldformulier voor zich zat. Eigenlijk wilde hij daar geen antwoord op geven, want dan zou hij de suggestie wekken de ene workshop voor te trekken boven de andere. Maar na enig aandringen wilde hij toch wel zeggen welke onderwerpen hem persoonlijk het meest aanspraken, Waarbij zijn belangrijkste criterium was over welke onderwerpen hij vond dat hij meer zou moeten weten.
Dan kwam bij hem op één: de workshop over Wikidata en SPARQL.
En op twee: de workshop over het bouwen van een Knowledge Graph.
Maar ja, over die semantische zoekmachines is natuurlijk ook wel leuk, of wat meer over SEO weten, en kunnen factchecken, of ….
En als hij dan een workshop koos, dan kon hij misschien weer niet naar Karsdorp’s lezing over de rap-generator of naar die over Zalando’s Knowledge Graph.
Zelfs bij deze gefingeerde keuzesituatie sloeg bij hem de stress al onbarmhartig toe.
Op basis van deze ervaring bieden de organisatoren u dus hun nederige excuses aan voor het veroorzaken van zoveel keuzestress.

Algoritmes


In Villamedia van 5 oktober 2018 stond een interview met Daan Odijk (midden, spreker op de komende VOGIN-IP-lezing), David Graus (links, spreker op de vorige VOGIN-IP-lezing) en Anne Schuth (rechts). Dat stuk geeft een aardige indruk waarmee datawetenschappers als Daan, David en Anne zich in de mediawereld bezighouden en waar Daan het 21 maart bij ons ook over gaat hebben. Ter illustratie een paar citaten uit het artikel:

NIEUWE TIJDEN
Ze verdienen meer dan hun journalistencollega’s en maken ook nog eens allerlei software waarmee een deel van het redactiewerk wordt overgenomen. Een gesprek met datawetenschappers David Graus, Daan Odijk en Anne Schuth die de journalistiek gaan automatiseren. ‘We willen dat journalisten hun tijd het meest effectief gebruiken, want dat is niet altijd het geval. We zouden dus vooral gaan snijden in het monnikenwerk.’
….
De heren staan model voor een steeds groter wordende groep data scientists, machine learning engineers of simpelweg IT’ers die de redactievloer bevolkt.
….
Hoe kwamen jullie in de media­sector terecht? Kunnen jullie in de IT niet veel meer verdienen?
Odijk: ‘Voor ons drieën is dit een logische keuze. Wij vinden ­tekst­uele data heel interessant, want er is heel veel potentie om meer met content te doen, zowel uit archieven als nieuwe content uit bijvoorbeeld openbare databestanden. We hebben een hele bewuste keuze gemaakt voor deze sector, niet vanwege het geld.’
….
Gaan jullie de journalistiek volledig overnemen en zit de redactievloer straks vol met nerds?
Odijk: ‘Journalistieke content is het meest waardevolle dat onze bedrijven hebben. Dus natuurlijk blijven we er tijd in steken om die zo goed mogelijk te maken. We willen wel dat journalisten hun tijd het meest effectief gebruiken, want dat is niet altijd het geval. We zouden dus vooral gaan snijden in het monnikenwerk.’
Graus: ‘Mensen zijn heel bang om vervangen te worden, maar in veel gevallen is deze technologie slechts extra gereedschap. Het biedt suggesties die je wel of niet meeneemt. Mijn belangrijkste doel is om, à la de film ‘Minority Report’, een redactie-supportsysteem te bouwen waarmee je eenvoudig door een grote stroom complexe data kunt navigeren. Misschien moet de journalist daarvoor wel een beetje meer nerdy worden.’
….

De titel van het interview geeft al aan dat het ook bij hun soort werk om “algoritmes” gaat, zoals dat ook bij de grote tech-bedrijven het geval is. Als je wilt weten wat dat bij RTL inhoudt, dan moet je 21 maart naar Daan komen luisteren …. en je natuurlijk tijdig aanmelden voor de VOGIN-IP-dag.

Automatisch gegenereerde rapteksten op Lowlands


Deze zomer werd op Lowlands een wetenschappelijk experiment uitgevoerd. Medewerkers van het Meertens Instituut, in samenwerking met de Universiteit van Antwerpen, hadden een computerprogramma met behulp van Machine Learning geleerd om rapteksten te genereren. De vraag is dan natuurlijk hoe je kunt meten hoe goed een computerprogramma zo’n taak uitvoert. In een geval als dit is de vraag of het wel of geen goede raptekst is, niet eenvoudige objectief met JA of NEE te beantwoorden. Maar op Lowlands zijn natuurlijk wel een heleboel rap- en hiphop-enthousiasten bij elkaar, aan wie je kunt vragen of ze denken dat een op het scherm getoonde raptekst door een mens of door een machine gemaakt is. Dat is in feite een variant op de klassieke Turing-test: is kunstmatige intelligentie al zo goed dat een mens niet meer kan bepalen of hij te maken heeft met een computer of met een ander mens aan de andere kant van het beeldscherm. Deze kunstmatig intelligente rapper had dan ook de naam MC Turing gekregen.
Wie het zelf ook eens wil uitproberen, kan dat nog steeds doen op https://deep-flow.nl/ (waarbij het “deep” al aangeeft dat diepe neurale netwerken zijn gebruikt om het programma te leren rappen). Je krijgt daar dan vragen voorgelegd waarbij je hetzij moet kiezen of een tekst door een mens of door een machine is gemaakt, hetzij welk van twee getoonde teksten door een echte rapper is geschreven.
Folgert Karsdorp die dit project leidde, zal op de VOGIN-IP-lezing meer over de opzet en de werking van deze rapgenerator vertellen.

Keynote over datavisualisaties

Frédérik Ruys – vizualism

Ook een tweede keynote spreker voor 21 maart is vastgelegd. Frédérik Ruys van vizualism komt vertellen over (… inderdaad …) visualiseren. Ook wie Frédérik zelf niet heeft ontmoet, is waarschijnlijk wel al producten van hem tegengekomen. Hij is namelijk degene die de opvallende visualisaties van de VPRO-serie “Nederland van boven” heeft verzorgd.
Frédérik noemt zichzelf datajournalist en informatiearchitect. In die beschrijving komen allerlei voor ons vak belangrijke competenties samen. Nog een nuttige uitspraak op de website van vizualism: “Visualiseren betekent niet het versimpelen van de informatie, maar het verhelderen.”

Solid en Pods, Ruben en Tim

Hoewel het thema van Ruben Verborgh’s keynote op de VOGIN-IP-lezing afgelopen maart, eigenlijk het modieuze “blockchain” was, ging zijn verhaal in feite over het gedecentraliseerde web. En dat staat nu ineens alom in de belangstelling, vooral nu Tim Berners Lee zich daar zo sterk voor maakt. Het heeft intussen zelfs de Volkskrant al gehaald. In Ruben’s lezing kwamen al spoedig de “pod‘s” aan de orde, die ook centraal staan in het Solid-project (https://solid.inrupt.com/) van Tim Berners Lee. Een project dat ook al redelijk het project van Ruben Verborgh blijkt te zijn.

Op de Decentralized Web Summit 2018, begin augustus in San Francisco, hielden Ruben en Tim Berners Lee daar dan ook samen een presentatie over. Hieronder de opgenomen live stream van die dag, die we op tijdstip 4:58:40 laten starten, bij het begin van hun optreden. (Zodat u de voorgaande 5 uur niet ook hoeft af te spelen).


.
De presentatie die Ruben Verborgh daar gebruikte, “Solid: empowering people through choice”, is ook apart beschikbaar.
En dan is er ook nog een meer recente versie, voor een workshop on Decentralizing the Semantic Web, 21 en 22 oktober in Wenen: “Tim Berners-Lee & Ruben Verborgh / Solid: Linked Data for personal data management”
En op de International Semantic Web Conference deze week, was Ruben ook weer present, met Decentralizing the Semantic Web through incentivized collaboration

Als we toen geweten hadden dat we bij de VOGIN-IP-lezing in feite de nieuwe Tim Berners Lee in huis hadden, dan zouden we 28 maart waarschijnlijk (nog) wel wat beter hebben opgelet bij Ruben’s lezing.

Big data en data-mining

Iedereen lijkt het dezer dagen over big data te hebben. Daarbij is niet altijd duidelijk hoe big big eigenlijk is. En ook niet of het daarbij over data of misschien ook wel over tekst gaat.

Dat 28 maart over dit thema een workshop wordt gegeven, is hier al eerder aan de orde geweest. Maar dat we er ook een lezing over hebben, bleef nog wat onderbelicht. Laura Hollink van het CWI houdt zich bezig met analyses van grote hoeveelheden tekst. Dat doet ze onder andere in samenwerking met de KB. In bovenstaande video komt dat onder meer aan de orde.
In haar lezing op 28 maart zal ze het vooral hebben over de analyse van verschuivingen in de betekenis en gevoelswaarde van woorden in de loop van de tijd. Hoe uit grote tekstcorpora dergelijke verschuivingen afgeleid kunnen worden. Inzicht daarin is van belang voor een betere werking van zoeksystemen die materiaal uit heel verschillende periodes doorzoeken en ook voor automatische documentclassificatie van dergelijk materiaal. Wie nu al iets over het werk van Laura bij het CWI wil horen (of 28 maart niet bij haar lezing kan zijn), kan nu al vast dit filmpje van eind november vorig jaar bekijken.