Spam clans uncovered


De Leidse nepnieuwsonderzoeker Peter Burger heeft samen met een Belgische collega, Maarten Schenk, onderzoek gedaan naar een Macedonisch nepnieuwsnetwerk. Op de eigen website Nieuwscheckers zijn de resultaten van dat onderzoek gerapporteerd, maar ook nos.nl heeft er uitgebreid aandacht aan besteed. Van Macedonische tieners was al eerder bekend dat ze tijdens de Amerikaanse presidentsverkiezingen via allerlei nepsites fakenieuwsberichten (her)verspreidden om daar door advertentie-inkomsten dik geld aan te verdienen. Ditmaal gaat het om een familie- en vriendenkring van meer middelbare leeftijd die ditzelfde verdienmodel exploiteerde. Volgens Peter Burger wordt de kern gevormd door twee mannen die een baan bij het Macedonische leger hebben (of hadden) en dit er als aardige bijverdienste bijdoen, met medewerking van wat familie en kennissen. Ook hier gaat het om berichten die van elders gekopieerd worden, zodat hun beperkte actieve kennis van het Engels geen probleem vormt. Via Facebook en Twitter hebben ze een bereik van meer dan 7 miljoen reacties, comments, shares en retweets gegenereerd. Dit ondanks de – kennelijk nog niet erg doeltreffende – maatregelen die Facebook en Twitter intussen genomen hebben om de verspreiding van nepnieuws te beperken. Op grond hiervan concludeert Peter Burger’s collega Alexander Pleijter dan ook dat de internetgiganten schromelijk tekortschieten om haatzaaiend nepnieuws te weren.

Een uitgebreid rapport van het onderzoek van Peter Burger en Maarten Schenk, met meer cijfers, is ook op Nieuwscheckers te vinden.

Peter Burger of Alexander Pleijter (ze moeten zelf nog beslissen wie van beide) zal 21 maart op de VOGIN-IP-lezing ook een workshop “Factchecking” verzorgen.

Een “Global Thinker” bij #voginip


Het Amerikaanse tijdschrift Foreign Policy maakte eerder deze week bekend wie ze tot “Global Thinkers” voor 2019 hebben uitgeroepen. In hun reeks van zwaargewichten figureert ook Eliot Higgins in de categorie “Defense & Security”.
Nog een extra reden dat we blij zijn Eliot op 21 maart als keynote spreker in de OBA bij de VOGIN-IP-lezing te mogen verwelkomen. En een extra reden om de VOGIN-IP-lezing niet te willen missen.

Wikidata: feiten over meer dan 60 miljoen entiteiten


Op 20 december heeft iemand het 60 miljoenste “ding” in Wikidata ingevoerd. Wat het was zie je hierboven. De identifier Q60000000 maakt onomstotelijk duidelijk dat dit het 60 miljoenste item was. Het hoogste nummer dat ik op dit moment (vrijdag 11 januari, 15.45 uur) tegenkwam, was intussen al Q60556989 (Tehallan, een county in Ierland). Dat waren dus al 556.989 nieuwe items in drie weken (en dat ook nog in de kerstvakantie – of misschien wel “juist”). Van elk van die items in Wikidata kunnen ook allerlei eigenschappen en relaties geregistreerd worden (in het voorbeeld hierboven niet getoond).
Deze twee voorbeelden illustreren dat de talloze vrijwilligers die gegevens toevoegen, er zowel wetenschappelijke als meer algemene informatie instoppen. Met gegevens over die meer dan 60 miljoen entiteiten is dit een onuitputtelijk Linked Open Data bron, waaruit andere systemen – de Wikipedia voorop – feitelijke informatie kunnen halen.
Zo maakt bijvoorbeeld het onderzoeksportaal van de KB gebruik van Wikidata om in de krantenartikelen in Delpher zogenaamde named entities te identificeren en om daarover extra gegevens te kunnen presenteren. Theo van Veen maakt zich er dan ook sterk voor dat Wikidata dienst gaat doen als een soort universele gemeenschappelijke thesaurus en de Wikidata-identifier (dat Q-nummer) als DE identifier voor entiteiten. Hij schreef daarover al eerder in IP. Op KNVI’s Smart Humanity Event had hij er in december een lezing over en in de KB onderzoekskroniek in het decembernummer van IP kwam het ook al ter sprake.

Maar hoe haal je nou gegevens uit die gigantische vergaarbak met data. Om in Linked Open Data bronnen zoals Wikidata te zoeken, is een speciale querytaal ontwikkeld: SPARQL. Die naam is een zogenaamd recursief acroniem voor “SPARQL Protocol and RDF Query Language”. SPARQL is best een ingewikkelde querytaal, maar er zijn gelukkig wel wat tooltjes die kunnen helpen om dergelijke queries te formuleren. En ook voor informatieprofessionals is het zeker nuttig er iets van te weten. Zeker als je wilt bijdragen of ontlenen aan Wikidata. Maar hoe kun je iets van SPARQL leren?
Daar komt dan eindelijk de aap uit onze mouw: op 21 maart hebben we daar namelijk een workshop voor. Maarten Dammers die vorig jaar al een leuke lezing over dit onderwerp gaf, verzorgt dit jaar een workshop waarin je zelf met Wikidata en SPARQL aan de gang kunt. Waar wacht je dus nog op?

Algoritmes


In Villamedia van 5 oktober 2018 stond een interview met Daan Odijk (midden, spreker op de komende VOGIN-IP-lezing), David Graus (links, spreker op de vorige VOGIN-IP-lezing) en Anne Schuth (rechts). Dat stuk geeft een aardige indruk waarmee datawetenschappers als Daan, David en Anne zich in de mediawereld bezighouden en waar Daan het 21 maart bij ons ook over gaat hebben. Ter illustratie een paar citaten uit het artikel:

NIEUWE TIJDEN
Ze verdienen meer dan hun journalistencollega’s en maken ook nog eens allerlei software waarmee een deel van het redactiewerk wordt overgenomen. Een gesprek met datawetenschappers David Graus, Daan Odijk en Anne Schuth die de journalistiek gaan automatiseren. ‘We willen dat journalisten hun tijd het meest effectief gebruiken, want dat is niet altijd het geval. We zouden dus vooral gaan snijden in het monnikenwerk.’
….
De heren staan model voor een steeds groter wordende groep data scientists, machine learning engineers of simpelweg IT’ers die de redactievloer bevolkt.
….
Hoe kwamen jullie in de media­sector terecht? Kunnen jullie in de IT niet veel meer verdienen?
Odijk: ‘Voor ons drieën is dit een logische keuze. Wij vinden ­tekst­uele data heel interessant, want er is heel veel potentie om meer met content te doen, zowel uit archieven als nieuwe content uit bijvoorbeeld openbare databestanden. We hebben een hele bewuste keuze gemaakt voor deze sector, niet vanwege het geld.’
….
Gaan jullie de journalistiek volledig overnemen en zit de redactievloer straks vol met nerds?
Odijk: ‘Journalistieke content is het meest waardevolle dat onze bedrijven hebben. Dus natuurlijk blijven we er tijd in steken om die zo goed mogelijk te maken. We willen wel dat journalisten hun tijd het meest effectief gebruiken, want dat is niet altijd het geval. We zouden dus vooral gaan snijden in het monnikenwerk.’
Graus: ‘Mensen zijn heel bang om vervangen te worden, maar in veel gevallen is deze technologie slechts extra gereedschap. Het biedt suggesties die je wel of niet meeneemt. Mijn belangrijkste doel is om, à la de film ‘Minority Report’, een redactie-supportsysteem te bouwen waarmee je eenvoudig door een grote stroom complexe data kunt navigeren. Misschien moet de journalist daarvoor wel een beetje meer nerdy worden.’
….

De titel van het interview geeft al aan dat het ook bij hun soort werk om “algoritmes” gaat, zoals dat ook bij de grote tech-bedrijven het geval is. Als je wilt weten wat dat bij RTL inhoudt, dan moet je 21 maart naar Daan komen luisteren …. en je natuurlijk tijdig aanmelden voor de VOGIN-IP-dag.

Digitaal schatgraven voor 8+


“Digitaal schatgraven” is er niet alleen voor bezoekers van de VOGIN-IP-lezing, maar ook voor een heel andere leeftijdscategorie. Op 26 januari vertelt Cynthia Liem haar verhaal namelijk al op een kindercollege in het Delftse theater De Veste. Zoals uit onderstaande beschrijving blijkt, zal het daar voor een belangrijk deel over de algemene werking van zoekmachines gaan:

Hoe vind je informatie over een onderwerp dat je heel leuk vindt? Waarschijnlijk met behulp van een zoekmachine op het Internet. Maar hoe werkt zo’n zoekmachine dan?
Cynthia legt ons uit hoe we informatie op een slimme manier kunnen organiseren, en daagt ons uit om digitaal te gaan schatgraven. Want wat moet je doen als je bijvoorbeeld een nieuw liedje wilt ontdekken, dat heel anders is dan de muziek die je tot nu toe kende? In dit kindercollege gaan we samen op onderzoek uit!

Haar specialiteit “muziek” blijkt daar dus toch ook wel aan de orde te komen. En dat zal nu juist het thema zijn van haar grote-mensen-college bij de #voginip-lezing.

Alexander Pleijter op de radio

Behalve dat Alexander Pleijter op de VOGIN-IP-lezing workshops Factchecking verzorgt, is hij vanmiddag ook op de radio bij het VPRO-programma Argos, om het over factchecking en nepnieuws te hebben.

Uit de beschrijving op de Argos-site:

“Wat is hij eigenlijk, wetenschapper of (onderzoeks)journalist? Geen van beide helemaal, zegt hij zelf. Wel is Alexander Pleijter, universitair docent Journalistiek en nieuwe media aan de Universiteit Leiden, specialist op het gebied van bronnengebruik van journalisten. Lang voordat fakenews een scheldwoord werd, trainde hij al studenten in het ontmaskeren van desinformatie. En dat doet hij nog steeds. Alexander Pleijter is een luis in de pels van de journalistiek en in Argos praten we met hem onder meer over de toekomst van het vak in tijden van ongebreidelde verspreiding van nepnieuws.”

Season’s greetings

>
Het VOGIN-IP-team wenst alle – zowel eerdere als toekomstige – bezoekers van de VOGIN-IP-lezing mooie kerstdagen, veel geluk en alle goeds voor 2019.
En tot dat “goeds” hoort op 21 maart natuurlijk ook weer een tochtje naar Amsterdam.
Laten we daar vast op toosten.
 
 
 
Joyce, Monique, Peter, Arno, Peter, Eric

Elk land met een slecht geweten moet vrezen voor Christiaan …


Net als beide voorgaande jaren zouden we ook bij de komende VOGIN-IP-lezing Christiaan Triebert graag weer als spreker of workshopdocent hebben kunnen aankondigen. Maar jammer genoeg liet Christiaan weten dat hij het te druk zou hebben met andere verplichtingen. Wie dit fascinerende interview uit Vrij Nederland leest, zal dat helemaal begrijpen. “Te druk” lijkt dan nog een understatement. Dit keer zullen we dus genoegen moeten nemen met Eliot Higgins, de Bellingcat-oprichter zelf, die een keynote zal verzorgen …. 😉

Met #voginip begint de lente

De voorjaarsequinox

Morgen, 21 december, begint de (astronomische) winter. Vanaf dan gaan de dagen weer lengen.
Drie maanden later is het 21 maart. En dan begint de lente al weer.
21 maart zou eigenlijk de dag van de dag-en-nachtevening, de voorjaarsequinox moeten zijn. Maar de baan van de aarde om de zon maakt het soms wat ingewikkelder. Daardoor is het precieze tijdstip waarop de zon recht boven de evenaar staat, komend jaar al op 20 maart om 22.58 uur.
Met de VOGIN-IP-lezing trekken we ons daar echter niets van aan. Die begint gewoon op 21 maart om 9.30 uur. En voor ons is dát het begin van de lente.

Automatisch gegenereerde rapteksten op Lowlands


Deze zomer werd op Lowlands een wetenschappelijk experiment uitgevoerd. Medewerkers van het Meertens Instituut, in samenwerking met de Universiteit van Antwerpen, hadden een computerprogramma met behulp van Machine Learning geleerd om rapteksten te genereren. De vraag is dan natuurlijk hoe je kunt meten hoe goed een computerprogramma zo’n taak uitvoert. In een geval als dit is de vraag of het wel of geen goede raptekst is, niet eenvoudige objectief met JA of NEE te beantwoorden. Maar op Lowlands zijn natuurlijk wel een heleboel rap- en hiphop-enthousiasten bij elkaar, aan wie je kunt vragen of ze denken dat een op het scherm getoonde raptekst door een mens of door een machine gemaakt is. Dat is in feite een variant op de klassieke Turing-test: is kunstmatige intelligentie al zo goed dat een mens niet meer kan bepalen of hij te maken heeft met een computer of met een ander mens aan de andere kant van het beeldscherm. Deze kunstmatig intelligente rapper had dan ook de naam MC Turing gekregen.
Wie het zelf ook eens wil uitproberen, kan dat nog steeds doen op https://deep-flow.nl/ (waarbij het “deep” al aangeeft dat diepe neurale netwerken zijn gebruikt om het programma te leren rappen). Je krijgt daar dan vragen voorgelegd waarbij je hetzij moet kiezen of een tekst door een mens of door een machine is gemaakt, hetzij welk van twee getoonde teksten door een echte rapper is geschreven.
Folgert Karsdorp die dit project leidde, zal op de VOGIN-IP-lezing meer over de opzet en de werking van deze rapgenerator vertellen.