Geld voor Nieuwscheckers


Factchecking is al een paar jaar een hot topic bij de VOGIN-IP-lezing. Al voor het derde jaar hebben we een drukbezochte workshop over dit onderwerp. Dit jaar weer te verzorgen door Alexander Pleijter. Hij is ook één van de drijvende krachten achter Nieuwscheckers, het factcheckproject van de afdeling Journalistiek en Nieuwe Media van de Universiteit Leiden.
Rond de komende Europese verkiezingen willen Alexander Pleijter en Peter Burger de factcheck-activiteiten met Nieuwscheckers nu wat stelselmatiger kunnen aanpakken. Want, zoals zij zelf zeggen:

Op 23 mei zijn de verkiezingen voor het Europees parlement. Ook dan willen we graag volle bak uitspraken checken van politici. En van anderen die zich mengen in het publieke debat. Omdat het voor verkiezingen heel belangrijk is om te weten of het klopt wat er allemaal beweerd wordt. Het is naar ons idee essentieel voor een gezonde democratie.

En daarvoor is een meer solide financiële basis nodig. Daarom is de Universiteit Leiden een crowdfunding-initiatief gestart. Of je al dan niet op 21 maart naar Alexander’s workshop gaat, we roepen je op in elk geval ook wat te doneren. Want je ziet hierboven dat er nog wel wat bijdragen nodig zijn om op 2 april hun streefbedrag van €9795 te halen. Vanuit een mogelijk voordelig saldo van de VOGIN-IP-lezing zullen wie in elk geval ook wat bijdragen.

SEO voor IPers

CC @aaranged

Zoekmachineoptimalisatie (in het Engels SEO) wordt vaak gezien als iets voor marketingmensen. Toch was daar ook voor informatieprofessionals altijd wel al iets te halen. Zo zochten die SEO-mensen druk naar de factoren die Google gebruikt voor het ranken van zoekresultaten. En van die factoren wil je als zoekexpert ook wel graag wat weten. Bovendien zaten er omgekeerd informatieprofessionele aspecten aan het bepalen van de termen waarop je wil dat je website gevonden wordt of bij welke zoekwoorden Google jouw site als advertentie moet tonen.

De laatste jaren is die band nog veel sterker geworden. Zoekmachines, met Google voorop, zetten erop in om zo veel mogelijk al concrete antwoorden te geven op zoekvragen. Dat kan onder meer door in de zoekresultaten (in de SERP) al feitelijke gegevens uit de gevonden webpagina’s te tonen, in de vorm van zogenaamde rich results (vroeger rich snippets). Het kan ook in de vorm van “featured snippets” of “answer boxes“, aan websites ontleende blokjes tekst met uitleg of antwoord bij je zoekvraag, die Google steeds vaker boven de gewone zoekresultaten laat zien. Dus op positie 0 – helemaal het summum voor een SEOer.

Daarvoor is nodig dat Google weet wat de aard of betekenis van informatie in webpagina’s is. En daarvoor helpt als in die webpagina’s al gestructureerde informatie – “structured data” – wordt toegevoegd. In feite een variant op de metadata en ontsluiting waar informatieprofessionals zich al van oudsher mee bezig houden. Schema.org is het schema of de ontologie die daarvoor steeds meer gebruikt wordt en die – belangrijker nog – ook door zoekmachines als Google, Bing en Yandex begrepen wordt. Met entities en hun properties beschrijven ze in feite de inhoud van een webpagina in de vorm van RDF tripels. Er zijn intussen al vele miljarden pagina’s met dergelijke codering.

Een paar voorbeelden van soorten documenten en van gegevens die daarbinnen herkend worden, zijn factchecks (die Google daardoor hoger laat scoren), Q&A pagina’s, datasets, recepten, reviews en ratings, openingstijden, bedrijfsnamen, producten, personen, enz. Wie meer wil weten kan bijvoorbeeld deze gids bekijken: https://yoast.com/structured-data-schema-ultimate-guide/

OF:   je kan natuurlijk naar de workshop van Hugo Benne gaan, die op de VOGIN-IP-lezing “SEO voor IPers” behandelt.

Hoezo een knowledge graph?

Dat inhoudelijke ontsluiting nuttig is om informatie makkelijker vindbaar te maken voor klanten of voor andere geïnteresseerden, dat weet elke IP’er wel. Dat je daarvoor een taxonomie of een thesaurus kunt gebruiken is niets nieuws. Met een Knowledge Graph ligt dat nog wat anders. Vaak wordt zoiets nog gezien als het speeltje van Google, waarmee ze proberen concrete antwoorden op onze zoekvragen te geven. En eigenlijk ook een beetje als een tech-hype.
Toch zijn er steeds meer organisaties die hun eigen Enterprise Knowledge Graph ontwikkelen, omdat ze daar allerlei voordelen in zien. En die voordelen variëren van betere toegankelijkheid van hun informatie tot het krijgen van beter overzicht over hun eigen producten en de onderlinge relaties daartussen. Het is dus niet voor niets dat in ons programma zowel een lezing als een workshop aan dit onderwerp gewijd zijn.

In de workshop van Joyce van Aalten en Daphne Shinn leer je niet alleen hoe een Knowledge Graph werkt, maar ook hoe je er zelf een maakt – hands-on. Heel praktisch gericht dus.
In de lezing van Paula Kassenaar gaat het er vooral om hoe bij Zalando zo’n Knowledge Graph gebruikt wordt. Zowel ten behoeve van de klanten, zodat die makkelijker de producten kunnen vinden waar ze in geïnteresseerd zijn, als ten behoeve van het bedrijf zelf, om alle informatie over haar producten bij de hand te hebben. En uiteraard komt ook aan de orde hoe ze dat bij Zalando hebben aangepakt en hoe daar de graph wordt onderhouden.
Deze twee invalshoeken kun je ook nog combineren door ‘s ochtends de lezingen te bezoeken en ‘s middags naar die workshop te gaan.

Wie was Ângelo Maria Longa?


Vorige week meldde @EvoMRI (D@niel Mietchen) op Twitter dat Wikidata intussen 7 miljard tripels bevatte en dat dezelfde dag ook het 61 miljoenste item geregistreerd was.

Dat was een mooie update op onze eerdere blogpost over het 60 miljoenste item. Deze 61 miljoenste betrof geen ingewikkeld ATP-geassocieerd proteïne, maar de “male Brazilian entrepreneur and gambler” Ângelo Maria Longa die in 1986 was overleden.
Voor wie meer wil weten over de inhoud van deze ook voor informatiespecialisten steeds belangrijker wordende gegevensbron, met gemiddeld ruim honderd gegevens per item (die 7 miljard tripels), moet 21 maart zeker naar de workshop van Maarten Dammers komen. Die gaat het niet alleen over Wikidata hebben, maar besteedt dan ook aandacht aan de SPARQL querytaal waarmee Wikidata (en andere linked data triple stores) doorzocht kunnen worden. En hij heeft dan zeker wat zinniger voorbeelden dan die welke in de tweet hierboven vermeld staat. Maar die query werkt overigens wel als je hem aanklikt.

Keuzestress


Wie naar de VOGIN-IP-lezing wil komen, moet de organisatoren daarvan wel haten. Want het is nogal pervers om beoogde bezoekers zo’n dosis keuzestress te bezorgen. Eerst al de keuze tussen lezingentracks en workshops. En dan nog: welk van die 10 workshops? Want die zien er allemaal interessant uit. Maar dat was natuurlijk ook de bedoeling van die organisatoren.
Niettemin hebben we één van hen gevraagd zich eens in zo’n bezoeker te verplaatsen. Wat zou hij kiezen als hij met dat aanmeldformulier voor zich zat. Eigenlijk wilde hij daar geen antwoord op geven, want dan zou hij de suggestie wekken de ene workshop voor te trekken boven de andere. Maar na enig aandringen wilde hij toch wel zeggen welke onderwerpen hem persoonlijk het meest aanspraken, Waarbij zijn belangrijkste criterium was over welke onderwerpen hij vond dat hij meer zou moeten weten.
Dan kwam bij hem op één: de workshop over Wikidata en SPARQL.
En op twee: de workshop over het bouwen van een Knowledge Graph.
Maar ja, over die semantische zoekmachines is natuurlijk ook wel leuk, of wat meer over SEO weten, en kunnen factchecken, of ….
En als hij dan een workshop koos, dan kon hij misschien weer niet naar Karsdorp’s lezing over de rap-generator of naar die over Zalando’s Knowledge Graph.
Zelfs bij deze gefingeerde keuzesituatie sloeg bij hem de stress al onbarmhartig toe.
Op basis van deze ervaring bieden de organisatoren u dus hun nederige excuses aan voor het veroorzaken van zoveel keuzestress.

Spam clans uncovered


De Leidse nepnieuwsonderzoeker Peter Burger heeft samen met een Belgische collega, Maarten Schenk, onderzoek gedaan naar een Macedonisch nepnieuwsnetwerk. Op de eigen website Nieuwscheckers zijn de resultaten van dat onderzoek gerapporteerd, maar ook nos.nl heeft er uitgebreid aandacht aan besteed. Van Macedonische tieners was al eerder bekend dat ze tijdens de Amerikaanse presidentsverkiezingen via allerlei nepsites fakenieuwsberichten (her)verspreidden om daar door advertentie-inkomsten dik geld aan te verdienen. Ditmaal gaat het om een familie- en vriendenkring van meer middelbare leeftijd die ditzelfde verdienmodel exploiteerde. Volgens Peter Burger wordt de kern gevormd door twee mannen die een baan bij het Macedonische leger hebben (of hadden) en dit er als aardige bijverdienste bijdoen, met medewerking van wat familie en kennissen. Ook hier gaat het om berichten die van elders gekopieerd worden, zodat hun beperkte actieve kennis van het Engels geen probleem vormt. Via Facebook en Twitter hebben ze een bereik van meer dan 7 miljoen reacties, comments, shares en retweets gegenereerd. Dit ondanks de – kennelijk nog niet erg doeltreffende – maatregelen die Facebook en Twitter intussen genomen hebben om de verspreiding van nepnieuws te beperken. Op grond hiervan concludeert Peter Burger’s collega Alexander Pleijter dan ook dat de internetgiganten schromelijk tekortschieten om haatzaaiend nepnieuws te weren.

Een uitgebreid rapport van het onderzoek van Peter Burger en Maarten Schenk, met meer cijfers, is ook op Nieuwscheckers te vinden.

Peter Burger of Alexander Pleijter (ze moeten zelf nog beslissen wie van beide) zal 21 maart op de VOGIN-IP-lezing ook een workshop “Factchecking” verzorgen.

Wikidata: feiten over meer dan 60 miljoen entiteiten


Op 20 december heeft iemand het 60 miljoenste “ding” in Wikidata ingevoerd. Wat het was zie je hierboven. De identifier Q60000000 maakt onomstotelijk duidelijk dat dit het 60 miljoenste item was. Het hoogste nummer dat ik op dit moment (vrijdag 11 januari, 15.45 uur) tegenkwam, was intussen al Q60556989 (Tehallan, een county in Ierland). Dat waren dus al 556.989 nieuwe items in drie weken (en dat ook nog in de kerstvakantie – of misschien wel “juist”). Van elk van die items in Wikidata kunnen ook allerlei eigenschappen en relaties geregistreerd worden (in het voorbeeld hierboven niet getoond).
Deze twee voorbeelden illustreren dat de talloze vrijwilligers die gegevens toevoegen, er zowel wetenschappelijke als meer algemene informatie instoppen. Met gegevens over die meer dan 60 miljoen entiteiten is dit een onuitputtelijk Linked Open Data bron, waaruit andere systemen – de Wikipedia voorop – feitelijke informatie kunnen halen.
Zo maakt bijvoorbeeld het onderzoeksportaal van de KB gebruik van Wikidata om in de krantenartikelen in Delpher zogenaamde named entities te identificeren en om daarover extra gegevens te kunnen presenteren. Theo van Veen maakt zich er dan ook sterk voor dat Wikidata dienst gaat doen als een soort universele gemeenschappelijke thesaurus en de Wikidata-identifier (dat Q-nummer) als DE identifier voor entiteiten. Hij schreef daarover al eerder in IP. Op KNVI’s Smart Humanity Event had hij er in december een lezing over en in de KB onderzoekskroniek in het decembernummer van IP kwam het ook al ter sprake.

Maar hoe haal je nou gegevens uit die gigantische vergaarbak met data. Om in Linked Open Data bronnen zoals Wikidata te zoeken, is een speciale querytaal ontwikkeld: SPARQL. Die naam is een zogenaamd recursief acroniem voor “SPARQL Protocol and RDF Query Language”. SPARQL is best een ingewikkelde querytaal, maar er zijn gelukkig wel wat tooltjes die kunnen helpen om dergelijke queries te formuleren. En ook voor informatieprofessionals is het zeker nuttig er iets van te weten. Zeker als je wilt bijdragen of ontlenen aan Wikidata. Maar hoe kun je iets van SPARQL leren?
Daar komt dan eindelijk de aap uit onze mouw: op 21 maart hebben we daar namelijk een workshop voor. Maarten Dammers die vorig jaar al een leuke lezing over dit onderwerp gaf, verzorgt dit jaar een workshop waarin je zelf met Wikidata en SPARQL aan de gang kunt. Waar wacht je dus nog op?

Alexander Pleijter op de radio

Behalve dat Alexander Pleijter op de VOGIN-IP-lezing workshops Factchecking verzorgt, is hij vanmiddag ook op de radio bij het VPRO-programma Argos, om het over factchecking en nepnieuws te hebben.

Uit de beschrijving op de Argos-site:

“Wat is hij eigenlijk, wetenschapper of (onderzoeks)journalist? Geen van beide helemaal, zegt hij zelf. Wel is Alexander Pleijter, universitair docent Journalistiek en nieuwe media aan de Universiteit Leiden, specialist op het gebied van bronnengebruik van journalisten. Lang voordat fakenews een scheldwoord werd, trainde hij al studenten in het ontmaskeren van desinformatie. En dat doet hij nog steeds. Alexander Pleijter is een luis in de pels van de journalistiek en in Argos praten we met hem onder meer over de toekomst van het vak in tijden van ongebreidelde verspreiding van nepnieuws.”

De workshops


Hier al vast een overzicht van alle workshops waaruit je voor 21 maart kunt kiezen. Hoewel aanmelding daarvoor pas vanaf volgende week mogelijk is, kun je nu al vast over de moeilijke keuze gaan nadenken …..

  • Joyce van Aalten
  • Daphne Shinn
  • Enterprise Knowledge Graphs
  • Hugo Benne
  • Zoekmachinemarketing
  • Guus van den Brekel
  • Hoe kom ik nu aan de full-text?
  • Maarten Dammers
  • Wikidata en SPARQL
  • Ellen Fest
  • Hilde van Zeeland
  • Zoeken naar onderzoeksdata
  • Heather Hedden
  • Taxonomy design best practices
  • Frank Huysmans
  • Politiek en informatie – Informatie, data en macht in de 21e eeuw
  • Bianca Kramer
  • Jeroen Bosman
  • Semantische zoekmachines voor wetenschap

  • Alexander Pleijter of Peter Burger
  • Zo word je factchecker
  • Eric Sieverts
  • Automatisch metadateren en categoriseren