De workshops


De inschrijvingen voor de workshops lopen heel wisselend. Via andere media hadden we al laten weten dat één sessie van één van de workshops nu al is volgeboekt. Bij de andere sessie is gelukkig nog wel plaats. In het aanmeldingsformulier zie je vanzelf wel welke dat is. Daarbij hadden we ook gemeld dat bij de andere negen workshops voorlopig nog wel voldoende plaats is. Maar wat daar niet bij stond, was dat bij vier van die workshops de inschrijvingen juist onvoorzien blijven achterlopen. Omdat de onderwerpen van die workshops interessant (en belangrijk!) genoeg zijn, willen we ze nog even extra onder de aandacht brengen – of aan jullie opdringen zo je wilt – voordat we noodgedwongen zouden moeten besluiten een of twee daarvan te annuleren.

  • In de eerste plaats is dat de workshop over linked (open) data. Daar hebben we vorige week al een blogpost aan gewijd onder de titel “A LOD of triples“. Met daarbij als teaser de uitroep van Tim Berners Lee “RAW DATA NOW!”, waarmee hij het onderwerp destijds onder de aandacht bracht. Als je na deze workshop meer over linked data weet, kun je dus eindelijk aan die uitroep gehoor geven.
  • rawdatanow
    De andere drie onderwerpen zijn:

  • “Zoeken naar PPPP”. Met dat acroniem omschrijven Jeroen Bosman en Bianca Kramer de materiaaltypen posters, presentaties, preprints en proposals. Die zijn van toenemend belang om op de hoogte te blijven van wat zich aan de “research frontier” afspeelt. En gewoon met Google zijn die previews (een vijfde P) van nieuwe ontwikkelingen in de wetenschap niet zo makkelijk te vinden. Daarom wordt in deze workshop gekeken of er zoektools zijn waarmee dat beter kan, en worden die uitgeprobeerd.
  • “Data analyse”. In een praktische workshop laat Frank Huysmans je kennismaken met statistische analyse tools die hij ook met zijn studenten bij de UvA gebruikt. Dat zijn de open source pakketten JASP en R. Deze workshop wordt zeker niet alleen “knoppen drukken”, want je krijgt ook te horen wat je echt moet weten voordat je met statistische analyses begint. Daarnaast krijg je, zoals Frank schrijft, “al doende te maken met de grootste valkuilen voor de beginnende data-analist”.
  • “Knowledge Graphs”. Deze techniek wordt allerwege gezien als veelbelovende uitbreiding en opvolger van taxonomieën en thesauri. Informatie en kennis is daarmee nog weer beter toegankelijk te maken, ook in combinatie met machine learning. Merkwaardigerwijs lijkt er bij Nederlandse informatieprofessionals veel minder aandacht voor te zijn dan in het Angelsaksische en Duitse taalgebied. Het klinkt misschien ook wat ingewikkeld met begrippen als entiteiten, klassen, predikaten en knopen. Maar eigenlijk is het een heel natuurlijke manier om concepten en hun onderlinge relaties te beschrijven en te visualiseren, zoals in deze workshop zal blijken.
  • Als dit nog niet voldoende redenen waren om je voor tenminste één van deze workshops aan te melden, dan weten wij het ook niet meer …..

    A LOD of triples


    Hopelijk heb je al eerder van LOD gehoord en van de Linked Open Data cloud. Zo niet, dan zie je hierboven hoe die wolk eruit ziet. Althans hoe hij er in maart 2019 uitzag, want die wolk groeit nog steeds. Niet dat er in dit formaat al veel aan die wolk te zien valt, want 1239 datasets met daartussen 16147 links, zijn niet zo makkelijk inzichtelijk in een enkel blogpost-plaatje te verwerken. En zelfs als je een klein stukje uit het centrum van die wolk uitvergroot, zie je daar nog altijd niet heel veel aan en is het nog altijd moeilijk leesbaar. Als je goed kijkt, kun je wat rechtsboven het centrum – waar de meeste links heen gaan – wel de DBpedia onderscheiden, de gestructureerde feitenverzameling die uit de Wikipedia is afgeleid. En wat meer naar linksonder Wikidata, een runner-up die als databron snel in belang toeneemt.


    En de rest zijn datasets van allerlei verschillende organisaties die hun gegevens op gestandaardiseerde wijze vrij via internet beschikbaar stellen. Die 1239 in de wolk afgebeelde datasets zijn dan nog alleen diegenen waar tenminste 1000 tripels – losse feiten – inzitten. In die hele cloud zitten naar schatting nu al meer dan 150 miljard tripels. Uit de animatie hieronder kun je een aardige indruk krijgen hoe die cloud gegroeid is, van de eerste 12 datasets in 2007 tot de 300 die er in in 2011 waren. Toen zijn ze maar opgehouden dit soort bewegende plaatjes te maken. Intussen zijn het er nog weer ruim 4x zoveel.

    Misschien goed in dit verband nog even te memoreren dat het idee van Linked Open Data ook uit de koker van Tim Berners Lee is gekomen. Hoewel het al een paar jaar broedde, kwam hij er in een TED-lezing in 2009 echt mee naar buiten en maakte hij duidelijk dat hij meer data beschikbaar wilde hebben door een hele zaal in Long Beach (Californië) uit volle borst te laten scanderen
    “RAW DATA NOW! RAW DATA NOW! …”
    Intussen is wel duidelijk dat die ruwe data er inderdaad in overvloed gekomen zijn.

    Weet je nog niet echt wat tripels zijn en wat linked data is? En heb je eerdere workshops gemist waarin dat aan de orde kwam? Dan zul je je nu zeker moeten aanmelden voor de workshop van Hugo Benne. Want daar worden die begrippen uitgelegd en kom je te weten hoe dat allemaal werkt. En vooral ook wat je er aan kunt hebben, hoe je er gebruik van kunt maken en hoe je als organisatie eigen data kunt bijdragen (en dus nog steeds gehoor kunt geven aan die oproep van Tim Berners Lee van elf jaar geleden).

    rawdatanow

    Workshops: wie is wie


    Even een puzzeltje wie wie is? Dit zijn 12 docenten die op 19 maart 10 workshops verzorgen.
    Wellicht wil je daar al meer over weten, om goed voorbereid te zijn op de keuzes die je binnenkort moet maken als de officiële inschrijving voor #voginip begint. HIER kun je al een sneak preview krijgen van alle op dit moment bekende workshops.
    Of wordt het straks toch gewoon de dobbelsteen?

    Factchecking bij #voginip

    Dit filmpje met interviews en uitspraken rond het thema factchecking en fake-nieuws (4:36 minuten met o.a. Christiaan Triebert en Alexander Pleijter) werd opgenomen tijdens de VOGIN-IP-lezing 2018. Het geeft nog altijd een goede impressie van de zaken waarmee zowel Alexander als Christiaan zich ook nu nog bezig houden. Bovendien geven zij beiden komend jaar ook weer acte de présence op de VOGIN-IP-lezing. Christiaan verzorgt een keynote, nu met voorbeelden uit de praktijk bij zijn huidige werkgever, de New York Times (zie bijv. deze video en deze web-publicatie). Alexander verzorgt, vanwege eerder succes, opnieuw een workshop “Zo word je factchecker”.

    PS: … en wie wil terugzien hoe bij Bellingcat nieuws en feiten ontdekt worden, moet nog maar eens de VPRO documentaire “Bellingcat – Truth in a post-truth world” terugkijken, die vorige week in New York een Emmy Award won. In die film zie je Christiaan ook een aantal keren langskomen.

    PS2: Er zijn trouwens nog meer filmpjes van #voginip-2018, die first-time-visitors alvast een goede indruk geven hoe het eraan toe pleegt te gaan bij de VOGIN-IP-lezing.

    Geld voor Nieuwscheckers


    Factchecking is al een paar jaar een hot topic bij de VOGIN-IP-lezing. Al voor het derde jaar hebben we een drukbezochte workshop over dit onderwerp. Dit jaar weer te verzorgen door Alexander Pleijter. Hij is ook één van de drijvende krachten achter Nieuwscheckers, het factcheckproject van de afdeling Journalistiek en Nieuwe Media van de Universiteit Leiden.
    Rond de komende Europese verkiezingen willen Alexander Pleijter en Peter Burger de factcheck-activiteiten met Nieuwscheckers nu wat stelselmatiger kunnen aanpakken. Want, zoals zij zelf zeggen:

    Op 23 mei zijn de verkiezingen voor het Europees parlement. Ook dan willen we graag volle bak uitspraken checken van politici. En van anderen die zich mengen in het publieke debat. Omdat het voor verkiezingen heel belangrijk is om te weten of het klopt wat er allemaal beweerd wordt. Het is naar ons idee essentieel voor een gezonde democratie.

    En daarvoor is een meer solide financiële basis nodig. Daarom is de Universiteit Leiden een crowdfunding-initiatief gestart. Of je al dan niet op 21 maart naar Alexander’s workshop gaat, we roepen je op in elk geval ook wat te doneren. Want je ziet hierboven dat er nog wel wat bijdragen nodig zijn om op 2 april hun streefbedrag van €9795 te halen. Vanuit een mogelijk voordelig saldo van de VOGIN-IP-lezing zullen wie in elk geval ook wat bijdragen.

    SEO voor IPers

    CC @aaranged

    Zoekmachineoptimalisatie (in het Engels SEO) wordt vaak gezien als iets voor marketingmensen. Toch was daar ook voor informatieprofessionals altijd wel al iets te halen. Zo zochten die SEO-mensen druk naar de factoren die Google gebruikt voor het ranken van zoekresultaten. En van die factoren wil je als zoekexpert ook wel graag wat weten. Bovendien zaten er omgekeerd informatieprofessionele aspecten aan het bepalen van de termen waarop je wil dat je website gevonden wordt of bij welke zoekwoorden Google jouw site als advertentie moet tonen.

    De laatste jaren is die band nog veel sterker geworden. Zoekmachines, met Google voorop, zetten erop in om zo veel mogelijk al concrete antwoorden te geven op zoekvragen. Dat kan onder meer door in de zoekresultaten (in de SERP) al feitelijke gegevens uit de gevonden webpagina’s te tonen, in de vorm van zogenaamde rich results (vroeger rich snippets). Het kan ook in de vorm van “featured snippets” of “answer boxes“, aan websites ontleende blokjes tekst met uitleg of antwoord bij je zoekvraag, die Google steeds vaker boven de gewone zoekresultaten laat zien. Dus op positie 0 – helemaal het summum voor een SEOer.

    Daarvoor is nodig dat Google weet wat de aard of betekenis van informatie in webpagina’s is. En daarvoor helpt als in die webpagina’s al gestructureerde informatie – “structured data” – wordt toegevoegd. In feite een variant op de metadata en ontsluiting waar informatieprofessionals zich al van oudsher mee bezig houden. Schema.org is het schema of de ontologie die daarvoor steeds meer gebruikt wordt en die – belangrijker nog – ook door zoekmachines als Google, Bing en Yandex begrepen wordt. Met entities en hun properties beschrijven ze in feite de inhoud van een webpagina in de vorm van RDF tripels. Er zijn intussen al vele miljarden pagina’s met dergelijke codering.

    Een paar voorbeelden van soorten documenten en van gegevens die daarbinnen herkend worden, zijn factchecks (die Google daardoor hoger laat scoren), Q&A pagina’s, datasets, recepten, reviews en ratings, openingstijden, bedrijfsnamen, producten, personen, enz. Wie meer wil weten kan bijvoorbeeld deze gids bekijken: https://yoast.com/structured-data-schema-ultimate-guide/

    OF:   je kan natuurlijk naar de workshop van Hugo Benne gaan, die op de VOGIN-IP-lezing “SEO voor IPers” behandelt.

    Hoezo een knowledge graph?

    Dat inhoudelijke ontsluiting nuttig is om informatie makkelijker vindbaar te maken voor klanten of voor andere geïnteresseerden, dat weet elke IP’er wel. Dat je daarvoor een taxonomie of een thesaurus kunt gebruiken is niets nieuws. Met een Knowledge Graph ligt dat nog wat anders. Vaak wordt zoiets nog gezien als het speeltje van Google, waarmee ze proberen concrete antwoorden op onze zoekvragen te geven. En eigenlijk ook een beetje als een tech-hype.
    Toch zijn er steeds meer organisaties die hun eigen Enterprise Knowledge Graph ontwikkelen, omdat ze daar allerlei voordelen in zien. En die voordelen variëren van betere toegankelijkheid van hun informatie tot het krijgen van beter overzicht over hun eigen producten en de onderlinge relaties daartussen. Het is dus niet voor niets dat in ons programma zowel een lezing als een workshop aan dit onderwerp gewijd zijn.

    In de workshop van Joyce van Aalten en Daphne Shinn leer je niet alleen hoe een Knowledge Graph werkt, maar ook hoe je er zelf een maakt – hands-on. Heel praktisch gericht dus.
    In de lezing van Paula Kassenaar gaat het er vooral om hoe bij Zalando zo’n Knowledge Graph gebruikt wordt. Zowel ten behoeve van de klanten, zodat die makkelijker de producten kunnen vinden waar ze in geïnteresseerd zijn, als ten behoeve van het bedrijf zelf, om alle informatie over haar producten bij de hand te hebben. En uiteraard komt ook aan de orde hoe ze dat bij Zalando hebben aangepakt en hoe daar de graph wordt onderhouden.
    Deze twee invalshoeken kun je ook nog combineren door ‘s ochtends de lezingen te bezoeken en ‘s middags naar die workshop te gaan.

    Wie was Ângelo Maria Longa?


    Vorige week meldde @EvoMRI (D@niel Mietchen) op Twitter dat Wikidata intussen 7 miljard tripels bevatte en dat dezelfde dag ook het 61 miljoenste item geregistreerd was.

    Dat was een mooie update op onze eerdere blogpost over het 60 miljoenste item. Deze 61 miljoenste betrof geen ingewikkeld ATP-geassocieerd proteïne, maar de “male Brazilian entrepreneur and gambler” Ângelo Maria Longa die in 1986 was overleden.
    Voor wie meer wil weten over de inhoud van deze ook voor informatiespecialisten steeds belangrijker wordende gegevensbron, met gemiddeld ruim honderd gegevens per item (die 7 miljard tripels), moet 21 maart zeker naar de workshop van Maarten Dammers komen. Die gaat het niet alleen over Wikidata hebben, maar besteedt dan ook aandacht aan de SPARQL querytaal waarmee Wikidata (en andere linked data triple stores) doorzocht kunnen worden. En hij heeft dan zeker wat zinniger voorbeelden dan die welke in de tweet hierboven vermeld staat. Maar die query werkt overigens wel als je hem aanklikt.

    Keuzestress


    Wie naar de VOGIN-IP-lezing wil komen, moet de organisatoren daarvan wel haten. Want het is nogal pervers om beoogde bezoekers zo’n dosis keuzestress te bezorgen. Eerst al de keuze tussen lezingentracks en workshops. En dan nog: welk van die 10 workshops? Want die zien er allemaal interessant uit. Maar dat was natuurlijk ook de bedoeling van die organisatoren.
    Niettemin hebben we één van hen gevraagd zich eens in zo’n bezoeker te verplaatsen. Wat zou hij kiezen als hij met dat aanmeldformulier voor zich zat. Eigenlijk wilde hij daar geen antwoord op geven, want dan zou hij de suggestie wekken de ene workshop voor te trekken boven de andere. Maar na enig aandringen wilde hij toch wel zeggen welke onderwerpen hem persoonlijk het meest aanspraken, Waarbij zijn belangrijkste criterium was over welke onderwerpen hij vond dat hij meer zou moeten weten.
    Dan kwam bij hem op één: de workshop over Wikidata en SPARQL.
    En op twee: de workshop over het bouwen van een Knowledge Graph.
    Maar ja, over die semantische zoekmachines is natuurlijk ook wel leuk, of wat meer over SEO weten, en kunnen factchecken, of ….
    En als hij dan een workshop koos, dan kon hij misschien weer niet naar Karsdorp’s lezing over de rap-generator of naar die over Zalando’s Knowledge Graph.
    Zelfs bij deze gefingeerde keuzesituatie sloeg bij hem de stress al onbarmhartig toe.
    Op basis van deze ervaring bieden de organisatoren u dus hun nederige excuses aan voor het veroorzaken van zoveel keuzestress.

    Spam clans uncovered


    De Leidse nepnieuwsonderzoeker Peter Burger heeft samen met een Belgische collega, Maarten Schenk, onderzoek gedaan naar een Macedonisch nepnieuwsnetwerk. Op de eigen website Nieuwscheckers zijn de resultaten van dat onderzoek gerapporteerd, maar ook nos.nl heeft er uitgebreid aandacht aan besteed. Van Macedonische tieners was al eerder bekend dat ze tijdens de Amerikaanse presidentsverkiezingen via allerlei nepsites fakenieuwsberichten (her)verspreidden om daar door advertentie-inkomsten dik geld aan te verdienen. Ditmaal gaat het om een familie- en vriendenkring van meer middelbare leeftijd die ditzelfde verdienmodel exploiteerde. Volgens Peter Burger wordt de kern gevormd door twee mannen die een baan bij het Macedonische leger hebben (of hadden) en dit er als aardige bijverdienste bijdoen, met medewerking van wat familie en kennissen. Ook hier gaat het om berichten die van elders gekopieerd worden, zodat hun beperkte actieve kennis van het Engels geen probleem vormt. Via Facebook en Twitter hebben ze een bereik van meer dan 7 miljoen reacties, comments, shares en retweets gegenereerd. Dit ondanks de – kennelijk nog niet erg doeltreffende – maatregelen die Facebook en Twitter intussen genomen hebben om de verspreiding van nepnieuws te beperken. Op grond hiervan concludeert Peter Burger’s collega Alexander Pleijter dan ook dat de internetgiganten schromelijk tekortschieten om haatzaaiend nepnieuws te weren.

    Een uitgebreid rapport van het onderzoek van Peter Burger en Maarten Schenk, met meer cijfers, is ook op Nieuwscheckers te vinden.

    Peter Burger of Alexander Pleijter (ze moeten zelf nog beslissen wie van beide) zal 21 maart op de VOGIN-IP-lezing ook een workshop “Factchecking” verzorgen.