6 x P   of   “wat het Coronavirus met ons vak te maken heeft”

Door Jeroen Bosman en Bianca Kramer

Het genoom van het 2019-nCoV (Corona) virus

Dagelijks staan we versteld van de ingrijpende lokale en wereldwijde gevolgen van een nieuw virus. Virologische en epidemiologische vragen hebben snel een antwoord nodig, maar ook logistieke, economische en politiek-culturele kwesties rond het Coronavirus zijn dringend. Een half jaar wachten op antwoorden en inzichten kan niet. Elke dag scheelt. Bij crises rond sprinkhanenplagen of bosbranden is de behoefte aan snelle inzichten niet veel minder nijpend. Zelfs iets relatief traags als klimaatverandering en de effecten daarvan vraagt om inzichten op een termijn van maanden, niet van jaren. Ook zijn het allemaal complexe vraagstukken met veel verbanden en wereldwijde samenhangen die vragen om analyse van veel data en om samenwerking daarbij. De samenleving vraagt om meer en sneller onderzoek, waarbij de complexiteit en grootschaligheid dwingt tot samenwerking.

Corona philogenetic spread

Snel, vroeg en open
In dit soort omstandigheden kijken onderzoekers naar mogelijkheden om meer onderzoek te doen, en de uitkomsten daarvan in een eerder stadium te delen. Precies dat hebben we de afgelopen weken gezien: data van het genoom [boven] en van de verspreiding [rechts] worden online gezet.
Scripts om die data te analyseren worden gedeeld, vroege versies van papers (preprints) [onder] worden publiek gemaakt nog voor ze worden ingestuurd naar een wetenschappelijk tijdschrift. En dat alles openlijk, zodat anderen feedback kunnen geven of kunnen voortbouwen op (voorlopige) resultaten.

Coronavirus preprints in MedArXiv

Overigens gebeurt dit al een aantal jaren en niet alleen bij crises als nu rond Corona of eerder bij Ebola en Zika. Voor vrijwel al het onderzoek zijn er duidelijke voordelen van vroeg en open delen, zowel voor de onderzoeker zelf (vroege feedback, foutdetectie) als voor collega-onderzoekers (vermijden dubbel werk, gebruik van laatste data en inzichten) en de samenleving (toegang tot de meest actuele inzichten).

Zoeken, status en toepassingen
Op vele tientallen websites en platforms wordt de ‘vroege wetenschap’ gedeeld en tientallen zoekmachines helpen dat te vinden. Het gaat om, in volgorde van “verschijnen”: subsidieaanvragen voor onderzoek, projectomschrijvingen, data, code, posters, presentaties en preprints. Voor een deel zijn dat zaken waarvoor gespecialiseerde platforms zijn, voor een deel staat het in universitaire repositories of bij uitgevers. Jeroen Bosman heeft onlangs een start gemaakt om uit te zoeken welke platforms en zoekmachines dit soort materiaal vindbaar maken. Een verkleind beeld van de samenvatting daarvan zie je hieronder, met hier een link naar een grotere weergave en ook een link naar de beginpagina van de echte spreadsheet.

Vinden is echter niet de enige vraag rond dit soort vroege wetenschap. We moeten ook nadenken over de status van het materiaal. Waar is het voor bedoeld, wat voor checks heeft het ondergaan, wat voor rol speelt het in wetenschappelijke communicatie, en wat kunnen ‘derden’ ermee?

Alles met een P
In de workshop “Verkennen van de research frontier” gaan we naar al deze vormen van vroege wetenschap zoeken, kijken hoe simpel of gemakkelijk dat gaat en uitzoeken wat we met het materiaal kunnen doen. Heel toevallig gaat het (in het Engels) om allemaal documenttypen die met een P beginnen;  6 x P  dus:

  • Profielen die aangeven op welk terrein een onderzoeker actief is
  • Proposals die aangeven aan wat voor onderzoek men wil gaan werken en waarvoor men dus financiering zoekt
  • Projecten die beschrijven waaraan men nu werkt
  • Posters die vroege uitkomsten tonen
  • Presentaties die vroege uitkomsten bespreken
  • Preprints, de vroege versies van papers

We durven te garanderen dat vrijwel iedereen een of twee, misschien zelfs drie of vier interessante nieuwe zoekmachines en tools zal leren kennen, waarmee de steeds belangrijker wordende vroege wetenschap gevonden kan worden.
Lens anyone? Base? Core? OpenAire? OSF? Share?

Virus scan


Als eye-catcher stond boven onze vorige blogpost een weergave van de relaties tussen auteurs/publicaties over het nieuwe Corona-virus, zoals dat met de Scholia-applicatie uit Wikidata-gegevens gegenereerd was. Nog maar vijf dagen later zag het beeld van dit hot topic er al weer heel anders uit, zoals je hierboven ziet. Wie wil weten hoe deze crisis zich verder ontwikkelt, voorzover dat zijn weerslag vindt in de wetenschappelijke literatuur, hoeft nu alleen maar op dit plaatje te klikken. Dat activeert de link voor een verse Scholia-actie voor dit onderwerp. Daarvoor hoef je dus niet eens deel te nemen aan de workshop van Egon Willighagen. Al is het natuurlijk veel leuker om dat wel te doen, want dan zul je zien dat er met Wikidata, Wikicite en Scholia nog veel meer kan dan deze “virus-scan”. </einde STER-spot>

Wikicite en Scholia

Bij de ruim 70 miljoen items die in Wikidata zitten, is een grote verscheidenheid aan soorten entiteiten. Dat loopt van vogelsoorten tot voetbalclubs, van wetenschappers tot woestijnen, van virussen tot violisten en van schilderijen tot scheikundige verbindingen.
Waarvan er intussen ook al veel inzit, zijn wetenschappelijke publicaties. Niet die publicaties zelf, maar gegevens daarover. Een soort alternatieve catalogus dus, waarin de publicaties gelinkt zijn aan allerlei gegevens en eigenschappen. Daarbij natuurlijk auteurs en onderwerpen, maar ook citatiegegevens. Naar welke andere publicaties wordt in een artikel verwezen? Voor dat laatste is zelfs een speciaal project “WikiCite” opgezet, wat tot een soort gratis citatie-index kan leiden.

Gespecialiseerde vrijwilligers uit de Wikimedia-gemeenschap voeren niet alleen – meestal geautomatiseerd – nieuwe gegevens in, maar ze bedenken ook zelf welke gegevens en welke relaties zinvol zijn om te registreren. Daarnaast ontwikkelen ze ook leuke tools om gegevens te zoeken, te analyseren en te visualiseren. Zo is er een tool Scholia, waarmee plaatjes gegenereerd kunnen worden van relaties tussen auteurs, van relaties tussen onderwerpen, van statistiek van tijdschriften, van statistiek van onderwerpen, van geografische verspreidingen en van nog veel meer.
Maar: het gaat zeker niet alleen maar om mooie plaatjes. Scholia is vooral ook een nuttig hulpmiddel om betrouwbare informatie en publicaties via Wikidata op het spoor te komen. En, anders dan bij klassieke databases en zoeksystemen, kun je zo zelf ook ontbrekende informatie en publicaties toevoegen.

in het VOGIN-IP-programma is een workshop over WikiCite en Scholia opgenomen. Egon Willighagen, onderzoeker aan de Universiteit Maastricht en fervent Wikidata-enthousiast, zal de deelnemers wegwijs maken in de mogelijkheden en zal ze laten ontdekken hoe een en ander werkt. Om je vast enthousiast te maken, zie je in deze blogpost al wat visuele voorbeelden die met Scholia gegenereerd zijn.

Nog een extra workshop !

lnworkshop
We zijn blij dat we er last-minute nog een echte zoek-workshop bij gekregen hebben. Onze sponsor LexisNexis hebben we bereid gevonden ook een workshop te verzorgen. Daarin komt specifiek aan de orde op welke manier de gevonden nieuwsberichten uit hun zoeksysteem tegenwoordig op relevantie gesorteerd worden.

NB: Wie zich al voor de VOGIN-IP-lezing heeft aangemeld en de daarbij gemaakte keuze uit het middagprogramma wil wijzigen in deze workshop, schrijve een mailtje aan info@voginip.nl

Knowledge graphs explained

Example of knowledge graph from:   Zhou, Zhixuan & Huankang, Guan & Bhat, Meghana & Hsu, Justin. (2019). Fake News Detection via NLP is Vulnerable to Adversarial Attacks. 11th International Conference on Agents and Artificial Intelligence (https://arxiv.org/pdf/1901.09657)

Als je heel theoretisch gaat uitleggen wat een knowledge graph is – zelfs zonder er de hogere wiskunde van de grafentheorie bij te halen – klinkt dat misschien een beetje ingewikkeld, met begrippen als RDF-tripels, entiteiten en predikaten, URI’s en literals, knopen en pijlen, klassen en individuals. Maar in feite is het een nogal simpel concept, zeker als je het bijvoorbeeld met relationele databases vergelijkt. In een recent artikel in Towards Datascience werd dat door Favio Vázquez aardig verwoord:

Mensen denken niet in tabellen (zoals in traditionele relationele databases), maar graphs begrijpen ze wel meteen. Als je de structuur van een knowledge graph op een whiteboard tekent, spreekt het voor de meeste mensen vanzelf wat het voorstelt. *

 
Zo’n plaatje met bolletjes waar woorden of begrippen bijstaan en waartussen pijltjes zijn getekend, die de relaties tussen die woorden aangeven, is inderdaad niet zo ingewikkeld. Zo zal het plaatje boven deze blogpost weinig uitleg behoeven. Toch zul je wel een paar dingen moeten weten wanneer je zelf een systeem wilt ontwerpen en bouwen, dat zulke plaatjes en de daarbij gewenste functionaliteit oplevert. Enerzijds zul je wat van het jargon moeten kennen, waarvan we hierboven al voorbeelden gaven, en anderzijds ook wel wat van de techniek weten, al zal de meeste software veel daarvan automatisch genereren. En verder blijken sommige van de regeltjes, conventies en best practices die we kennen van het bouwen van databases en van taxonomieën en thesauri, ook hierbij goed van pas te komen.

Wil je in twee uurtjes snel wat inzicht krijgen in de basisprincipes van knowledge graphs en er ook al wat praktische ervaring mee opdoen, dan is daar bij de VOGIN-IP-lezing een workshop voor. Die biedt een beetje theorie en vooral veel zelf doen. Daarbij komt natuurlijk ook aan de orde wat voor extra functionaliteit dit mogelijk maakt. En dat gaat wel wat verder dan wat RDBMS’en en taxonomieën hun gebruikers bieden, wanneer die ergens naar op zoek zijn.

In het komende nummer van IP staat trouwens toevallig een artikel waarin Joyce van Aalten aan de hand van een praktisch voorbeeld uitlegt wat Knowledge Graphs zijn, hoe ze werken en wat je er aan hebt. Dat kun je ook mooi nog even lezen voordat je naar deze workshop komt.

Workshop: “Knowledge Graphs: wat het zijn en hoe je ze maakt” – docent: Eric Sieverts

___________________

*   Originele tekst: “People don’t think in tables (like in traditional RDBMS), but they do immediately understand graphs. When you draw the structure of a knowledge graph on a whiteboard, it is obvious what it means to most people.”

De workshops


De inschrijvingen voor de workshops lopen heel wisselend. Via andere media hadden we al laten weten dat één sessie van één van de workshops nu al is volgeboekt. Bij de andere sessie is gelukkig nog wel plaats. In het aanmeldingsformulier zie je vanzelf wel welke dat is. Daarbij hadden we ook gemeld dat bij de andere negen workshops voorlopig nog wel voldoende plaats is. Maar wat daar niet bij stond, was dat bij vier van die workshops de inschrijvingen juist onvoorzien blijven achterlopen. Omdat de onderwerpen van die workshops interessant (en belangrijk!) genoeg zijn, willen we ze nog even extra onder de aandacht brengen – of aan jullie opdringen zo je wilt – voordat we noodgedwongen zouden moeten besluiten een of twee daarvan te annuleren.

  • In de eerste plaats is dat de workshop over linked (open) data. Daar hebben we vorige week al een blogpost aan gewijd onder de titel “A LOD of triples“. Met daarbij als teaser de uitroep van Tim Berners Lee “RAW DATA NOW!”, waarmee hij het onderwerp destijds onder de aandacht bracht. Als je na deze workshop meer over linked data weet, kun je dus eindelijk aan die uitroep gehoor geven.
  • rawdatanow
    De andere drie onderwerpen zijn:

  • “Zoeken naar PPPP”. Met dat acroniem omschrijven Jeroen Bosman en Bianca Kramer de materiaaltypen posters, presentaties, preprints en proposals. Die zijn van toenemend belang om op de hoogte te blijven van wat zich aan de “research frontier” afspeelt. En gewoon met Google zijn die previews (een vijfde P) van nieuwe ontwikkelingen in de wetenschap niet zo makkelijk te vinden. Daarom wordt in deze workshop gekeken of er zoektools zijn waarmee dat beter kan, en worden die uitgeprobeerd.
  • “Data analyse”. In een praktische workshop laat Frank Huysmans je kennismaken met statistische analyse tools die hij ook met zijn studenten bij de UvA gebruikt. Dat zijn de open source pakketten JASP en R. Deze workshop wordt zeker niet alleen “knoppen drukken”, want je krijgt ook te horen wat je echt moet weten voordat je met statistische analyses begint. Daarnaast krijg je, zoals Frank schrijft, “al doende te maken met de grootste valkuilen voor de beginnende data-analist”.
  • “Knowledge Graphs”. Deze techniek wordt allerwege gezien als veelbelovende uitbreiding en opvolger van taxonomieën en thesauri. Informatie en kennis is daarmee nog weer beter toegankelijk te maken, ook in combinatie met machine learning. Merkwaardigerwijs lijkt er bij Nederlandse informatieprofessionals veel minder aandacht voor te zijn dan in het Angelsaksische en Duitse taalgebied. Het klinkt misschien ook wat ingewikkeld met begrippen als entiteiten, klassen, predikaten en knopen. Maar eigenlijk is het een heel natuurlijke manier om concepten en hun onderlinge relaties te beschrijven en te visualiseren, zoals in deze workshop zal blijken.
  • Als dit nog niet voldoende redenen waren om je voor tenminste één van deze workshops aan te melden, dan weten wij het ook niet meer …..

    A LOD of triples


    Hopelijk heb je al eerder van LOD gehoord en van de Linked Open Data cloud. Zo niet, dan zie je hierboven hoe die wolk eruit ziet. Althans hoe hij er in maart 2019 uitzag, want die wolk groeit nog steeds. Niet dat er in dit formaat al veel aan die wolk te zien valt, want 1239 datasets met daartussen 16147 links, zijn niet zo makkelijk inzichtelijk in een enkel blogpost-plaatje te verwerken. En zelfs als je een klein stukje uit het centrum van die wolk uitvergroot, zie je daar nog altijd niet heel veel aan en is het nog altijd moeilijk leesbaar. Als je goed kijkt, kun je wat rechtsboven het centrum – waar de meeste links heen gaan – wel de DBpedia onderscheiden, de gestructureerde feitenverzameling die uit de Wikipedia is afgeleid. En wat meer naar linksonder Wikidata, een runner-up die als databron snel in belang toeneemt.


    En de rest zijn datasets van allerlei verschillende organisaties die hun gegevens op gestandaardiseerde wijze vrij via internet beschikbaar stellen. Die 1239 in de wolk afgebeelde datasets zijn dan nog alleen diegenen waar tenminste 1000 tripels – losse feiten – inzitten. In die hele cloud zitten naar schatting nu al meer dan 150 miljard tripels. Uit de animatie hieronder kun je een aardige indruk krijgen hoe die cloud gegroeid is, van de eerste 12 datasets in 2007 tot de 300 die er in in 2011 waren. Toen zijn ze maar opgehouden dit soort bewegende plaatjes te maken. Intussen zijn het er nog weer ruim 4x zoveel.

    Misschien goed in dit verband nog even te memoreren dat het idee van Linked Open Data ook uit de koker van Tim Berners Lee is gekomen. Hoewel het al een paar jaar broedde, kwam hij er in een TED-lezing in 2009 echt mee naar buiten en maakte hij duidelijk dat hij meer data beschikbaar wilde hebben door een hele zaal in Long Beach (Californië) uit volle borst te laten scanderen
    “RAW DATA NOW! RAW DATA NOW! …”
    Intussen is wel duidelijk dat die ruwe data er inderdaad in overvloed gekomen zijn.

    Weet je nog niet echt wat tripels zijn en wat linked data is? En heb je eerdere workshops gemist waarin dat aan de orde kwam? Dan zul je je nu zeker moeten aanmelden voor de workshop van Hugo Benne. Want daar worden die begrippen uitgelegd en kom je te weten hoe dat allemaal werkt. En vooral ook wat je er aan kunt hebben, hoe je er gebruik van kunt maken en hoe je als organisatie eigen data kunt bijdragen (en dus nog steeds gehoor kunt geven aan die oproep van Tim Berners Lee van elf jaar geleden).

    rawdatanow

    Workshops: wie is wie


    Even een puzzeltje wie wie is? Dit zijn 12 docenten die op 19 maart 10 workshops verzorgen.
    Wellicht wil je daar al meer over weten, om goed voorbereid te zijn op de keuzes die je binnenkort moet maken als de officiële inschrijving voor #voginip begint. HIER kun je al een sneak preview krijgen van alle op dit moment bekende workshops.
    Of wordt het straks toch gewoon de dobbelsteen?

    Factchecking bij #voginip

    Dit filmpje met interviews en uitspraken rond het thema factchecking en fake-nieuws (4:36 minuten met o.a. Christiaan Triebert en Alexander Pleijter) werd opgenomen tijdens de VOGIN-IP-lezing 2018. Het geeft nog altijd een goede impressie van de zaken waarmee zowel Alexander als Christiaan zich ook nu nog bezig houden. Bovendien geven zij beiden komend jaar ook weer acte de présence op de VOGIN-IP-lezing. Christiaan verzorgt een keynote, nu met voorbeelden uit de praktijk bij zijn huidige werkgever, de New York Times (zie bijv. deze video en deze web-publicatie). Alexander verzorgt, vanwege eerder succes, opnieuw een workshop “Zo word je factchecker”.

    PS: … en wie wil terugzien hoe bij Bellingcat nieuws en feiten ontdekt worden, moet nog maar eens de VPRO documentaire “Bellingcat – Truth in a post-truth world” terugkijken, die vorige week in New York een Emmy Award won. In die film zie je Christiaan ook een aantal keren langskomen.

    PS2: Er zijn trouwens nog meer filmpjes van #voginip-2018, die first-time-visitors alvast een goede indruk geven hoe het eraan toe pleegt te gaan bij de VOGIN-IP-lezing.

    Geld voor Nieuwscheckers


    Factchecking is al een paar jaar een hot topic bij de VOGIN-IP-lezing. Al voor het derde jaar hebben we een drukbezochte workshop over dit onderwerp. Dit jaar weer te verzorgen door Alexander Pleijter. Hij is ook één van de drijvende krachten achter Nieuwscheckers, het factcheckproject van de afdeling Journalistiek en Nieuwe Media van de Universiteit Leiden.
    Rond de komende Europese verkiezingen willen Alexander Pleijter en Peter Burger de factcheck-activiteiten met Nieuwscheckers nu wat stelselmatiger kunnen aanpakken. Want, zoals zij zelf zeggen:

    Op 23 mei zijn de verkiezingen voor het Europees parlement. Ook dan willen we graag volle bak uitspraken checken van politici. En van anderen die zich mengen in het publieke debat. Omdat het voor verkiezingen heel belangrijk is om te weten of het klopt wat er allemaal beweerd wordt. Het is naar ons idee essentieel voor een gezonde democratie.

    En daarvoor is een meer solide financiële basis nodig. Daarom is de Universiteit Leiden een crowdfunding-initiatief gestart. Of je al dan niet op 21 maart naar Alexander’s workshop gaat, we roepen je op in elk geval ook wat te doneren. Want je ziet hierboven dat er nog wel wat bijdragen nodig zijn om op 2 april hun streefbedrag van €9795 te halen. Vanuit een mogelijk voordelig saldo van de VOGIN-IP-lezing zullen wie in elk geval ook wat bijdragen.