#voginip goes worldwide?


Het is wel leuk dat WordPress – waarop onze website draait – precies bijhoudt hoe vaak en waarvandaan pagina’s geopend worden. Hierboven wat vorige week – inclusief weekend – verzameld is. Dat ziet er wel indrukwekkend uit, met bezoekers uit veertien landen, waarvan de helft buiten Europa. Maar allemaal bij elkaar vormen de niet-Nederlanders nauwelijks 10% van het totaal. Het zijn hoogstens wat toevalstreffers uit zoekmachines en de passerende crawlers van die zoekmachines zelf – daarom waarschijnlijk dat de VS nog redelijk hoog scoren. Er is ook nog nooit iemand uit Korea, HongKong of Mexico naar ons congres gekomen. En behalve wat zuiderburen en een keer een dame uit Portugal, hebben zich ook nooit andere Europeanen ingeschreven. Maar met al die Nederlanders krijgen we de dag gelukkig ook altijd wel vol.

6 x P   of   “wat het Coronavirus met ons vak te maken heeft”

Door Jeroen Bosman en Bianca Kramer

Het genoom van het 2019-nCoV (Corona) virus

Dagelijks staan we versteld van de ingrijpende lokale en wereldwijde gevolgen van een nieuw virus. Virologische en epidemiologische vragen hebben snel een antwoord nodig, maar ook logistieke, economische en politiek-culturele kwesties rond het Coronavirus zijn dringend. Een half jaar wachten op antwoorden en inzichten kan niet. Elke dag scheelt. Bij crises rond sprinkhanenplagen of bosbranden is de behoefte aan snelle inzichten niet veel minder nijpend. Zelfs iets relatief traags als klimaatverandering en de effecten daarvan vraagt om inzichten op een termijn van maanden, niet van jaren. Ook zijn het allemaal complexe vraagstukken met veel verbanden en wereldwijde samenhangen die vragen om analyse van veel data en om samenwerking daarbij. De samenleving vraagt om meer en sneller onderzoek, waarbij de complexiteit en grootschaligheid dwingt tot samenwerking.

Corona philogenetic spread

Snel, vroeg en open
In dit soort omstandigheden kijken onderzoekers naar mogelijkheden om meer onderzoek te doen, en de uitkomsten daarvan in een eerder stadium te delen. Precies dat hebben we de afgelopen weken gezien: data van het genoom [boven] en van de verspreiding [rechts] worden online gezet.
Scripts om die data te analyseren worden gedeeld, vroege versies van papers (preprints) [onder] worden publiek gemaakt nog voor ze worden ingestuurd naar een wetenschappelijk tijdschrift. En dat alles openlijk, zodat anderen feedback kunnen geven of kunnen voortbouwen op (voorlopige) resultaten.

Coronavirus preprints in MedArXiv

Overigens gebeurt dit al een aantal jaren en niet alleen bij crises als nu rond Corona of eerder bij Ebola en Zika. Voor vrijwel al het onderzoek zijn er duidelijke voordelen van vroeg en open delen, zowel voor de onderzoeker zelf (vroege feedback, foutdetectie) als voor collega-onderzoekers (vermijden dubbel werk, gebruik van laatste data en inzichten) en de samenleving (toegang tot de meest actuele inzichten).

Zoeken, status en toepassingen
Op vele tientallen websites en platforms wordt de ‘vroege wetenschap’ gedeeld en tientallen zoekmachines helpen dat te vinden. Het gaat om, in volgorde van “verschijnen”: subsidieaanvragen voor onderzoek, projectomschrijvingen, data, code, posters, presentaties en preprints. Voor een deel zijn dat zaken waarvoor gespecialiseerde platforms zijn, voor een deel staat het in universitaire repositories of bij uitgevers. Jeroen Bosman heeft onlangs een start gemaakt om uit te zoeken welke platforms en zoekmachines dit soort materiaal vindbaar maken. Een verkleind beeld van de samenvatting daarvan zie je hieronder, met hier een link naar een grotere weergave en ook een link naar de beginpagina van de echte spreadsheet.

Vinden is echter niet de enige vraag rond dit soort vroege wetenschap. We moeten ook nadenken over de status van het materiaal. Waar is het voor bedoeld, wat voor checks heeft het ondergaan, wat voor rol speelt het in wetenschappelijke communicatie, en wat kunnen ‘derden’ ermee?

Alles met een P
In de workshop “Verkennen van de research frontier” gaan we naar al deze vormen van vroege wetenschap zoeken, kijken hoe simpel of gemakkelijk dat gaat en uitzoeken wat we met het materiaal kunnen doen. Heel toevallig gaat het (in het Engels) om allemaal documenttypen die met een P beginnen;  6 x P  dus:

  • Profielen die aangeven op welk terrein een onderzoeker actief is
  • Proposals die aangeven aan wat voor onderzoek men wil gaan werken en waarvoor men dus financiering zoekt
  • Projecten die beschrijven waaraan men nu werkt
  • Posters die vroege uitkomsten tonen
  • Presentaties die vroege uitkomsten bespreken
  • Preprints, de vroege versies van papers

We durven te garanderen dat vrijwel iedereen een of twee, misschien zelfs drie of vier interessante nieuwe zoekmachines en tools zal leren kennen, waarmee de steeds belangrijker wordende vroege wetenschap gevonden kan worden.
Lens anyone? Base? Core? OpenAire? OSF? Share?

Virus scan


Als eye-catcher stond boven onze vorige blogpost een weergave van de relaties tussen auteurs/publicaties over het nieuwe Corona-virus, zoals dat met de Scholia-applicatie uit Wikidata-gegevens gegenereerd was. Nog maar vijf dagen later zag het beeld van dit hot topic er al weer heel anders uit, zoals je hierboven ziet. Wie wil weten hoe deze crisis zich verder ontwikkelt, voorzover dat zijn weerslag vindt in de wetenschappelijke literatuur, hoeft nu alleen maar op dit plaatje te klikken. Dat activeert de link voor een verse Scholia-actie voor dit onderwerp. Daarvoor hoef je dus niet eens deel te nemen aan de workshop van Egon Willighagen. Al is het natuurlijk veel leuker om dat wel te doen, want dan zul je zien dat er met Wikidata, Wikicite en Scholia nog veel meer kan dan deze “virus-scan”. </einde STER-spot>

Wikicite en Scholia

Bij de ruim 70 miljoen items die in Wikidata zitten, is een grote verscheidenheid aan soorten entiteiten. Dat loopt van vogelsoorten tot voetbalclubs, van wetenschappers tot woestijnen, van virussen tot violisten en van schilderijen tot scheikundige verbindingen.
Waarvan er intussen ook al veel inzit, zijn wetenschappelijke publicaties. Niet die publicaties zelf, maar gegevens daarover. Een soort alternatieve catalogus dus, waarin de publicaties gelinkt zijn aan allerlei gegevens en eigenschappen. Daarbij natuurlijk auteurs en onderwerpen, maar ook citatiegegevens. Naar welke andere publicaties wordt in een artikel verwezen? Voor dat laatste is zelfs een speciaal project “WikiCite” opgezet, wat tot een soort gratis citatie-index kan leiden.

Gespecialiseerde vrijwilligers uit de Wikimedia-gemeenschap voeren niet alleen – meestal geautomatiseerd – nieuwe gegevens in, maar ze bedenken ook zelf welke gegevens en welke relaties zinvol zijn om te registreren. Daarnaast ontwikkelen ze ook leuke tools om gegevens te zoeken, te analyseren en te visualiseren. Zo is er een tool Scholia, waarmee plaatjes gegenereerd kunnen worden van relaties tussen auteurs, van relaties tussen onderwerpen, van statistiek van tijdschriften, van statistiek van onderwerpen, van geografische verspreidingen en van nog veel meer.
Maar: het gaat zeker niet alleen maar om mooie plaatjes. Scholia is vooral ook een nuttig hulpmiddel om betrouwbare informatie en publicaties via Wikidata op het spoor te komen. En, anders dan bij klassieke databases en zoeksystemen, kun je zo zelf ook ontbrekende informatie en publicaties toevoegen.

in het VOGIN-IP-programma is een workshop over WikiCite en Scholia opgenomen. Egon Willighagen, onderzoeker aan de Universiteit Maastricht en fervent Wikidata-enthousiast, zal de deelnemers wegwijs maken in de mogelijkheden en zal ze laten ontdekken hoe een en ander werkt. Om je vast enthousiast te maken, zie je in deze blogpost al wat visuele voorbeelden die met Scholia gegenereerd zijn.

VOSviewer: visualisatie van wetenschappelijke netwerken


De wetenschap is bij uitstek een terrein van verbanden en relaties. Relaties tussen auteurs, verbanden tussen onderwerpen, links tussen publicaties, connecties tussen instituten en relaties tussen al dit soort entiteiten onderling. Informatie daarover is al heel lang digitaal beschikbaar en, met de toegenomen populariteit van open access, ook in toenemende mate vrij toegankelijk.
Het in kaart brengen van die verbanden is iets wat je niet meer handmatig moet willen doen. Bij CWTS, Centre for Science and Technology Studies, een onderzoeksinstituut van de Universiteit Leiden, is daar een fraai softwarepakket voor ontwikkeld: VOSviewer.
Gezien de achtergrond van CWTS is VOSviewer primair toegesneden op de analyse van bibliometrische netwerken, maar in feite kan die software ook gebruikt worden om andere soorten netwerken te exploreren en visualiseren. En het goede nieuws is ook nog dat je VOSviewer gratis online kunt gebruiken. Geen wonder dat er over de hele wereld gebruik van gemaakt wordt. Publicaties die de makers over het pakket schreven, hebben dan ook al vele duizenden bibliografische citaties opgeleverd. Dat heeft hoofdontwikkelaar Nees Jan van Eck al een formidabele H-index van 40 bezorgd.

Voor wie wat praktijkervaring wil opdoen met VOSviewer, geeft Nees Jan van Eck op 19 maart op de VOGIN-IP-lezing een workshop over gebruik en mogelijkheden van het pakket.

Nog een extra workshop !

lnworkshop
We zijn blij dat we er last-minute nog een echte zoek-workshop bij gekregen hebben. Onze sponsor LexisNexis hebben we bereid gevonden ook een workshop te verzorgen. Daarin komt specifiek aan de orde op welke manier de gevonden nieuwsberichten uit hun zoeksysteem tegenwoordig op relevantie gesorteerd worden.

NB: Wie zich al voor de VOGIN-IP-lezing heeft aangemeld en de daarbij gemaakte keuze uit het middagprogramma wil wijzigen in deze workshop, schrijve een mailtje aan info@voginip.nl

Knowledge graphs explained

Example of knowledge graph from:   Zhou, Zhixuan & Huankang, Guan & Bhat, Meghana & Hsu, Justin. (2019). Fake News Detection via NLP is Vulnerable to Adversarial Attacks. 11th International Conference on Agents and Artificial Intelligence (https://arxiv.org/pdf/1901.09657)

Als je heel theoretisch gaat uitleggen wat een knowledge graph is – zelfs zonder er de hogere wiskunde van de grafentheorie bij te halen – klinkt dat misschien een beetje ingewikkeld, met begrippen als RDF-tripels, entiteiten en predikaten, URI’s en literals, knopen en pijlen, klassen en individuals. Maar in feite is het een nogal simpel concept, zeker als je het bijvoorbeeld met relationele databases vergelijkt. In een recent artikel in Towards Datascience werd dat door Favio Vázquez aardig verwoord:

Mensen denken niet in tabellen (zoals in traditionele relationele databases), maar graphs begrijpen ze wel meteen. Als je de structuur van een knowledge graph op een whiteboard tekent, spreekt het voor de meeste mensen vanzelf wat het voorstelt. *

 
Zo’n plaatje met bolletjes waar woorden of begrippen bijstaan en waartussen pijltjes zijn getekend, die de relaties tussen die woorden aangeven, is inderdaad niet zo ingewikkeld. Zo zal het plaatje boven deze blogpost weinig uitleg behoeven. Toch zul je wel een paar dingen moeten weten wanneer je zelf een systeem wilt ontwerpen en bouwen, dat zulke plaatjes en de daarbij gewenste functionaliteit oplevert. Enerzijds zul je wat van het jargon moeten kennen, waarvan we hierboven al voorbeelden gaven, en anderzijds ook wel wat van de techniek weten, al zal de meeste software veel daarvan automatisch genereren. En verder blijken sommige van de regeltjes, conventies en best practices die we kennen van het bouwen van databases en van taxonomieën en thesauri, ook hierbij goed van pas te komen.

Wil je in twee uurtjes snel wat inzicht krijgen in de basisprincipes van knowledge graphs en er ook al wat praktische ervaring mee opdoen, dan is daar bij de VOGIN-IP-lezing een workshop voor. Die biedt een beetje theorie en vooral veel zelf doen. Daarbij komt natuurlijk ook aan de orde wat voor extra functionaliteit dit mogelijk maakt. En dat gaat wel wat verder dan wat RDBMS’en en taxonomieën hun gebruikers bieden, wanneer die ergens naar op zoek zijn.

In het komende nummer van IP staat trouwens toevallig een artikel waarin Joyce van Aalten aan de hand van een praktisch voorbeeld uitlegt wat Knowledge Graphs zijn, hoe ze werken en wat je er aan hebt. Dat kun je ook mooi nog even lezen voordat je naar deze workshop komt.

Workshop: “Knowledge Graphs: wat het zijn en hoe je ze maakt” – docent: Eric Sieverts

___________________

*   Originele tekst: “People don’t think in tables (like in traditional RDBMS), but they do immediately understand graphs. When you draw the structure of a knowledge graph on a whiteboard, it is obvious what it means to most people.”

De workshops


De inschrijvingen voor de workshops lopen heel wisselend. Via andere media hadden we al laten weten dat één sessie van één van de workshops nu al is volgeboekt. Bij de andere sessie is gelukkig nog wel plaats. In het aanmeldingsformulier zie je vanzelf wel welke dat is. Daarbij hadden we ook gemeld dat bij de andere negen workshops voorlopig nog wel voldoende plaats is. Maar wat daar niet bij stond, was dat bij vier van die workshops de inschrijvingen juist onvoorzien blijven achterlopen. Omdat de onderwerpen van die workshops interessant (en belangrijk!) genoeg zijn, willen we ze nog even extra onder de aandacht brengen – of aan jullie opdringen zo je wilt – voordat we noodgedwongen zouden moeten besluiten een of twee daarvan te annuleren.

  • In de eerste plaats is dat de workshop over linked (open) data. Daar hebben we vorige week al een blogpost aan gewijd onder de titel “A LOD of triples“. Met daarbij als teaser de uitroep van Tim Berners Lee “RAW DATA NOW!”, waarmee hij het onderwerp destijds onder de aandacht bracht. Als je na deze workshop meer over linked data weet, kun je dus eindelijk aan die uitroep gehoor geven.
  • rawdatanow
    De andere drie onderwerpen zijn:

  • “Zoeken naar PPPP”. Met dat acroniem omschrijven Jeroen Bosman en Bianca Kramer de materiaaltypen posters, presentaties, preprints en proposals. Die zijn van toenemend belang om op de hoogte te blijven van wat zich aan de “research frontier” afspeelt. En gewoon met Google zijn die previews (een vijfde P) van nieuwe ontwikkelingen in de wetenschap niet zo makkelijk te vinden. Daarom wordt in deze workshop gekeken of er zoektools zijn waarmee dat beter kan, en worden die uitgeprobeerd.
  • “Data analyse”. In een praktische workshop laat Frank Huysmans je kennismaken met statistische analyse tools die hij ook met zijn studenten bij de UvA gebruikt. Dat zijn de open source pakketten JASP en R. Deze workshop wordt zeker niet alleen “knoppen drukken”, want je krijgt ook te horen wat je echt moet weten voordat je met statistische analyses begint. Daarnaast krijg je, zoals Frank schrijft, “al doende te maken met de grootste valkuilen voor de beginnende data-analist”.
  • “Knowledge Graphs”. Deze techniek wordt allerwege gezien als veelbelovende uitbreiding en opvolger van taxonomieën en thesauri. Informatie en kennis is daarmee nog weer beter toegankelijk te maken, ook in combinatie met machine learning. Merkwaardigerwijs lijkt er bij Nederlandse informatieprofessionals veel minder aandacht voor te zijn dan in het Angelsaksische en Duitse taalgebied. Het klinkt misschien ook wat ingewikkeld met begrippen als entiteiten, klassen, predikaten en knopen. Maar eigenlijk is het een heel natuurlijke manier om concepten en hun onderlinge relaties te beschrijven en te visualiseren, zoals in deze workshop zal blijken.
  • Als dit nog niet voldoende redenen waren om je voor tenminste één van deze workshops aan te melden, dan weten wij het ook niet meer …..