VOGIN-IP gaat weer online


We kondigden het al eerder aan, dat na het succes van het online voorjaarsprogramma ook weer aan een najaarsprogramma gewerkt werd. Intussen is dat programma al voor een groot deel gerealiseerd.

Om te beginnen is er, in samenwerking met LexisNexis een workshop waarin je, aan de hand van hun zoekspecialist Marlies Segers, beter leert zoeken in het nieuws dat LexisNexis online aanbiedt. De (Nederlandse) verkiezingen van komend voorjaar worden daarbij als leidende casus gebruikt. Die workshop is al op 22 september, zodat het zaak is je snel aan te melden.

Ook is intussen een tweetal lezingen gepland. Anders dan bij de workshops, is daarbij geen limiet gesteld aan het maximum aantal deelnemers.

Op 25 september komt Laura Hollink van het Centrum voor Wiskunde en Informatica aan het woord. Zij houdt zich bij het CWI onder andere bezig met diverse aspecten van mens-machine interactie. Op basis van inzichten uit de cognitieve psychologie kijkt zij hoe knowledge graphs een rol kunnen spelen bij het verbeteren van de mens-machine interactie. Dit gezichtspunt is bij VOGIN-IP nog niet eerder aan de orde geweest.

Op 8 oktober is het virtuele podium voor Bianca Kramer. Zij zal een overzicht geven van huidige initiatieven op het gebied van twee soorten metadata: open citaties en open abstracts. De open infrastructuur waarvan die deel uitmaken dient transparant, toegankelijk en vrij van commerciële invloed te zijn. In een interactieve discussie zal Bianca een aantal voorbeelden verkennen van hoe deze metadata in de praktijk gebruikt kunnen worden, en welke voorwaarden daarvoor gelden.

En last but not least in deze opsomming – en op de kalender al eerder dan de lezing van Bianca – is er een workshop van Arno Reuser. Daarmee komen we tegemoet aan een in eerdere evaluaties vaak uitgesproken wens. Hij zal op de hem eigen wijze ingaan op de basisprincipes van goed gestructureerd zoeken, waarvoor Booleaanse methoden nog altijd de grondslag vormen. Wel basisprincipes, maar zeker geen basale workshop. Op 30 september is Arno daarmee aan de beurt.

Kijk vooral ook nog op de programmapagina. Daar vind je nog wat meer inhoudelijke details en kun je je voor elk van deze sessies aanmelden. De LexisNexis workshop zal via hun eigen webinar-tool gegeven worden. Voor de overige sessies wordt Zoom gebruikt.
Houd onze programmapagina ook verder regelmatig in de gaten, om te zien welke interessante aanvullingen er wellicht nog komen. Er zit nog wat in de pijplijn.

In memoriam Hugo Benne


Met de dood van Wouter Gerritsma nog altijd vers in ons geheugen, zijn VOGIN en de VOGIN-IP-lezing opnieuw getroffen door een afschuwelijk verlies. Voor ons allen totaal onverwacht, is 19 april Hugo Benne overleden. Naast zijn werk voor de Haagse Hogeschool, was Hugo ook docent bij de VOGIN-cursus en verzorgde hij bij de VOGIN-IP-lezing de laatste paar jaar diverse workshops met een meestal technische insteek.
Het echte verlies is er natuurlijk vooral voor zijn partner Heleen, voor zijn kinderen en voor verdere familie en kennissen. Hen wensen we heel veel sterkte om dit verlies te verwerken.
Wij gedenken Hugo met bovenstaande foto’s waarop we Hugo in actie zien tijdens VOGIN-IP-workshops in 2018 en 2019.

6 x P   of   “wat het Coronavirus met ons vak te maken heeft”

Door Jeroen Bosman en Bianca Kramer

Het genoom van het 2019-nCoV (Corona) virus

Dagelijks staan we versteld van de ingrijpende lokale en wereldwijde gevolgen van een nieuw virus. Virologische en epidemiologische vragen hebben snel een antwoord nodig, maar ook logistieke, economische en politiek-culturele kwesties rond het Coronavirus zijn dringend. Een half jaar wachten op antwoorden en inzichten kan niet. Elke dag scheelt. Bij crises rond sprinkhanenplagen of bosbranden is de behoefte aan snelle inzichten niet veel minder nijpend. Zelfs iets relatief traags als klimaatverandering en de effecten daarvan vraagt om inzichten op een termijn van maanden, niet van jaren. Ook zijn het allemaal complexe vraagstukken met veel verbanden en wereldwijde samenhangen die vragen om analyse van veel data en om samenwerking daarbij. De samenleving vraagt om meer en sneller onderzoek, waarbij de complexiteit en grootschaligheid dwingt tot samenwerking.

Corona philogenetic spread

Snel, vroeg en open
In dit soort omstandigheden kijken onderzoekers naar mogelijkheden om meer onderzoek te doen, en de uitkomsten daarvan in een eerder stadium te delen. Precies dat hebben we de afgelopen weken gezien: data van het genoom [boven] en van de verspreiding [rechts] worden online gezet.
Scripts om die data te analyseren worden gedeeld, vroege versies van papers (preprints) [onder] worden publiek gemaakt nog voor ze worden ingestuurd naar een wetenschappelijk tijdschrift. En dat alles openlijk, zodat anderen feedback kunnen geven of kunnen voortbouwen op (voorlopige) resultaten.

Coronavirus preprints in MedArXiv

Overigens gebeurt dit al een aantal jaren en niet alleen bij crises als nu rond Corona of eerder bij Ebola en Zika. Voor vrijwel al het onderzoek zijn er duidelijke voordelen van vroeg en open delen, zowel voor de onderzoeker zelf (vroege feedback, foutdetectie) als voor collega-onderzoekers (vermijden dubbel werk, gebruik van laatste data en inzichten) en de samenleving (toegang tot de meest actuele inzichten).

Zoeken, status en toepassingen
Op vele tientallen websites en platforms wordt de ‘vroege wetenschap’ gedeeld en tientallen zoekmachines helpen dat te vinden. Het gaat om, in volgorde van “verschijnen”: subsidieaanvragen voor onderzoek, projectomschrijvingen, data, code, posters, presentaties en preprints. Voor een deel zijn dat zaken waarvoor gespecialiseerde platforms zijn, voor een deel staat het in universitaire repositories of bij uitgevers. Jeroen Bosman heeft onlangs een start gemaakt om uit te zoeken welke platforms en zoekmachines dit soort materiaal vindbaar maken. Een verkleind beeld van de samenvatting daarvan zie je hieronder, met hier een link naar een grotere weergave en ook een link naar de beginpagina van de echte spreadsheet.

Vinden is echter niet de enige vraag rond dit soort vroege wetenschap. We moeten ook nadenken over de status van het materiaal. Waar is het voor bedoeld, wat voor checks heeft het ondergaan, wat voor rol speelt het in wetenschappelijke communicatie, en wat kunnen ‘derden’ ermee?

Alles met een P
In de workshop “Verkennen van de research frontier” gaan we naar al deze vormen van vroege wetenschap zoeken, kijken hoe simpel of gemakkelijk dat gaat en uitzoeken wat we met het materiaal kunnen doen. Heel toevallig gaat het (in het Engels) om allemaal documenttypen die met een P beginnen;  6 x P  dus:

  • Profielen die aangeven op welk terrein een onderzoeker actief is
  • Proposals die aangeven aan wat voor onderzoek men wil gaan werken en waarvoor men dus financiering zoekt
  • Projecten die beschrijven waaraan men nu werkt
  • Posters die vroege uitkomsten tonen
  • Presentaties die vroege uitkomsten bespreken
  • Preprints, de vroege versies van papers

We durven te garanderen dat vrijwel iedereen een of twee, misschien zelfs drie of vier interessante nieuwe zoekmachines en tools zal leren kennen, waarmee de steeds belangrijker wordende vroege wetenschap gevonden kan worden.
Lens anyone? Base? Core? OpenAire? OSF? Share?

Virus scan


Als eye-catcher stond boven onze vorige blogpost een weergave van de relaties tussen auteurs/publicaties over het nieuwe Corona-virus, zoals dat met de Scholia-applicatie uit Wikidata-gegevens gegenereerd was. Nog maar vijf dagen later zag het beeld van dit hot topic er al weer heel anders uit, zoals je hierboven ziet. Wie wil weten hoe deze crisis zich verder ontwikkelt, voorzover dat zijn weerslag vindt in de wetenschappelijke literatuur, hoeft nu alleen maar op dit plaatje te klikken. Dat activeert de link voor een verse Scholia-actie voor dit onderwerp. Daarvoor hoef je dus niet eens deel te nemen aan de workshop van Egon Willighagen. Al is het natuurlijk veel leuker om dat wel te doen, want dan zul je zien dat er met Wikidata, Wikicite en Scholia nog veel meer kan dan deze “virus-scan”. </einde STER-spot>

Wikicite en Scholia

Bij de ruim 70 miljoen items die in Wikidata zitten, is een grote verscheidenheid aan soorten entiteiten. Dat loopt van vogelsoorten tot voetbalclubs, van wetenschappers tot woestijnen, van virussen tot violisten en van schilderijen tot scheikundige verbindingen.
Waarvan er intussen ook al veel inzit, zijn wetenschappelijke publicaties. Niet die publicaties zelf, maar gegevens daarover. Een soort alternatieve catalogus dus, waarin de publicaties gelinkt zijn aan allerlei gegevens en eigenschappen. Daarbij natuurlijk auteurs en onderwerpen, maar ook citatiegegevens. Naar welke andere publicaties wordt in een artikel verwezen? Voor dat laatste is zelfs een speciaal project “WikiCite” opgezet, wat tot een soort gratis citatie-index kan leiden.

Gespecialiseerde vrijwilligers uit de Wikimedia-gemeenschap voeren niet alleen – meestal geautomatiseerd – nieuwe gegevens in, maar ze bedenken ook zelf welke gegevens en welke relaties zinvol zijn om te registreren. Daarnaast ontwikkelen ze ook leuke tools om gegevens te zoeken, te analyseren en te visualiseren. Zo is er een tool Scholia, waarmee plaatjes gegenereerd kunnen worden van relaties tussen auteurs, van relaties tussen onderwerpen, van statistiek van tijdschriften, van statistiek van onderwerpen, van geografische verspreidingen en van nog veel meer.
Maar: het gaat zeker niet alleen maar om mooie plaatjes. Scholia is vooral ook een nuttig hulpmiddel om betrouwbare informatie en publicaties via Wikidata op het spoor te komen. En, anders dan bij klassieke databases en zoeksystemen, kun je zo zelf ook ontbrekende informatie en publicaties toevoegen.

in het VOGIN-IP-programma is een workshop over WikiCite en Scholia opgenomen. Egon Willighagen, onderzoeker aan de Universiteit Maastricht en fervent Wikidata-enthousiast, zal de deelnemers wegwijs maken in de mogelijkheden en zal ze laten ontdekken hoe een en ander werkt. Om je vast enthousiast te maken, zie je in deze blogpost al wat visuele voorbeelden die met Scholia gegenereerd zijn.

Nog een extra workshop !

lnworkshop
We zijn blij dat we er last-minute nog een echte zoek-workshop bij gekregen hebben. Onze sponsor LexisNexis hebben we bereid gevonden ook een workshop te verzorgen. Daarin komt specifiek aan de orde op welke manier de gevonden nieuwsberichten uit hun zoeksysteem tegenwoordig op relevantie gesorteerd worden.

NB: Wie zich al voor de VOGIN-IP-lezing heeft aangemeld en de daarbij gemaakte keuze uit het middagprogramma wil wijzigen in deze workshop, schrijve een mailtje aan info@voginip.nl

Knowledge graphs explained

Example of knowledge graph from:   Zhou, Zhixuan & Huankang, Guan & Bhat, Meghana & Hsu, Justin. (2019). Fake News Detection via NLP is Vulnerable to Adversarial Attacks. 11th International Conference on Agents and Artificial Intelligence (https://arxiv.org/pdf/1901.09657)

Als je heel theoretisch gaat uitleggen wat een knowledge graph is – zelfs zonder er de hogere wiskunde van de grafentheorie bij te halen – klinkt dat misschien een beetje ingewikkeld, met begrippen als RDF-tripels, entiteiten en predikaten, URI’s en literals, knopen en pijlen, klassen en individuals. Maar in feite is het een nogal simpel concept, zeker als je het bijvoorbeeld met relationele databases vergelijkt. In een recent artikel in Towards Datascience werd dat door Favio Vázquez aardig verwoord:

Mensen denken niet in tabellen (zoals in traditionele relationele databases), maar graphs begrijpen ze wel meteen. Als je de structuur van een knowledge graph op een whiteboard tekent, spreekt het voor de meeste mensen vanzelf wat het voorstelt. *

 
Zo’n plaatje met bolletjes waar woorden of begrippen bijstaan en waartussen pijltjes zijn getekend, die de relaties tussen die woorden aangeven, is inderdaad niet zo ingewikkeld. Zo zal het plaatje boven deze blogpost weinig uitleg behoeven. Toch zul je wel een paar dingen moeten weten wanneer je zelf een systeem wilt ontwerpen en bouwen, dat zulke plaatjes en de daarbij gewenste functionaliteit oplevert. Enerzijds zul je wat van het jargon moeten kennen, waarvan we hierboven al voorbeelden gaven, en anderzijds ook wel wat van de techniek weten, al zal de meeste software veel daarvan automatisch genereren. En verder blijken sommige van de regeltjes, conventies en best practices die we kennen van het bouwen van databases en van taxonomieën en thesauri, ook hierbij goed van pas te komen.

Wil je in twee uurtjes snel wat inzicht krijgen in de basisprincipes van knowledge graphs en er ook al wat praktische ervaring mee opdoen, dan is daar bij de VOGIN-IP-lezing een workshop voor. Die biedt een beetje theorie en vooral veel zelf doen. Daarbij komt natuurlijk ook aan de orde wat voor extra functionaliteit dit mogelijk maakt. En dat gaat wel wat verder dan wat RDBMS’en en taxonomieën hun gebruikers bieden, wanneer die ergens naar op zoek zijn.

In het komende nummer van IP staat trouwens toevallig een artikel waarin Joyce van Aalten aan de hand van een praktisch voorbeeld uitlegt wat Knowledge Graphs zijn, hoe ze werken en wat je er aan hebt. Dat kun je ook mooi nog even lezen voordat je naar deze workshop komt.

Workshop: “Knowledge Graphs: wat het zijn en hoe je ze maakt” – docent: Eric Sieverts

___________________

*   Originele tekst: “People don’t think in tables (like in traditional RDBMS), but they do immediately understand graphs. When you draw the structure of a knowledge graph on a whiteboard, it is obvious what it means to most people.”

De workshops


De inschrijvingen voor de workshops lopen heel wisselend. Via andere media hadden we al laten weten dat één sessie van één van de workshops nu al is volgeboekt. Bij de andere sessie is gelukkig nog wel plaats. In het aanmeldingsformulier zie je vanzelf wel welke dat is. Daarbij hadden we ook gemeld dat bij de andere negen workshops voorlopig nog wel voldoende plaats is. Maar wat daar niet bij stond, was dat bij vier van die workshops de inschrijvingen juist onvoorzien blijven achterlopen. Omdat de onderwerpen van die workshops interessant (en belangrijk!) genoeg zijn, willen we ze nog even extra onder de aandacht brengen – of aan jullie opdringen zo je wilt – voordat we noodgedwongen zouden moeten besluiten een of twee daarvan te annuleren.

  • In de eerste plaats is dat de workshop over linked (open) data. Daar hebben we vorige week al een blogpost aan gewijd onder de titel “A LOD of triples“. Met daarbij als teaser de uitroep van Tim Berners Lee “RAW DATA NOW!”, waarmee hij het onderwerp destijds onder de aandacht bracht. Als je na deze workshop meer over linked data weet, kun je dus eindelijk aan die uitroep gehoor geven.
  • rawdatanow
    De andere drie onderwerpen zijn:

  • “Zoeken naar PPPP”. Met dat acroniem omschrijven Jeroen Bosman en Bianca Kramer de materiaaltypen posters, presentaties, preprints en proposals. Die zijn van toenemend belang om op de hoogte te blijven van wat zich aan de “research frontier” afspeelt. En gewoon met Google zijn die previews (een vijfde P) van nieuwe ontwikkelingen in de wetenschap niet zo makkelijk te vinden. Daarom wordt in deze workshop gekeken of er zoektools zijn waarmee dat beter kan, en worden die uitgeprobeerd.
  • “Data analyse”. In een praktische workshop laat Frank Huysmans je kennismaken met statistische analyse tools die hij ook met zijn studenten bij de UvA gebruikt. Dat zijn de open source pakketten JASP en R. Deze workshop wordt zeker niet alleen “knoppen drukken”, want je krijgt ook te horen wat je echt moet weten voordat je met statistische analyses begint. Daarnaast krijg je, zoals Frank schrijft, “al doende te maken met de grootste valkuilen voor de beginnende data-analist”.
  • “Knowledge Graphs”. Deze techniek wordt allerwege gezien als veelbelovende uitbreiding en opvolger van taxonomieën en thesauri. Informatie en kennis is daarmee nog weer beter toegankelijk te maken, ook in combinatie met machine learning. Merkwaardigerwijs lijkt er bij Nederlandse informatieprofessionals veel minder aandacht voor te zijn dan in het Angelsaksische en Duitse taalgebied. Het klinkt misschien ook wat ingewikkeld met begrippen als entiteiten, klassen, predikaten en knopen. Maar eigenlijk is het een heel natuurlijke manier om concepten en hun onderlinge relaties te beschrijven en te visualiseren, zoals in deze workshop zal blijken.
  • Als dit nog niet voldoende redenen waren om je voor tenminste één van deze workshops aan te melden, dan weten wij het ook niet meer …..

    A LOD of triples


    Hopelijk heb je al eerder van LOD gehoord en van de Linked Open Data cloud. Zo niet, dan zie je hierboven hoe die wolk eruit ziet. Althans hoe hij er in maart 2019 uitzag, want die wolk groeit nog steeds. Niet dat er in dit formaat al veel aan die wolk te zien valt, want 1239 datasets met daartussen 16147 links, zijn niet zo makkelijk inzichtelijk in een enkel blogpost-plaatje te verwerken. En zelfs als je een klein stukje uit het centrum van die wolk uitvergroot, zie je daar nog altijd niet heel veel aan en is het nog altijd moeilijk leesbaar. Als je goed kijkt, kun je wat rechtsboven het centrum – waar de meeste links heen gaan – wel de DBpedia onderscheiden, de gestructureerde feitenverzameling die uit de Wikipedia is afgeleid. En wat meer naar linksonder Wikidata, een runner-up die als databron snel in belang toeneemt.


    En de rest zijn datasets van allerlei verschillende organisaties die hun gegevens op gestandaardiseerde wijze vrij via internet beschikbaar stellen. Die 1239 in de wolk afgebeelde datasets zijn dan nog alleen diegenen waar tenminste 1000 tripels – losse feiten – inzitten. In die hele cloud zitten naar schatting nu al meer dan 150 miljard tripels. Uit de animatie hieronder kun je een aardige indruk krijgen hoe die cloud gegroeid is, van de eerste 12 datasets in 2007 tot de 300 die er in in 2011 waren. Toen zijn ze maar opgehouden dit soort bewegende plaatjes te maken. Intussen zijn het er nog weer ruim 4x zoveel.

    Misschien goed in dit verband nog even te memoreren dat het idee van Linked Open Data ook uit de koker van Tim Berners Lee is gekomen. Hoewel het al een paar jaar broedde, kwam hij er in een TED-lezing in 2009 echt mee naar buiten en maakte hij duidelijk dat hij meer data beschikbaar wilde hebben door een hele zaal in Long Beach (Californië) uit volle borst te laten scanderen
    “RAW DATA NOW! RAW DATA NOW! …”
    Intussen is wel duidelijk dat die ruwe data er inderdaad in overvloed gekomen zijn.

    Weet je nog niet echt wat tripels zijn en wat linked data is? En heb je eerdere workshops gemist waarin dat aan de orde kwam? Dan zul je je nu zeker moeten aanmelden voor de workshop van Hugo Benne. Want daar worden die begrippen uitgelegd en kom je te weten hoe dat allemaal werkt. En vooral ook wat je er aan kunt hebben, hoe je er gebruik van kunt maken en hoe je als organisatie eigen data kunt bijdragen (en dus nog steeds gehoor kunt geven aan die oproep van Tim Berners Lee van elf jaar geleden).

    rawdatanow

    Workshops: wie is wie


    Even een puzzeltje wie wie is? Dit zijn 12 docenten die op 19 maart 10 workshops verzorgen.
    Wellicht wil je daar al meer over weten, om goed voorbereid te zijn op de keuzes die je binnenkort moet maken als de officiële inschrijving voor #voginip begint. HIER kun je al een sneak preview krijgen van alle op dit moment bekende workshops.
    Of wordt het straks toch gewoon de dobbelsteen?