VOSviewer: visualisatie van wetenschappelijke netwerken


De wetenschap is bij uitstek een terrein van verbanden en relaties. Relaties tussen auteurs, verbanden tussen onderwerpen, links tussen publicaties, connecties tussen instituten en relaties tussen al dit soort entiteiten onderling. Informatie daarover is al heel lang digitaal beschikbaar en, met de toegenomen populariteit van open access, ook in toenemende mate vrij toegankelijk.
Het in kaart brengen van die verbanden is iets wat je niet meer handmatig moet willen doen. Bij CWTS, Centre for Science and Technology Studies, een onderzoeksinstituut van de Universiteit Leiden, is daar een fraai softwarepakket voor ontwikkeld: VOSviewer.
Gezien de achtergrond van CWTS is VOSviewer primair toegesneden op de analyse van bibliometrische netwerken, maar in feite kan die software ook gebruikt worden om andere soorten netwerken te exploreren en visualiseren. En het goede nieuws is ook nog dat je VOSviewer gratis online kunt gebruiken. Geen wonder dat er over de hele wereld gebruik van gemaakt wordt. Publicaties die de makers over het pakket schreven, hebben dan ook al vele duizenden bibliografische citaties opgeleverd. Dat heeft hoofdontwikkelaar Nees Jan van Eck al een formidabele H-index van 40 bezorgd.

Voor wie wat praktijkervaring wil opdoen met VOSviewer, geeft Nees Jan van Eck op 19 maart op de VOGIN-IP-lezing een workshop over gebruik en mogelijkheden van het pakket.

Nog een extra workshop !

lnworkshop
We zijn blij dat we er last-minute nog een echte zoek-workshop bij gekregen hebben. Onze sponsor LexisNexis hebben we bereid gevonden ook een workshop te verzorgen. Daarin komt specifiek aan de orde op welke manier de gevonden nieuwsberichten uit hun zoeksysteem tegenwoordig op relevantie gesorteerd worden.

NB: Wie zich al voor de VOGIN-IP-lezing heeft aangemeld en de daarbij gemaakte keuze uit het middagprogramma wil wijzigen in deze workshop, schrijve een mailtje aan info@voginip.nl

Knowledge graphs explained

Example of knowledge graph from:   Zhou, Zhixuan & Huankang, Guan & Bhat, Meghana & Hsu, Justin. (2019). Fake News Detection via NLP is Vulnerable to Adversarial Attacks. 11th International Conference on Agents and Artificial Intelligence (https://arxiv.org/pdf/1901.09657)

Als je heel theoretisch gaat uitleggen wat een knowledge graph is – zelfs zonder er de hogere wiskunde van de grafentheorie bij te halen – klinkt dat misschien een beetje ingewikkeld, met begrippen als RDF-tripels, entiteiten en predikaten, URI’s en literals, knopen en pijlen, klassen en individuals. Maar in feite is het een nogal simpel concept, zeker als je het bijvoorbeeld met relationele databases vergelijkt. In een recent artikel in Towards Datascience werd dat door Favio Vázquez aardig verwoord:

Mensen denken niet in tabellen (zoals in traditionele relationele databases), maar graphs begrijpen ze wel meteen. Als je de structuur van een knowledge graph op een whiteboard tekent, spreekt het voor de meeste mensen vanzelf wat het voorstelt. *

 
Zo’n plaatje met bolletjes waar woorden of begrippen bijstaan en waartussen pijltjes zijn getekend, die de relaties tussen die woorden aangeven, is inderdaad niet zo ingewikkeld. Zo zal het plaatje boven deze blogpost weinig uitleg behoeven. Toch zul je wel een paar dingen moeten weten wanneer je zelf een systeem wilt ontwerpen en bouwen, dat zulke plaatjes en de daarbij gewenste functionaliteit oplevert. Enerzijds zul je wat van het jargon moeten kennen, waarvan we hierboven al voorbeelden gaven, en anderzijds ook wel wat van de techniek weten, al zal de meeste software veel daarvan automatisch genereren. En verder blijken sommige van de regeltjes, conventies en best practices die we kennen van het bouwen van databases en van taxonomieën en thesauri, ook hierbij goed van pas te komen.

Wil je in twee uurtjes snel wat inzicht krijgen in de basisprincipes van knowledge graphs en er ook al wat praktische ervaring mee opdoen, dan is daar bij de VOGIN-IP-lezing een workshop voor. Die biedt een beetje theorie en vooral veel zelf doen. Daarbij komt natuurlijk ook aan de orde wat voor extra functionaliteit dit mogelijk maakt. En dat gaat wel wat verder dan wat RDBMS’en en taxonomieën hun gebruikers bieden, wanneer die ergens naar op zoek zijn.

In het komende nummer van IP staat trouwens toevallig een artikel waarin Joyce van Aalten aan de hand van een praktisch voorbeeld uitlegt wat Knowledge Graphs zijn, hoe ze werken en wat je er aan hebt. Dat kun je ook mooi nog even lezen voordat je naar deze workshop komt.

Workshop: “Knowledge Graphs: wat het zijn en hoe je ze maakt” – docent: Eric Sieverts

___________________

*   Originele tekst: “People don’t think in tables (like in traditional RDBMS), but they do immediately understand graphs. When you draw the structure of a knowledge graph on a whiteboard, it is obvious what it means to most people.”

De workshops


De inschrijvingen voor de workshops lopen heel wisselend. Via andere media hadden we al laten weten dat één sessie van één van de workshops nu al is volgeboekt. Bij de andere sessie is gelukkig nog wel plaats. In het aanmeldingsformulier zie je vanzelf wel welke dat is. Daarbij hadden we ook gemeld dat bij de andere negen workshops voorlopig nog wel voldoende plaats is. Maar wat daar niet bij stond, was dat bij vier van die workshops de inschrijvingen juist onvoorzien blijven achterlopen. Omdat de onderwerpen van die workshops interessant (en belangrijk!) genoeg zijn, willen we ze nog even extra onder de aandacht brengen – of aan jullie opdringen zo je wilt – voordat we noodgedwongen zouden moeten besluiten een of twee daarvan te annuleren.

  • In de eerste plaats is dat de workshop over linked (open) data. Daar hebben we vorige week al een blogpost aan gewijd onder de titel “A LOD of triples“. Met daarbij als teaser de uitroep van Tim Berners Lee “RAW DATA NOW!”, waarmee hij het onderwerp destijds onder de aandacht bracht. Als je na deze workshop meer over linked data weet, kun je dus eindelijk aan die uitroep gehoor geven.
  • rawdatanow
    De andere drie onderwerpen zijn:

  • “Zoeken naar PPPP”. Met dat acroniem omschrijven Jeroen Bosman en Bianca Kramer de materiaaltypen posters, presentaties, preprints en proposals. Die zijn van toenemend belang om op de hoogte te blijven van wat zich aan de “research frontier” afspeelt. En gewoon met Google zijn die previews (een vijfde P) van nieuwe ontwikkelingen in de wetenschap niet zo makkelijk te vinden. Daarom wordt in deze workshop gekeken of er zoektools zijn waarmee dat beter kan, en worden die uitgeprobeerd.
  • “Data analyse”. In een praktische workshop laat Frank Huysmans je kennismaken met statistische analyse tools die hij ook met zijn studenten bij de UvA gebruikt. Dat zijn de open source pakketten JASP en R. Deze workshop wordt zeker niet alleen “knoppen drukken”, want je krijgt ook te horen wat je echt moet weten voordat je met statistische analyses begint. Daarnaast krijg je, zoals Frank schrijft, “al doende te maken met de grootste valkuilen voor de beginnende data-analist”.
  • “Knowledge Graphs”. Deze techniek wordt allerwege gezien als veelbelovende uitbreiding en opvolger van taxonomieën en thesauri. Informatie en kennis is daarmee nog weer beter toegankelijk te maken, ook in combinatie met machine learning. Merkwaardigerwijs lijkt er bij Nederlandse informatieprofessionals veel minder aandacht voor te zijn dan in het Angelsaksische en Duitse taalgebied. Het klinkt misschien ook wat ingewikkeld met begrippen als entiteiten, klassen, predikaten en knopen. Maar eigenlijk is het een heel natuurlijke manier om concepten en hun onderlinge relaties te beschrijven en te visualiseren, zoals in deze workshop zal blijken.
  • Als dit nog niet voldoende redenen waren om je voor tenminste één van deze workshops aan te melden, dan weten wij het ook niet meer …..

    Lezersonderzoek IP


    Nog even een kleine wederdienst aan onze partner Vakblad IP.
    De redactie wil namelijk graag weten wat ze goed doen in de papieren IP en wat wellicht beter kan. Daarom vragen ze IP-lezers 5 minuten van hun tijd, met het verzoek om mee te doen aan hun lezersonderzoek. Dat verzoek nemen we op deze plaats graag over. Klik HIER voor de enquête.

    Machiavelliprijs voor Bellingcat

    De Machiavelliprijs 2019 is toegekend aan onderzoekscollectief Bellingcat. Deze Nederlandse prijs wordt jaarlijks uitgereikt voor “een opmerkelijke prestatie op het gebied van publieke communicatie”.
    Volgens het juryrapport krijgt Bellingcat de prijs vanwege

    “zijn vernieuwende wijze van onderzoeksjournalistiek die keer op keer zorgt voor baanbrekende onthullingen”.

    Het rapport verklaart verder:

    “Bellingcat heeft diepgravende onderzoeksjournalistiek een stevige kwaliteitsimpuls gegeven in een tijdperk waarin we steeds meer ‘fake news’ zien. Deze innovatie is een schoolvoorbeeld voor zowel traditionele media als voor journalisten in opleiding. Waar traditionele media vaak huiverig zijn om hun kennis en aanpak te delen, moedigt Bellingcat dit juist aan. Dat Bellingcat zijn kennis verspreidt, verdient alle lof.”

    Deze prijs straalt natuurlijk vooral af op Bellingcat-oprichter Eliot Higgins, vorig jaar nog keynote spreker bij de VOGIN-IP-lezing. Eliot zal op 12 februari de prijs in Den Haag in Perscentrum Nieuwspoort in ontvangst nemen.
    Hoewel de keynote spreker van dit jaar, Christiaan Triebert intussen niet meer voor Bellingcat werkzaam is, maar voor de New York Times, straalt deze prijs natuurlijk ook nog wel een beetje op hem af.

    A LOD of triples


    Hopelijk heb je al eerder van LOD gehoord en van de Linked Open Data cloud. Zo niet, dan zie je hierboven hoe die wolk eruit ziet. Althans hoe hij er in maart 2019 uitzag, want die wolk groeit nog steeds. Niet dat er in dit formaat al veel aan die wolk te zien valt, want 1239 datasets met daartussen 16147 links, zijn niet zo makkelijk inzichtelijk in een enkel blogpost-plaatje te verwerken. En zelfs als je een klein stukje uit het centrum van die wolk uitvergroot, zie je daar nog altijd niet heel veel aan en is het nog altijd moeilijk leesbaar. Als je goed kijkt, kun je wat rechtsboven het centrum – waar de meeste links heen gaan – wel de DBpedia onderscheiden, de gestructureerde feitenverzameling die uit de Wikipedia is afgeleid. En wat meer naar linksonder Wikidata, een runner-up die als databron snel in belang toeneemt.


    En de rest zijn datasets van allerlei verschillende organisaties die hun gegevens op gestandaardiseerde wijze vrij via internet beschikbaar stellen. Die 1239 in de wolk afgebeelde datasets zijn dan nog alleen diegenen waar tenminste 1000 tripels – losse feiten – inzitten. In die hele cloud zitten naar schatting nu al meer dan 150 miljard tripels. Uit de animatie hieronder kun je een aardige indruk krijgen hoe die cloud gegroeid is, van de eerste 12 datasets in 2007 tot de 300 die er in in 2011 waren. Toen zijn ze maar opgehouden dit soort bewegende plaatjes te maken. Intussen zijn het er nog weer ruim 4x zoveel.

    Misschien goed in dit verband nog even te memoreren dat het idee van Linked Open Data ook uit de koker van Tim Berners Lee is gekomen. Hoewel het al een paar jaar broedde, kwam hij er in een TED-lezing in 2009 echt mee naar buiten en maakte hij duidelijk dat hij meer data beschikbaar wilde hebben door een hele zaal in Long Beach (Californië) uit volle borst te laten scanderen
    “RAW DATA NOW! RAW DATA NOW! …”
    Intussen is wel duidelijk dat die ruwe data er inderdaad in overvloed gekomen zijn.

    Weet je nog niet echt wat tripels zijn en wat linked data is? En heb je eerdere workshops gemist waarin dat aan de orde kwam? Dan zul je je nu zeker moeten aanmelden voor de workshop van Hugo Benne. Want daar worden die begrippen uitgelegd en kom je te weten hoe dat allemaal werkt. En vooral ook wat je er aan kunt hebben, hoe je er gebruik van kunt maken en hoe je als organisatie eigen data kunt bijdragen (en dus nog steeds gehoor kunt geven aan die oproep van Tim Berners Lee van elf jaar geleden).

    rawdatanow

    Happy 2020


    Het VOGIN-IP-team wenst alle bezoekers van de VOGIN-IP-lezing (en … vooruit … ook alle andere lezers van dit bericht) vredige kerstdagen en een interessant, uitdagend en inspirerend 2020.
    En tot de goede voornemens voor 2020 hoort natuurlijk ook een bezoek aan Amsterdam op 19 maart.
    Laten we daar vast op toosten.

    Joyce, Monique, Marjo, Peter, Arno, Peter, Eric

    Februari

    IP gasthoofdredacteur Maxim Februari ontvangt de P.C. Hooft-prijs.


    Op de omslag van het decembernummer van ons vakblad IP en in het digitale IP-nieuws stond trots vermeld dat essayist / NRC-columnist / jurist / filosoof / …   Maxim Februari als gasthoofdredacteur voor dat nummer was opgetreden. Nog maar luttele dagen later explodeerde die trots zelfs, toen NRC en alle andere media meldden dat aan Maxim Februari de P.C. Hooft-prijs voor beschouwend proza was toegekend. Een wel heel gelukkige samenloop van gebeurtenissen.
    Er was voor onze partner IP dus alle reden om welgemeende gelukwensen naar de laureaat te doen uitgaan. Als VOGIN-IP-team sluiten we ons daar van harte bij aan.
    Wie geïnteresseerd is (en nog geen abonnee), kan hier een proefnummer van dit onvolprezen vakblad aanvragen.