Wikidata: feiten over meer dan 60 miljoen entiteiten


Op 20 december heeft iemand het 60 miljoenste “ding” in Wikidata ingevoerd. Wat het was zie je hierboven. De identifier Q60000000 maakt onomstotelijk duidelijk dat dit het 60 miljoenste item was. Het hoogste nummer dat ik op dit moment (vrijdag 11 januari, 15.45 uur) tegenkwam, was intussen al Q60556989 (Tehallan, een county in Ierland). Dat waren dus al 556.989 nieuwe items in drie weken (en dat ook nog in de kerstvakantie – of misschien wel “juist”). Van elk van die items in Wikidata kunnen ook allerlei eigenschappen en relaties geregistreerd worden (in het voorbeeld hierboven niet getoond).
Deze twee voorbeelden illustreren dat de talloze vrijwilligers die gegevens toevoegen, er zowel wetenschappelijke als meer algemene informatie instoppen. Met gegevens over die meer dan 60 miljoen entiteiten is dit een onuitputtelijk Linked Open Data bron, waaruit andere systemen – de Wikipedia voorop – feitelijke informatie kunnen halen.
Zo maakt bijvoorbeeld het onderzoeksportaal van de KB gebruik van Wikidata om in de krantenartikelen in Delpher zogenaamde named entities te identificeren en om daarover extra gegevens te kunnen presenteren. Theo van Veen maakt zich er dan ook sterk voor dat Wikidata dienst gaat doen als een soort universele gemeenschappelijke thesaurus en de Wikidata-identifier (dat Q-nummer) als DE identifier voor entiteiten. Hij schreef daarover al eerder in IP. Op KNVI’s Smart Humanity Event had hij er in december een lezing over en in de KB onderzoekskroniek in het decembernummer van IP kwam het ook al ter sprake.

Maar hoe haal je nou gegevens uit die gigantische vergaarbak met data. Om in Linked Open Data bronnen zoals Wikidata te zoeken, is een speciale querytaal ontwikkeld: SPARQL. Die naam is een zogenaamd recursief acroniem voor “SPARQL Protocol and RDF Query Language”. SPARQL is best een ingewikkelde querytaal, maar er zijn gelukkig wel wat tooltjes die kunnen helpen om dergelijke queries te formuleren. En ook voor informatieprofessionals is het zeker nuttig er iets van te weten. Zeker als je wilt bijdragen of ontlenen aan Wikidata. Maar hoe kun je iets van SPARQL leren?
Daar komt dan eindelijk de aap uit onze mouw: op 21 maart hebben we daar namelijk een workshop voor. Maarten Dammers die vorig jaar al een leuke lezing over dit onderwerp gaf, verzorgt dit jaar een workshop waarin je zelf met Wikidata en SPARQL aan de gang kunt. Waar wacht je dus nog op?

Alexander Pleijter op de radio

Behalve dat Alexander Pleijter op de VOGIN-IP-lezing workshops Factchecking verzorgt, is hij vanmiddag ook op de radio bij het VPRO-programma Argos, om het over factchecking en nepnieuws te hebben.

Uit de beschrijving op de Argos-site:

“Wat is hij eigenlijk, wetenschapper of (onderzoeks)journalist? Geen van beide helemaal, zegt hij zelf. Wel is Alexander Pleijter, universitair docent Journalistiek en nieuwe media aan de Universiteit Leiden, specialist op het gebied van bronnengebruik van journalisten. Lang voordat fakenews een scheldwoord werd, trainde hij al studenten in het ontmaskeren van desinformatie. En dat doet hij nog steeds. Alexander Pleijter is een luis in de pels van de journalistiek en in Argos praten we met hem onder meer over de toekomst van het vak in tijden van ongebreidelde verspreiding van nepnieuws.”

De workshops


Hier al vast een overzicht van alle workshops waaruit je voor 21 maart kunt kiezen. Hoewel aanmelding daarvoor pas vanaf volgende week mogelijk is, kun je nu al vast over de moeilijke keuze gaan nadenken …..

  • Joyce van Aalten
  • Daphne Shinn
  • Enterprise Knowledge Graphs
  • Hugo Benne
  • Zoekmachinemarketing
  • Guus van den Brekel
  • Hoe kom ik nu aan de full-text?
  • Maarten Dammers
  • Wikidata en SPARQL
  • Ellen Fest
  • Hilde van Zeeland
  • Zoeken naar onderzoeksdata
  • Heather Hedden
  • Taxonomy design best practices
  • Frank Huysmans
  • Politiek en informatie – Informatie, data en macht in de 21e eeuw
  • Bianca Kramer
  • Jeroen Bosman
  • Semantische zoekmachines voor wetenschap

  • Alexander Pleijter of Peter Burger
  • Zo word je factchecker
  • Eric Sieverts
  • Automatisch metadateren en categoriseren

    Not so accidental taxonomies


    Het boek “The Accidental Taxonomist” was ooit al eens in deze blog ter sprake geweest. Nu hebben we een goede reden dat weer te doen, want de auteur van dat boek, Heather Hedden, komt 21 maart een workshop geven over – uiteraard – taxonomieën. Daarbij komen zowel de zoekkant – hoe kun je er gebruik van maken bij het zoeken naar informatie – als de maakkant aan de orde. Aan die maakkant zijn de best practices voor het opzetten van een taxonomie er natuurlijk vooral op gericht om het zoekers makkelijker te maken iets te vinden. Het zijn twee kanten van dezelfde medaille of zo je wilt de twee gezichten van Janus (die soms aan dezelfde kant van één medaille kunnen zitten …..).
    In de introductie tot haar workshop formuleert Heather het zelf aldus: “Taxonomies support information findability, but only if they are well designed“.
    De taxonomieën zelf moeten dus beslist niet zo “accidental” zijn. En het uitsluiten van zulk toeval is wat in deze workshop vooral aan de orde zal komen.

    Workshop “Taxonomy design best practices”
    Taxonomies support information findability, but only if they are well designed. This workshop will present best practices principles in designing taxonomies, including the basics of terms and relationships, along with structural design issues. The workshop will also present ways that taxonomy terms are displayed to end-users to support search.

    Workshop outline:
    Introduction to taxonomies and other knowledge organization systems

  • Types and uses
  • Standards and models
  • Taxonomies and metadata
  • Taxonomies in support of search

  • Searching on taxonomies
  • Taxonomies for post-search refinements
  • Knowledge graphs
  • Term creation

  • Wording of terms
  • Synonyms/alternative labels
  • Term relationships

  • Hierarchical relationships
  • Associative relationships
  • Semantic relationships
  • Structural design

  • Hierarchical taxonomy design
  • Faceted taxonomy design
  • User displays

  • Hierarchical display options
  • Faceted taxonomy displays
  • Hierarchical-faceted combinations
  • Prijzen voor onze workshopdocenten

    Recent is een tweetal van onze workshopdocenten bekroond met een leuke prijs.


    Op het congres van EAHIL (European Association for Health Information and Libraries) afgelopen juli, kreeg Guus van den Brekel een award voor al het werk dat hij door de jaren heen voor en met EAHIL had gedaan. ‘Het is een soort lifetime achievement’ aldus Guus op de IP-site.
    Tijdens de laatste VOGIN-IP-lezing verzorgde Guus een druk bezochte workshop “Hoe kom ik nu aan de full-text”. Voor de mensen die er toen niet bij konden zijn, zal hij in maart een reprise en update van zijn workshop verzorgen.

    Een meer recente bekroning was voor Peter Burger, die in 2016 zowel een lezing als een workshop heeft verzorgd over factchecking en nepnieuws (hoewel die laatste benaming toen waarschijnlijk nog net niet bestond). Peter heeft 3 november op het Skepsiscongres 2018 de Piramidependelprijs gekregen.


    Dat was voor zijn gehele oeuvre, maar in het bijzonder voor het werk aan Nieuwscheckers dat hij samen met Alexander Pleijter doet. Illustere voorgangers van Peter waren Arjen Lubach, die de prijs in 2016 uitgereikt kreeg, en eerder al Midas Dekkers en Wim T. Schippers.
    Van het duo Peter Burger – Alexander Pleijter, zal één van beide op de komende VOGIN-IP-lezing ook weer een workshop over factchecking verzorgen.

    Tripels

    Op het plaatje hierboven zie je zes tripels. Maar slechts eentje daarvan komt op de VOGIN-IP-lezing aan de orde. Je mag zelf raden welke.
    Over die ene soort tripels kun je dan wel op twee momenten iets te horen krijgen. In de beschrijving van de workshop van Martijn van der Kaaij worden die tripels expliciet genoemd. Het zijn de fundamentele beweringen waarmee dingen aan hun feitelijke eigenschappen worden gekoppeld. Zoals de bewering hierboven dat Karmeliet een Tripel is (maar dan van het andere soort). Martijn zal in zijn workshop vooral voorbeelden uit de erfgoedsector gebruiken om deze basisonderdelen van het semantisch web duidelijk te maken.
    Dergelijke feitelijke beweringen in de vorm van tripels zijn ook de basis van Wikidata. Daarover komt Maarten Dammers namens Wikimedia NL een lezing geven. Wikidata is een enorm reservoir van feitelijke gegevens. Op dit moment zitten er meer dan 50 miljoen items in en nog wel wat meer tripels waarmee eigenschappen aan die items gekoppeld worden (zoals dat Karmeliet een Tripel is). Niet alleen ten behoeve van Wikipedia-lemma’s, maar ook voor ieder ander systeem kan daar via internet kennis aan ontleend worden. Hopelijk zal Maarten ook nog op de SPARQL-queries ingaan, waarmee je gericht gegevens kunt opvragen uit open systemen, zoals Wikidata, die data als tripels beschikbaar stellen. [Zie ook dit nieuwe artikel hierover: Bielefeldt, A., Gonsior, J., & Krötzsch, M. (2018). Practical Linked Data Access via SPARQL: The Case of Wikidata.]
    Het is overigens goed je te realiseren dat Wikidata niet voor niets WIKIdata heet: iedereen kan er in principe gestructureerd gegevens aan toevoegen.

    Achter de muur komen

    Het Indiase e-magazine The Wire maakte zich een paar dagen geleden ook al kwaad dat Elsevier al die voor Indiase studenten onmisbare wetenschappelijke kennis achter betaalmuren stopt. Ook al heb je succes met zoeken en vinden, dan is dat meestal nog geen garantie voor “hebben of krijgen”. In het nogal polemische stuk in The Wire werd ook uitgebreid ingegaan op Sci-Hub en het vele gebruik van die piratensite om toch aan anders onbetaalbare wetenschappelijke artikelen te komen. En dat niet alleen vanuit minder kapitaalkrachtige landen, maar ook vanuit Europa en de VS. Maar eigenlijk zou de auteur zijn studenten niet naar zulke toch wat dubieuze sites willen verwijzen, waarvan het voortbestaan – mede door toedoen van de Elseviers van deze wereld – toch steeds wat onzeker is.
    Hoewel we allemaal natuurlijk van harte hopen dat Open Access doorzet, zal voorlopig nog genoeg materiaal achter betaalmuren verdwijnen. En wat in het verleden al achter die muren geraakt is, komt daar vrijwel zeker niet zo snel meer achter vandaan. Vandaar dat allerlei methoden, tools en handigheidjes worden ontwikkeld om van artikelen die je nodig hebt, toch aan een gratis versie te komen. In eerste instantie liefst nog wel langs legale wegen. En intussen zijn er al zo veel van die wegen en methoden, dat UKB, het samenwerkingsverband van de Nederlandse Universiteits-bibliotheken en de KB, daar vorige week een nieuw overzicht van gepubliceerd heeft. Het is een lange PDF onder de naam “How to get the PDF” (al hoeven die artikelen lang niet altijd PDF’s te zijn). Toch blijkt zelfs die veelheid aan wegen nog regelmatig dood te lopen. Als nummer 12 op die lijst is daarom gelukkig toch ook Sci-Hub toegevoegd, de stormram van Alexandra Elbakyan waarmee bijna elke betaalmuur te slechten is.
    Aan dat kunnen verkrijgen wat je gevonden hebt, wordt bij de VOGIN-IP-lezing ook aandacht besteed. In de workshop van Guus van den Brekel kunnen de deelnemers de methoden en tools om aan artikelen te komen zelf uitproberen. Ieder kan daarbij zelf kijken wat zijn of haar favoriete best-practice is. Neem daarvoor dus wel je laptop mee. Als je hier heen wilt en je hebt je nog niet aangemeld, doe dat dan snel, want de middagsessie van Guus is al volgeboekt.
    [Het hier genoemde UKB-document is trouwens gebaseerd op een eerder door Guus voor de Universiteit Groningen gemaakt overzicht.]

    Mijnen in een geflipt klaslokaal

    De flipped classroom is een bij onderwijs en training plotseling veel gebruikte term. Gewone mensen zal die term misschien niet meteen veel zeggen. Toch wil Hugo Benne dat deelnemers aan zijn workshop “Tekst- en datamining” die methode gaan toepassen. Of liever gezegd: hij wil het op zijn deelnemers toepassen. Formeel houdt dat flippen van de classroom ongeveer in dat uitleg die normaal in de klas gegeven wordt, thuis vast bestudeerd moet worden en dat de oefeningen die normaal als huiswerk worden meegegeven, meteen in de klas worden gedaan. Nu ligt dat laatste bij ons soort workshops natuurlijk altijd al anders. Maar om meer tijd over te houden voor practisch oefenen, wordt van deelnemers aan de workshop “Tekst- en datamining” wel verwacht dat ze vooraf al een tekstje (de “theorie”) hebben gelezen en dat ze de voor het minen te gebruiken software vast op hun laptop geïnstalleerd hebben. Alleen zo kan onze eerdere toezegging “data-expert in twee uur” worden waargemaakt. Benodigde informatie om de classroom te kunnen flippen krijgen de deelnemers tijdig vooraf toegestuurd.
    Voor deze workshop zijn nog plaatsen beschikbaar.uit artikel NRC https://www.nrc.nl/nieuws/2017/11/24/het-kan-data-expert-worden-in-een-dag-14211272-a1582519