Wikidata: feiten over meer dan 60 miljoen entiteiten


Op 20 december heeft iemand het 60 miljoenste “ding” in Wikidata ingevoerd. Wat het was zie je hierboven. De identifier Q60000000 maakt onomstotelijk duidelijk dat dit het 60 miljoenste item was. Het hoogste nummer dat ik op dit moment (vrijdag 11 januari, 15.45 uur) tegenkwam, was intussen al Q60556989 (Tehallan, een county in Ierland). Dat waren dus al 556.989 nieuwe items in drie weken (en dat ook nog in de kerstvakantie – of misschien wel “juist”). Van elk van die items in Wikidata kunnen ook allerlei eigenschappen en relaties geregistreerd worden (in het voorbeeld hierboven niet getoond).
Deze twee voorbeelden illustreren dat de talloze vrijwilligers die gegevens toevoegen, er zowel wetenschappelijke als meer algemene informatie instoppen. Met gegevens over die meer dan 60 miljoen entiteiten is dit een onuitputtelijk Linked Open Data bron, waaruit andere systemen – de Wikipedia voorop – feitelijke informatie kunnen halen.
Zo maakt bijvoorbeeld het onderzoeksportaal van de KB gebruik van Wikidata om in de krantenartikelen in Delpher zogenaamde named entities te identificeren en om daarover extra gegevens te kunnen presenteren. Theo van Veen maakt zich er dan ook sterk voor dat Wikidata dienst gaat doen als een soort universele gemeenschappelijke thesaurus en de Wikidata-identifier (dat Q-nummer) als DE identifier voor entiteiten. Hij schreef daarover al eerder in IP. Op KNVI’s Smart Humanity Event had hij er in december een lezing over en in de KB onderzoekskroniek in het decembernummer van IP kwam het ook al ter sprake.

Maar hoe haal je nou gegevens uit die gigantische vergaarbak met data. Om in Linked Open Data bronnen zoals Wikidata te zoeken, is een speciale querytaal ontwikkeld: SPARQL. Die naam is een zogenaamd recursief acroniem voor “SPARQL Protocol and RDF Query Language”. SPARQL is best een ingewikkelde querytaal, maar er zijn gelukkig wel wat tooltjes die kunnen helpen om dergelijke queries te formuleren. En ook voor informatieprofessionals is het zeker nuttig er iets van te weten. Zeker als je wilt bijdragen of ontlenen aan Wikidata. Maar hoe kun je iets van SPARQL leren?
Daar komt dan eindelijk de aap uit onze mouw: op 21 maart hebben we daar namelijk een workshop voor. Maarten Dammers die vorig jaar al een leuke lezing over dit onderwerp gaf, verzorgt dit jaar een workshop waarin je zelf met Wikidata en SPARQL aan de gang kunt. Waar wacht je dus nog op?

Tripels

Op het plaatje hierboven zie je zes tripels. Maar slechts eentje daarvan komt op de VOGIN-IP-lezing aan de orde. Je mag zelf raden welke.
Over die ene soort tripels kun je dan wel op twee momenten iets te horen krijgen. In de beschrijving van de workshop van Martijn van der Kaaij worden die tripels expliciet genoemd. Het zijn de fundamentele beweringen waarmee dingen aan hun feitelijke eigenschappen worden gekoppeld. Zoals de bewering hierboven dat Karmeliet een Tripel is (maar dan van het andere soort). Martijn zal in zijn workshop vooral voorbeelden uit de erfgoedsector gebruiken om deze basisonderdelen van het semantisch web duidelijk te maken.
Dergelijke feitelijke beweringen in de vorm van tripels zijn ook de basis van Wikidata. Daarover komt Maarten Dammers namens Wikimedia NL een lezing geven. Wikidata is een enorm reservoir van feitelijke gegevens. Op dit moment zitten er meer dan 50 miljoen items in en nog wel wat meer tripels waarmee eigenschappen aan die items gekoppeld worden (zoals dat Karmeliet een Tripel is). Niet alleen ten behoeve van Wikipedia-lemma’s, maar ook voor ieder ander systeem kan daar via internet kennis aan ontleend worden. Hopelijk zal Maarten ook nog op de SPARQL-queries ingaan, waarmee je gericht gegevens kunt opvragen uit open systemen, zoals Wikidata, die data als tripels beschikbaar stellen. [Zie ook dit nieuwe artikel hierover: Bielefeldt, A., Gonsior, J., & Krötzsch, M. (2018). Practical Linked Data Access via SPARQL: The Case of Wikidata.]
Het is overigens goed je te realiseren dat Wikidata niet voor niets WIKIdata heet: iedereen kan er in principe gestructureerd gegevens aan toevoegen.