Gereedschappen voor de informatieprofessional

Als je enige gereedschap een hamer is, dan zie je elk probleem als een spijker. Dit gezegde indachtig, is het ook voor een informatieprofessional nuttig over meer gereedschappen te beschikken dan alleen hun “hamer”. Daarom is het heel plezierig dat dit jaar veel van de workshops bij de VOGIN-IP-lezing te maken hebben met gereedschappen voor informatieprofessionals. Je leert daarin om te gaan met tools en technieken voor het bewerken van beschikbare digitale gegevens om ze zelf beter te kunnen verwerken of om anderen er makkelijker iets mee te laten doen. Wat zijn die workshops en welke gereedschappen bieden ze?

De workshop van Kristina Hettne biedt een echte gereedschapskist voor digitale vaardigheden. Daartoe put zij uit het ruime aanbod van de Library Carpentry Community die zich richt op “efficient, effective and reproducible data and software practice“. In haar workshop gaan de deelnemers samen ontdekken hoe verschillende gereedschappen zoals spreadsheetprogramma’s, OpenRefine, R en RMarkdown hen in hun werk kunnen ondersteunen. En ook in welke omstandigheden ze het beste welke tool kunnen gebruiken. Om optimaal van zulke digitale gereedschappen gebruik te kunnen maken, zijn basale digitale vaardigheden nodig. Daartoe wordt gekeken naar de lessen van de “Carpentries” als een voorbeeld van een leeromgeving waarmee je ook zelf aan de slag kunt.

In de workshop van Sandra Fauconnier komt één specifiek stuk gereedschap aan de orde. Met de gratis open source software OpenRefine kun je datasets bewerken en zelfs heel grote datasets, tot honderdduizenden records, kun je daarmee manipuleren, transformeren naar andere formaten en koppelen (‘reconcilen’) met externe databronnen en kennisbanken, zoals Wikidata. OpenRefine wordt gebruikt in veel projecten rond Linked Open Data en is een populair gereedschap in de Wikimedia-gemeenschap.
Je hebt er geen programmeerervaring voor nodig. In Sandra’s workshop leer je alle basishandelingen van de software: data analyseren, filteren, transformeren, clusteren, en ‘reconcilen’ met Wikidata, zodat je na de workshop zelfstandig met OpenRefine aan de slag kunt.

In de workshop van Max Kemman leer je grote hoeveelheden tekst te analyseren, alsof het data is. Je maakt daarin kennis met een aantal tools, die helpen om overzichten te creëren van (grote) datasets van teksten. Daarmee kun je overzichten maken van boeken, wetenschappelijke artikelen, kranten, tweets of e-mails en kun je bijvoorbeeld ontdekken hoe verschillende thema’s zich door de tijd ontwikkelen en of er teksten zijn die afwijken van de rest. Tijdens de workshop gebruik je hiervoor Voyant Tools, een online omgeving waarin allerlei soorten overzichten gemaakt kunnen worden, zoals woordenwolken, topic models, woordentrends en afwijkende woorden per onderdeel. Voor de workshop zal een collectie teksten klaar staan om mee te werken, maar het is natuurlijk nog leuker als je zelf een dataset van eigen teksten mee kunt nemen.

De workshop van Wouter Beek en Thomas de Groot laat je kennis maken met linked data, zowel om eigen data geschikt te maken om ze als linked data beschikbaar te stellen, als om die van anderen te hergebruiken. Nu organisaties steeds meer data met elkaar uitwisselen, wordt het lastiger om data efficiënt te combineren. Daarbij ontstaan vaak steeds meer kopieën van dezelfde gegevens. Met Linked data kun je verschillende databronnen met elkaar verbinden.
In deze workshop werk je met TriplyDB, een SaaS-georiënteerd database product. Aan de hand van concrete voorbeelden krijg je te zien wat de voordelen van linked data zijn. Deelnemers kunnen zelf data als linked data in TriplyDB uploaden en gebruiken. Dat biedt aanknopingspunten voor hoe je linked data binnen je eigen organisatie kunt inzetten om je werk makkelijker te maken.

Wikidata is een bron die feitelijke gegevens bevat over intussen al bijna 100 miljoen entiteiten of “data items”. Het is een vrij bewerkbare linked open dataset waaraan wereldwijd informatie wordt toegevoegd. Dat gebeurt deels handmatig en deels geautomatiseerd door import uit andere bronnen. Andere systemen kunnen daar ook weer gegevens aan ontlenen. En bovendien kunnen ook allerlei complexe analyses op de gegevens uitgevoerd worden. In de workshop van Hanno Lans, werken met Wikidata, wordt onder meer gekeken naar de mogelijkheden die Wikidata biedt om de datakwaliteit te verhogen van datasets van erfgoedinstellingen, met name gegevens van personen. Voor instellingen is het een groot voordeel dat de soms summiere informatie die in de eigen data aanwezig is, via dit kanaal verrijkt kan worden. In de workshop wordt aan de hand van de collecties van Paleis het Loo en Wereldculturen gekeken hoe op gestructureerde wijze data toegevoegd, gemonitord en teruggehaald kan worden. Ook wordt praktisch ingegaan op de werkwijze binnen Wikidata en wordt aandacht besteed aan handige hulpmiddelen zoals OpenRefine om zelf data te kunnen bewerken.

Hopelijk kan dit overzicht een beetje helpen bij het reduceren van de keuzestress die je wellicht voelt als je bij je aanmelding moet aanvinken welke onderdelen uit ons programma je 11 mei wilt volgen.