Big data en data-mining

Iedereen lijkt het dezer dagen over big data te hebben. Daarbij is niet altijd duidelijk hoe big big eigenlijk is. En ook niet of het daarbij over data of misschien ook wel over tekst gaat.

Dat 28 maart over dit thema een workshop wordt gegeven, is hier al eerder aan de orde geweest. Maar dat we er ook een lezing over hebben, bleef nog wat onderbelicht. Laura Hollink van het CWI houdt zich bezig met analyses van grote hoeveelheden tekst. Dat doet ze onder andere in samenwerking met de KB. In bovenstaande video komt dat onder meer aan de orde.
In haar lezing op 28 maart zal ze het vooral hebben over de analyse van verschuivingen in de betekenis en gevoelswaarde van woorden in de loop van de tijd. Hoe uit grote tekstcorpora dergelijke verschuivingen afgeleid kunnen worden. Inzicht daarin is van belang voor een betere werking van zoeksystemen die materiaal uit heel verschillende periodes doorzoeken en ook voor automatische documentclassificatie van dergelijk materiaal. Wie nu al iets over het werk van Laura bij het CWI wil horen (of 28 maart niet bij haar lezing kan zijn), kan nu al vast dit filmpje van eind november vorig jaar bekijken.

Q&A met Ruben Verborgh

Uit het nieuwe nummer van IP (2018/2) een Q&A met keynote spreker Ruben Verborgh
.
Je waarschuwt dat blockchain ineens een hype is die overal bij betrokken wordt, of het nu zinnig is of niet. Maar je geeft ook aan dat in het domein van de informatieprofessional toepassingen mogelijk zijn. Wat zijn in het algemeen voorwaarden waaronder een blockchain-oplossing zinnig is?

Het hoofddoel van blockchain is om bindende akkoorden vast te leggen tussen meerdere partijen, zonder dat daarvoor vertrouwen nodig is in elkaar of in een centrale speler. We noemen dit gedistribueerde consensus. Het omgekeerde geldt echter ook: als partijen elkaar wel vertrouwen, of als ze al een centrale plek erkennen, dan hebben we wellicht geen blockchain nodig – zeker niet als er geen consensus nodig is. Bijvoorbeeld, als jij me een officieel bericht wilt sturen, kan je dit gewoon digitaal handtekenen, zonder blockchain.
Belangrijke randvoorwaarden voor zinnig gebruik zijn dus: meerdere partijen, afwezigheid van vertrouwen of autoriteit, en de noodzaak om tot een gezamenlijke waarheid te komen.

In je keynote ga je het hebben over toepassing van blockchain voor Linked Data. Wat maakt dat het daar dan wel zinnig kan zijn?

Linked Data is inherent ook gedistribueerd: elk stukje data kan op een andere plek staan. Blockchain kan dan nuttig zijn om vertrouwen te creëren in zo’n gedecentraliseerd netwerk van data. Omgekeerd kan Linked Data ook helpen met de beschrijving van data en afspraken binnen een blockchain, of met de interoperabiliteit tussen verschillende soorten blockchains. Dat klinkt nog wat ingewikkeld, maar in mijn lezing zal ik dat verder uitleggen.

Je hebt intussen ook een relatie gelegd met recente ideeën van jezelf en van Herbert van de Sompel voor volledig gedecentraliseerde systemen. Bijvoorbeeld een systeem van persoonlijke “datapods” waar ieder zijn eigen gegevens, publicaties, meningen etc. in kan stoppen *. Kun je hier al uitleggen wat dat met elkaar te maken heeft?

Het Web is op enkele jaren tijd sterk gecentraliseerd geraakt: steeds meer data komt in steeds minder verschillende platformen terecht, zoals bijvoorbeeld in Facebook. Langs de ene kant maakt zoiets een hele waaier aan intelligente services over die data mogelijk. Langs de andere kant zijn we zelf geen eigenaar van die intelligentie, en geven we bovendien ook de controle over onze data op. We kunnen ons dus de vraag stellen of dit een rechtvaardige prijs is.
Het idee achter persoonlijke datapods is dat we elk stukje data dat we genereren, in onze eigen opslagplek stoppen. Die bevat niet alleen data en metadata over onszelf en onze activiteiten, maar ook alle interacties met andere informatie. Als ik bijvoorbeeld een commentaar schrijf bij tekst in iemand anders datapod, dan wordt die commentaar bij mij opgeslagen en krijgt die ander bericht daarvan. De grote uitdaging is om toch een soortgelijke gebruikerservaring te bieden als in een gecentraliseerd systeem, ook al zitten deze stukjes data niet meer in één zo’n centraal platform. Voor de uitwisseling en verwerking van gegevens kunnen blockchains dan vertrouwensverbanden opzetten tussen verschillende persoonlijke datapods, onder meer als garantie voor de betrouwbaarheid en authenticiteit van de links tussen die componenten.

* zie: https://ruben.verborgh.org/blog/2017/12/20/paradigm-shifts-for-the-decentralized-web/
    en https://www.slideshare.net/hvdsomp/paul-evan-peters-lecture/

Zaal vrijwel vol

Met het nu geregistreerde aantal deelnemers is de grote zaal van de OBA eigenlijk al vol. Dat betekent:

  • Wie zich nu nog aanmeldt, komt voorlopig op een wachtlijst te staan. Een week voor het congres krijgen diegenen dan te horen of er toch nog plaatsen zijn vrijgekomen.
  • Degenen die zich al eerder hebben aangemeld, maar onverhoopt verhinderd zijn, wordt dringend verzocht zich tijdig af te melden. Het is niet alleen financieel gunstig om dat voor 18 maart te doen, maar het is ook aardig tegenover vakgenoten die op de wachtlijst terecht gekomen zijn.

Banner bij Bellingcat

Vorig jaar heeft VOGIN-IP een substantiële bijdrage gegeven voor de crowdfunding-actie van Bellingcat. Met ons bedrag werd precies het streefbedrag gepasseerd, waarbij alle toezeggingen gestand gedaan moesten worden. Als tegenprestatie mochten we een banner leveren die een week lang op de site van Bellingcat zou komen.
Deze week, even voor de komende VOGIN-IP-lezing, is dat geëffectueerd. Wie het met eigen ogen wil zien, kijke snel nog even op de site https://www.bellingcat.com/ of onderliggende pagina’s daarvan. Voor mobiel gebruik is er nog een aparte (ook Engelstalige) anders gedimensioneerde banner.
Niet dat we verwachten dat we met deze banners nog nieuwe internationale aanmeldingen binnenhalen (naast een paar uit België, Portugal en Zwitserland die we al hebben), maar je weet maar nooit. Overigens zijn onze banners over een week dus ook al weer weg 😦

Tripels

Op het plaatje hierboven zie je zes tripels. Maar slechts eentje daarvan komt op de VOGIN-IP-lezing aan de orde. Je mag zelf raden welke.
Over die ene soort tripels kun je dan wel op twee momenten iets te horen krijgen. In de beschrijving van de workshop van Martijn van der Kaaij worden die tripels expliciet genoemd. Het zijn de fundamentele beweringen waarmee dingen aan hun feitelijke eigenschappen worden gekoppeld. Zoals de bewering hierboven dat Karmeliet een Tripel is (maar dan van het andere soort). Martijn zal in zijn workshop vooral voorbeelden uit de erfgoedsector gebruiken om deze basisonderdelen van het semantisch web duidelijk te maken.
Dergelijke feitelijke beweringen in de vorm van tripels zijn ook de basis van Wikidata. Daarover komt Maarten Dammers namens Wikimedia NL een lezing geven. Wikidata is een enorm reservoir van feitelijke gegevens. Op dit moment zitten er meer dan 50 miljoen items in en nog wel wat meer tripels waarmee eigenschappen aan die items gekoppeld worden (zoals dat Karmeliet een Tripel is). Niet alleen ten behoeve van Wikipedia-lemma’s, maar ook voor ieder ander systeem kan daar via internet kennis aan ontleend worden. Hopelijk zal Maarten ook nog op de SPARQL-queries ingaan, waarmee je gericht gegevens kunt opvragen uit open systemen, zoals Wikidata, die data als tripels beschikbaar stellen. [Zie ook dit nieuwe artikel hierover: Bielefeldt, A., Gonsior, J., & Krötzsch, M. (2018). Practical Linked Data Access via SPARQL: The Case of Wikidata.]
Het is overigens goed je te realiseren dat Wikidata niet voor niets WIKIdata heet: iedereen kan er in principe gestructureerd gegevens aan toevoegen.

Achter de muur komen

Het Indiase e-magazine The Wire maakte zich een paar dagen geleden ook al kwaad dat Elsevier al die voor Indiase studenten onmisbare wetenschappelijke kennis achter betaalmuren stopt. Ook al heb je succes met zoeken en vinden, dan is dat meestal nog geen garantie voor “hebben of krijgen”. In het nogal polemische stuk in The Wire werd ook uitgebreid ingegaan op Sci-Hub en het vele gebruik van die piratensite om toch aan anders onbetaalbare wetenschappelijke artikelen te komen. En dat niet alleen vanuit minder kapitaalkrachtige landen, maar ook vanuit Europa en de VS. Maar eigenlijk zou de auteur zijn studenten niet naar zulke toch wat dubieuze sites willen verwijzen, waarvan het voortbestaan – mede door toedoen van de Elseviers van deze wereld – toch steeds wat onzeker is.
Hoewel we allemaal natuurlijk van harte hopen dat Open Access doorzet, zal voorlopig nog genoeg materiaal achter betaalmuren verdwijnen. En wat in het verleden al achter die muren geraakt is, komt daar vrijwel zeker niet zo snel meer achter vandaan. Vandaar dat allerlei methoden, tools en handigheidjes worden ontwikkeld om van artikelen die je nodig hebt, toch aan een gratis versie te komen. In eerste instantie liefst nog wel langs legale wegen. En intussen zijn er al zo veel van die wegen en methoden, dat UKB, het samenwerkingsverband van de Nederlandse Universiteits-bibliotheken en de KB, daar vorige week een nieuw overzicht van gepubliceerd heeft. Het is een lange PDF onder de naam “How to get the PDF” (al hoeven die artikelen lang niet altijd PDF’s te zijn). Toch blijkt zelfs die veelheid aan wegen nog regelmatig dood te lopen. Als nummer 12 op die lijst is daarom gelukkig toch ook Sci-Hub toegevoegd, de stormram van Alexandra Elbakyan waarmee bijna elke betaalmuur te slechten is.
Aan dat kunnen verkrijgen wat je gevonden hebt, wordt bij de VOGIN-IP-lezing ook aandacht besteed. In de workshop van Guus van den Brekel kunnen de deelnemers de methoden en tools om aan artikelen te komen zelf uitproberen. Ieder kan daarbij zelf kijken wat zijn of haar favoriete best-practice is. Neem daarvoor dus wel je laptop mee. Als je hier heen wilt en je hebt je nog niet aangemeld, doe dat dan snel, want de middagsessie van Guus is al volgeboekt.
[Het hier genoemde UKB-document is trouwens gebaseerd op een eerder door Guus voor de Universiteit Groningen gemaakt overzicht.]

VOGIN-cursus

VOGIN is niet alleen een van de organisatoren van de VOGIN-IP-lezing, maar verzorgt ook al sinds 1978 (!!) tweemaal per jaar een meerdaagse cursus “Online opsporen van informatie”. De inhoud van die cursus gaat tegenwoordig al heel wat verder dan alleen maar “zoeken en vinden” (het “opsporen” uit de titel). Het globale programma-overzicht van de komende voorjaarscursus geeft daar al een aardige indruk van:

5 DAAGSE VOGIN-CURSUS ONLINE OPSPOREN VAN INFORMATIE
(8, 9, 14, 15, 31 MEI 2018; 79ste EDITIE)

Programma:
Dag 1: Rol van de informatiespecialist; overzicht van het actuele informatielandschap; werken met Wikipedia en webzoekmachines
Dag 2: Gestructureerde zoeksystemen; meer succes met systematisch opgezette zoekacties; evalueren en verbeteren van zoekresultaten.
Dag 3: Nieuws, sociale media, image search, factchecking; gebruik van RSS/mashups en kennis van API’s.
Dag 4: Wetenschappelijke informatiesystemen; geavanceerd zoeken met citatiedatabases; impact en metrics; tekst- en data-mining.
Dag 5: Open Science en onderzoeksondersteuning.

Het gedetailleerde programma (plus lesmateriaal) van de vorige editie, is beschikbaar via https://tinyurl.com/vogincursus
Maar gezien de snelle veranderingen in het informatielandschap, zal de komende cursus er op een aantal punten al weer anders uitzien. Zo zal de nieuwe VOGIN-docent Hugo Benne die tijdens de VOGIN-IP-lezing op 28 maart een workshop over tekst- en datamining verzorgt, dat onderwerp ook in de VOGIN-cursus introduceren (dag 4).

Als je op de VOGIN-IP-lezing de smaak van het zoeken en vinden te pakken krijgt, dompel je dan ook eens onder in deze intensieve cursus. Meer informatie: https://www.vogin.nl/academie/cursussen/
Aanmelden:

  • per mail:   msu.library@wur.nl   (+ graag cc. aan   jeroensbox@gmail.com)
  • per telefoon:   0317 – 485479   (mevr. J. Smelik)
  • Mijnen in een geflipt klaslokaal

    De flipped classroom is een bij onderwijs en training plotseling veel gebruikte term. Gewone mensen zal die term misschien niet meteen veel zeggen. Toch wil Hugo Benne dat deelnemers aan zijn workshop “Tekst- en datamining” die methode gaan toepassen. Of liever gezegd: hij wil het op zijn deelnemers toepassen. Formeel houdt dat flippen van de classroom ongeveer in dat uitleg die normaal in de klas gegeven wordt, thuis vast bestudeerd moet worden en dat de oefeningen die normaal als huiswerk worden meegegeven, meteen in de klas worden gedaan. Nu ligt dat laatste bij ons soort workshops natuurlijk altijd al anders. Maar om meer tijd over te houden voor practisch oefenen, wordt van deelnemers aan de workshop “Tekst- en datamining” wel verwacht dat ze vooraf al een tekstje (de “theorie”) hebben gelezen en dat ze de voor het minen te gebruiken software vast op hun laptop geïnstalleerd hebben. Alleen zo kan onze eerdere toezegging “data-expert in twee uur” worden waargemaakt. Benodigde informatie om de classroom te kunnen flippen krijgen de deelnemers tijdig vooraf toegestuurd.
    Voor deze workshop zijn nog plaatsen beschikbaar.uit artikel NRC https://www.nrc.nl/nieuws/2017/11/24/het-kan-data-expert-worden-in-een-dag-14211272-a1582519

    Digital forensics: zoeken, verifiëren en analyseren

    Het optreden van Christiaan Triebert bij DWDD had de 11-jarige Manu vorig jaar gemotiveerd om Bellingcat-technieken te willen toepassen voor een werkstuk voor school. Dat betrof nader onderzoek naar het illegaal oogsten van haaienvinnen. De Bellingcat gemeenschap heeft hem daar zelf ook nog wel wat bij geholpen. Dat liep uit op een geslaagd werkstuk plus een bezoekje van Christiaan, zoals bovenstaande foto laat zien.

    Zou je als informatiespecialist die technieken eigenlijk niet ook al moeten beheersen? In de praktijk misschien toch nog niet echt. Want wat Bellingcat doet, is een mengsel van meer technieken en competenties dan waar de informatieprofessional meestal mee te maken heeft gehad. Een mengsel van bronnenkennis, zoektechniek, verificatie- en analysetechnieken en een heleboel recherche-achtige slimheid. In de workshop van Christiaan op 28 maart komen fundamenten daarvan aan de orde. In twee uur natuurlijk niet zo veel als in de vijfdaagse cursus die Bellingcat daar in diverse landen zelf voor organiseert (met o.a. Henk van Ess en Christiaan als docenten).

    En wil je nu al testen of je die workshop van Christiaan nog nodig hebt, of dat je dit misschien toch al goed kunt? Er zijn allerlei online quizzen via Twitter waarin foto’s of video’s geanalyseerd moeten worden. Bellingcat heeft daar een mooi lijstje van: https://www.bellingcat.com/resources/2017/11/13/daily-verification-quizzes/
    Zo is er elke dag van de week wel eentje:

    • #MondayQuiz: Julia Bayer (Deutsche Welle)
    • #TuesdayQuiz: Lars Wienand (Funke)
    • #WednesdayQuiz: Tilman Wagner (Deutsche Welle)
    • #ThursdayQuiz: Christiaan Triebert (Bellingcat)
    • #FridayQuiz: Marco Bereth (ZDF), Philipp Dudek (FVW), Fiete Stegers (NDR).

    En als hulpmiddel hierbij kun je in elk geval gebruik maken van het overzicht van Bellingcat’s Digital Forensics Tools – A List of Open Source Verification and Investigation Tools and Methods.
    Maar het is natuurlijk veel leuker om van Christiaan zelf te leren hoe je een foto of video relateert aan een locatie op Google Maps (of een andere bron voor satellietbeelden) en hoe je bepaalt wanneer die opname gemaakt is. Je zult dan wel wat simpeler voorbeelden krijgen dan meteen het lokaliseren van een foto van een vrachtauto met een Buk-raket of een video van de liquidatie van IS-strijders door een militieleider in Libië.

    [Voor deze workshop is nog een aantal plaatsen beschikbaar, vooral in de ochtend]

    Speaker in the spotlight: David Graus

    Afgelopen zomer is David Graus gepromoveerd op een proefschrift “Entities of interest : Discovery in digital traces“. Zoals die (onder)titel al aangeeft, heeft hij daarin onderzoek gedaan naar de sporen die we voortdurend op internet achterlaten. Hij ontwikkelde daartoe rekenmethodes om die grote hoeveelheden gegevens (echte “big data”) te analyseren en te exploreren teneinde daar betekenis in te ontdekken. En een van de doelen daarvan is om uiteindelijk op basis van gegevens uit het verleden, iemands toekomstige activiteiten te kunnen voorspellen. Resultaten uit het verleden moeten zo dus wel garantie voor de toekomst gaan bieden.

    Onder de kop Deze promovendus weet alles over jouw online voetafdruk schreef het Amsterdamse universiteitsblad Folia over David’s promotie dat hij

    “zich met name bewust geworden [is] van de voordelen van het achterlaten van digitale sporen. ‘Mensen zien het als iets negatiefs, maar nemen de positieve dingen voor lief. Het is een transactie. Een site als Google zou veel minder goed werken als het ons gedrag niet zou monitoren.’ “

    Op dit soort onderwerpen – en de spanning die er natuurlijk wel is tussen dergelijke personalisatie en privacy – zal David ook ingaan in zijn lezing in het lezingentrack in de ochtend op 28 maart.

    Intussen werkt David bij de FD Mediagroep, het bedrijf achter onder meer Het Financieele Dagblad en BNR Nieuwsradio. Ook daar werkt hij aan dit soort onderwerpen, zoals blijkt uit zijn recente artikel op de Company.info-blog over “Machine learning en voorspellende inzichten uit bedrijfsinformatie“.
    Vorige week meldde David ook dat een artikel dat hij nog bij de UVA, samen met Daan Odijk en Maarten de Rijke geschreven had, eindelijk in JASIST gepubliceerd was: The birth of collective memories: Analyzing emerging entities in text streams.
    En dat is in Open Access! 😉