Big data en data-mining

Iedereen lijkt het dezer dagen over big data te hebben. Daarbij is niet altijd duidelijk hoe big big eigenlijk is. En ook niet of het daarbij over data of misschien ook wel over tekst gaat.

Dat 28 maart over dit thema een workshop wordt gegeven, is hier al eerder aan de orde geweest. Maar dat we er ook een lezing over hebben, bleef nog wat onderbelicht. Laura Hollink van het CWI houdt zich bezig met analyses van grote hoeveelheden tekst. Dat doet ze onder andere in samenwerking met de KB. In bovenstaande video komt dat onder meer aan de orde.
In haar lezing op 28 maart zal ze het vooral hebben over de analyse van verschuivingen in de betekenis en gevoelswaarde van woorden in de loop van de tijd. Hoe uit grote tekstcorpora dergelijke verschuivingen afgeleid kunnen worden. Inzicht daarin is van belang voor een betere werking van zoeksystemen die materiaal uit heel verschillende periodes doorzoeken en ook voor automatische documentclassificatie van dergelijk materiaal. Wie nu al iets over het werk van Laura bij het CWI wil horen (of 28 maart niet bij haar lezing kan zijn), kan nu al vast dit filmpje van eind november vorig jaar bekijken.

Tripels

Op het plaatje hierboven zie je zes tripels. Maar slechts eentje daarvan komt op de VOGIN-IP-lezing aan de orde. Je mag zelf raden welke.
Over die ene soort tripels kun je dan wel op twee momenten iets te horen krijgen. In de beschrijving van de workshop van Martijn van der Kaaij worden die tripels expliciet genoemd. Het zijn de fundamentele beweringen waarmee dingen aan hun feitelijke eigenschappen worden gekoppeld. Zoals de bewering hierboven dat Karmeliet een Tripel is (maar dan van het andere soort). Martijn zal in zijn workshop vooral voorbeelden uit de erfgoedsector gebruiken om deze basisonderdelen van het semantisch web duidelijk te maken.
Dergelijke feitelijke beweringen in de vorm van tripels zijn ook de basis van Wikidata. Daarover komt Maarten Dammers namens Wikimedia NL een lezing geven. Wikidata is een enorm reservoir van feitelijke gegevens. Op dit moment zitten er meer dan 50 miljoen items in en nog wel wat meer tripels waarmee eigenschappen aan die items gekoppeld worden (zoals dat Karmeliet een Tripel is). Niet alleen ten behoeve van Wikipedia-lemma’s, maar ook voor ieder ander systeem kan daar via internet kennis aan ontleend worden. Hopelijk zal Maarten ook nog op de SPARQL-queries ingaan, waarmee je gericht gegevens kunt opvragen uit open systemen, zoals Wikidata, die data als tripels beschikbaar stellen. [Zie ook dit nieuwe artikel hierover: Bielefeldt, A., Gonsior, J., & Krötzsch, M. (2018). Practical Linked Data Access via SPARQL: The Case of Wikidata.]
Het is overigens goed je te realiseren dat Wikidata niet voor niets WIKIdata heet: iedereen kan er in principe gestructureerd gegevens aan toevoegen.

En hoe doet de politie dat nou?

Een bericht van Arno Reuser:
Begin februari is een 18-jarige jongen opgepakt voor een DDoS aanval op de website van de belastingdienst. Hoe kom je er nu achter wie dat heeft gedaan? Hoe doen echte politiemensen echt onderzoek in sociale media, real-time, om boeven te vangen en strafbare feiten te vinden? Twee echte politiemensen die gepokt en gemazeld zijn in diepgravend onderzoek in onder andere sociale media komen in hun lezing vertellen en in hun workshop laten zien, hoe ze dat doen; de methoden en de technieken.
Uw kans voor een kijkje in de achterkamers van de nationale politie. Met echte politiemensen, uit de praktijk.

NB: De workshop van Rein Tellier & Elwin de Man is intussen al bijna volgeboekt.

Dit zijn ze dan

Dit zijn de negen sprekers die 28 maart in acht lezingen aan het woord komen; met linksboven en rechtsonder onze keynote sprekers. In elk geval om te zien is het al een afwisselend gezelschap. Wie preciezer wil weten waar ze het over gaan hebben (en wie ze zijn), moet de teksten op onze lezingenpagina maar eens zorgvuldig doornemen.
Als je bij hun lezingen wilt zijn, moet je je natuurlijk tijdig aanmelden voor deze dag (als je dat niet al gedaan hebt). En daarbij heb je dan nog de moeilijke keuze of je bij een lezingentrack wilt zijn of bij een van de minstens even interessante workshops die je ook nog kunt volgen. Kijk maar naar het programma.
Een ware “embarras du choix” oftewel keuzestress.

Speaker Spotlight: Suzan Verberne


Als je leest waar Suzan (@suzan) Verberne zich mee bezig houdt in haar tegenwoordige functie bij de Universiteit Leiden, kom je veelvuldig het begrip text mining tegen. Waarom gaat ze het bij ons dan hebben over het automatisch classificeren van tekstuele informatie? Dat is niet zo gek als het misschien lijkt, want te classificeren teksten moeten daarvoor ook eerst gemined worden. Bij steeds meer praktische toepassingen zie je dergelijke technieken terugkomen.
Dat Suzan niet alleen puur wetenschappelijk gefocust is, blijkt wel uit het feit dat ze vorige maand bij de Universiteit van Nederland ook een college voor een algemeen publiek heeft verzorgd. Onder de spannende titel “Maakte Rembrandt wel eens een lachende selfie?” komen daarin allerlei aspecten van zoeken aan de orde. Het is zeker de moeite waard om dit college al eens af te spelen. Het maakt meteen enthousiast om ook haar lezing in het ochtendprogramma van de VOGIN-IP-lezing te willen bijwonen, want die zal natuurlijk veel meer op zoekspecialisten zoals wij gericht zijn. En … bij ons heeft ze natuurlijk heel wat langer dan tien minuten de tijd om haar punt te maken.

Breaking: Joseph Busch verzorgt keynote

We zijn zeer verheugd een nieuwe keynote spreker te kunnen annonceren. Joseph Busch, afgelopen najaar nog keynote spreker bij het prestigieuse Taxonomy Bootcamp Congress in London, komt 28 maart naar Amsterdam.
Hij gaat het hebben over technieken voor het automatisch categoriseren (of taggen) van informatie. Welke producten passen Artificiële Intelligentie of machine learning technieken toe? Welke producten berusten eigenlijk op “gewone” automatisering, zoals het uitschrijven van kennisregels? Hoe goede resultaten worden met dergelijke produkten behaald (en hoe meet je dat)?
Kortom: een enorme hoeveelheid toegepaste praktijkkennis in een enkele lezing samengevat.

BlockChain in de OBA

Een klein tipje van de sluier rond de komende VOGIN-IP-lezing kunnen we al oplichten. We gaan het 28 maart niet hebben over bitcoins of andere cryptocurrency. Maar de achterliggende techniek van BlockChain is wel dermate interessant dat we willen kijken wat die kan betekenen voor toepassingen op ons gebied. We kunnen nu al verklappen dat er zowel een lezing als een workshop zal zijn die daar aandacht aan besteedt.

Meeste materiaal is binnen

Voor wie het nog niet gezien (of bekeken) heeft: het merendeel van het materiaal – powerpoints e.d. – van de lezingen en workshops op 9 maart staat intussen op onze site.
– Van Agnes Molnar is er een video, waarin zij de demonstratie van Microsoft Tools laat zien die tijdens haar lezing door technische problemen niet lukte.
– Van Henk van Ess is er een uitgebreide powerpoint van zijn workshop “Zoekupdate 2017”.
– Van Christiaan Triebert is er – behalve zijn powerpoint – ook een lijstje met de geolocatie-tools die hij in zijn lezing genoemd had.
– Van ….
…….. enfin kijkt u zelf maar wat er verder nog van uw gading is.