Keuzestress


Wie naar de VOGIN-IP-lezing wil komen, moet de organisatoren daarvan wel haten. Want het is nogal pervers om beoogde bezoekers zo’n dosis keuzestress te bezorgen. Eerst al de keuze tussen lezingentracks en workshops. En dan nog: welk van die 10 workshops? Want die zien er allemaal interessant uit. Maar dat was natuurlijk ook de bedoeling van die organisatoren.
Niettemin hebben we één van hen gevraagd zich eens in zo’n bezoeker te verplaatsen. Wat zou hij kiezen als hij met dat aanmeldformulier voor zich zat. Eigenlijk wilde hij daar geen antwoord op geven, want dan zou hij de suggestie wekken de ene workshop voor te trekken boven de andere. Maar na enig aandringen wilde hij toch wel zeggen welke onderwerpen hem persoonlijk het meest aanspraken, Waarbij zijn belangrijkste criterium was over welke onderwerpen hij vond dat hij meer zou moeten weten.
Dan kwam bij hem op één: de workshop over Wikidata en SPARQL.
En op twee: de workshop over het bouwen van een Knowledge Graph.
Maar ja, over die semantische zoekmachines is natuurlijk ook wel leuk, of wat meer over SEO weten, en kunnen factchecken, of ….
En als hij dan een workshop koos, dan kon hij misschien weer niet naar Karsdorp’s lezing over de rap-generator of naar die over Zalando’s Knowledge Graph.
Zelfs bij deze gefingeerde keuzesituatie sloeg bij hem de stress al onbarmhartig toe.
Op basis van deze ervaring bieden de organisatoren u dus hun nederige excuses aan voor het veroorzaken van zoveel keuzestress.

Algoritmes


In Villamedia van 5 oktober 2018 stond een interview met Daan Odijk (midden, spreker op de komende VOGIN-IP-lezing), David Graus (links, spreker op de vorige VOGIN-IP-lezing) en Anne Schuth (rechts). Dat stuk geeft een aardige indruk waarmee datawetenschappers als Daan, David en Anne zich in de mediawereld bezighouden en waar Daan het 21 maart bij ons ook over gaat hebben. Ter illustratie een paar citaten uit het artikel:

NIEUWE TIJDEN
Ze verdienen meer dan hun journalistencollega’s en maken ook nog eens allerlei software waarmee een deel van het redactiewerk wordt overgenomen. Een gesprek met datawetenschappers David Graus, Daan Odijk en Anne Schuth die de journalistiek gaan automatiseren. ‘We willen dat journalisten hun tijd het meest effectief gebruiken, want dat is niet altijd het geval. We zouden dus vooral gaan snijden in het monnikenwerk.’
….
De heren staan model voor een steeds groter wordende groep data scientists, machine learning engineers of simpelweg IT’ers die de redactievloer bevolkt.
….
Hoe kwamen jullie in de media­sector terecht? Kunnen jullie in de IT niet veel meer verdienen?
Odijk: ‘Voor ons drieën is dit een logische keuze. Wij vinden ­tekst­uele data heel interessant, want er is heel veel potentie om meer met content te doen, zowel uit archieven als nieuwe content uit bijvoorbeeld openbare databestanden. We hebben een hele bewuste keuze gemaakt voor deze sector, niet vanwege het geld.’
….
Gaan jullie de journalistiek volledig overnemen en zit de redactievloer straks vol met nerds?
Odijk: ‘Journalistieke content is het meest waardevolle dat onze bedrijven hebben. Dus natuurlijk blijven we er tijd in steken om die zo goed mogelijk te maken. We willen wel dat journalisten hun tijd het meest effectief gebruiken, want dat is niet altijd het geval. We zouden dus vooral gaan snijden in het monnikenwerk.’
Graus: ‘Mensen zijn heel bang om vervangen te worden, maar in veel gevallen is deze technologie slechts extra gereedschap. Het biedt suggesties die je wel of niet meeneemt. Mijn belangrijkste doel is om, à la de film ‘Minority Report’, een redactie-supportsysteem te bouwen waarmee je eenvoudig door een grote stroom complexe data kunt navigeren. Misschien moet de journalist daarvoor wel een beetje meer nerdy worden.’
….

De titel van het interview geeft al aan dat het ook bij hun soort werk om “algoritmes” gaat, zoals dat ook bij de grote tech-bedrijven het geval is. Als je wilt weten wat dat bij RTL inhoudt, dan moet je 21 maart naar Daan komen luisteren …. en je natuurlijk tijdig aanmelden voor de VOGIN-IP-dag.

Automatisch gegenereerde rapteksten op Lowlands


Deze zomer werd op Lowlands een wetenschappelijk experiment uitgevoerd. Medewerkers van het Meertens Instituut, in samenwerking met de Universiteit van Antwerpen, hadden een computerprogramma met behulp van Machine Learning geleerd om rapteksten te genereren. De vraag is dan natuurlijk hoe je kunt meten hoe goed een computerprogramma zo’n taak uitvoert. In een geval als dit is de vraag of het wel of geen goede raptekst is, niet eenvoudige objectief met JA of NEE te beantwoorden. Maar op Lowlands zijn natuurlijk wel een heleboel rap- en hiphop-enthousiasten bij elkaar, aan wie je kunt vragen of ze denken dat een op het scherm getoonde raptekst door een mens of door een machine gemaakt is. Dat is in feite een variant op de klassieke Turing-test: is kunstmatige intelligentie al zo goed dat een mens niet meer kan bepalen of hij te maken heeft met een computer of met een ander mens aan de andere kant van het beeldscherm. Deze kunstmatig intelligente rapper had dan ook de naam MC Turing gekregen.
Wie het zelf ook eens wil uitproberen, kan dat nog steeds doen op https://deep-flow.nl/ (waarbij het “deep” al aangeeft dat diepe neurale netwerken zijn gebruikt om het programma te leren rappen). Je krijgt daar dan vragen voorgelegd waarbij je hetzij moet kiezen of een tekst door een mens of door een machine is gemaakt, hetzij welk van twee getoonde teksten door een echte rapper is geschreven.
Folgert Karsdorp die dit project leidde, zal op de VOGIN-IP-lezing meer over de opzet en de werking van deze rapgenerator vertellen.

Keynote over datavisualisaties

Frédérik Ruys – vizualism

Ook een tweede keynote spreker voor 21 maart is vastgelegd. Frédérik Ruys van vizualism komt vertellen over (… inderdaad …) visualiseren. Ook wie Frédérik zelf niet heeft ontmoet, is waarschijnlijk wel al producten van hem tegengekomen. Hij is namelijk degene die de opvallende visualisaties van de VPRO-serie “Nederland van boven” heeft verzorgd.
Frédérik noemt zichzelf datajournalist en informatiearchitect. In die beschrijving komen allerlei voor ons vak belangrijke competenties samen. Nog een nuttige uitspraak op de website van vizualism: “Visualiseren betekent niet het versimpelen van de informatie, maar het verhelderen.”

Solid en Pods, Ruben en Tim

Hoewel het thema van Ruben Verborgh’s keynote op de VOGIN-IP-lezing afgelopen maart, eigenlijk het modieuze “blockchain” was, ging zijn verhaal in feite over het gedecentraliseerde web. En dat staat nu ineens alom in de belangstelling, vooral nu Tim Berners Lee zich daar zo sterk voor maakt. Het heeft intussen zelfs de Volkskrant al gehaald. In Ruben’s lezing kwamen al spoedig de “pod‘s” aan de orde, die ook centraal staan in het Solid-project (https://solid.inrupt.com/) van Tim Berners Lee. Een project dat ook al redelijk het project van Ruben Verborgh blijkt te zijn.

Op de Decentralized Web Summit 2018, begin augustus in San Francisco, hielden Ruben en Tim Berners Lee daar dan ook samen een presentatie over. Hieronder de opgenomen live stream van die dag, die we op tijdstip 4:58:40 laten starten, bij het begin van hun optreden. (Zodat u de voorgaande 5 uur niet ook hoeft af te spelen).


.
De presentatie die Ruben Verborgh daar gebruikte, “Solid: empowering people through choice”, is ook apart beschikbaar.
En dan is er ook nog een meer recente versie, voor een workshop on Decentralizing the Semantic Web, 21 en 22 oktober in Wenen: “Tim Berners-Lee & Ruben Verborgh / Solid: Linked Data for personal data management”
En op de International Semantic Web Conference deze week, was Ruben ook weer present, met Decentralizing the Semantic Web through incentivized collaboration

Als we toen geweten hadden dat we bij de VOGIN-IP-lezing in feite de nieuwe Tim Berners Lee in huis hadden, dan zouden we 28 maart waarschijnlijk (nog) wel wat beter hebben opgelet bij Ruben’s lezing.

Big data en data-mining

Iedereen lijkt het dezer dagen over big data te hebben. Daarbij is niet altijd duidelijk hoe big big eigenlijk is. En ook niet of het daarbij over data of misschien ook wel over tekst gaat.

Dat 28 maart over dit thema een workshop wordt gegeven, is hier al eerder aan de orde geweest. Maar dat we er ook een lezing over hebben, bleef nog wat onderbelicht. Laura Hollink van het CWI houdt zich bezig met analyses van grote hoeveelheden tekst. Dat doet ze onder andere in samenwerking met de KB. In bovenstaande video komt dat onder meer aan de orde.
In haar lezing op 28 maart zal ze het vooral hebben over de analyse van verschuivingen in de betekenis en gevoelswaarde van woorden in de loop van de tijd. Hoe uit grote tekstcorpora dergelijke verschuivingen afgeleid kunnen worden. Inzicht daarin is van belang voor een betere werking van zoeksystemen die materiaal uit heel verschillende periodes doorzoeken en ook voor automatische documentclassificatie van dergelijk materiaal. Wie nu al iets over het werk van Laura bij het CWI wil horen (of 28 maart niet bij haar lezing kan zijn), kan nu al vast dit filmpje van eind november vorig jaar bekijken.

Tripels

Op het plaatje hierboven zie je zes tripels. Maar slechts eentje daarvan komt op de VOGIN-IP-lezing aan de orde. Je mag zelf raden welke.
Over die ene soort tripels kun je dan wel op twee momenten iets te horen krijgen. In de beschrijving van de workshop van Martijn van der Kaaij worden die tripels expliciet genoemd. Het zijn de fundamentele beweringen waarmee dingen aan hun feitelijke eigenschappen worden gekoppeld. Zoals de bewering hierboven dat Karmeliet een Tripel is (maar dan van het andere soort). Martijn zal in zijn workshop vooral voorbeelden uit de erfgoedsector gebruiken om deze basisonderdelen van het semantisch web duidelijk te maken.
Dergelijke feitelijke beweringen in de vorm van tripels zijn ook de basis van Wikidata. Daarover komt Maarten Dammers namens Wikimedia NL een lezing geven. Wikidata is een enorm reservoir van feitelijke gegevens. Op dit moment zitten er meer dan 50 miljoen items in en nog wel wat meer tripels waarmee eigenschappen aan die items gekoppeld worden (zoals dat Karmeliet een Tripel is). Niet alleen ten behoeve van Wikipedia-lemma’s, maar ook voor ieder ander systeem kan daar via internet kennis aan ontleend worden. Hopelijk zal Maarten ook nog op de SPARQL-queries ingaan, waarmee je gericht gegevens kunt opvragen uit open systemen, zoals Wikidata, die data als tripels beschikbaar stellen. [Zie ook dit nieuwe artikel hierover: Bielefeldt, A., Gonsior, J., & Krötzsch, M. (2018). Practical Linked Data Access via SPARQL: The Case of Wikidata.]
Het is overigens goed je te realiseren dat Wikidata niet voor niets WIKIdata heet: iedereen kan er in principe gestructureerd gegevens aan toevoegen.

En hoe doet de politie dat nou?

Een bericht van Arno Reuser:
Begin februari is een 18-jarige jongen opgepakt voor een DDoS aanval op de website van de belastingdienst. Hoe kom je er nu achter wie dat heeft gedaan? Hoe doen echte politiemensen echt onderzoek in sociale media, real-time, om boeven te vangen en strafbare feiten te vinden? Twee echte politiemensen die gepokt en gemazeld zijn in diepgravend onderzoek in onder andere sociale media komen in hun lezing vertellen en in hun workshop laten zien, hoe ze dat doen; de methoden en de technieken.
Uw kans voor een kijkje in de achterkamers van de nationale politie. Met echte politiemensen, uit de praktijk.

NB: De workshop van Rein Tellier & Elwin de Man is intussen al bijna volgeboekt.