Datum en rugnummers

De VOGIN-IP-lezing 2017 komt er onherroepelijk aan.
De datum ligt vast: donderdag 9 maart 2017.
De eerste drie sprekers hebben intussen al toegezegd:

  • Henk van Ess
  • Herbert van de Sompel
  • Professor Jan Scholtes

sprekers

Die drie namen klinken in elk geval interessant genoeg om de datum nu al vast vrij te houden. En blijf aan de lijn voor verdere mededelingen.

In memoriam Wouter

Het is al weer bijna drie weken geleden dat we werden opgeschrikt door het bericht van het overlijden van Wouter Gerritsma. In de eerste plaats zijn familie, maar zeker ook zijn vakgenoten zijn in verbijstering achtergebleven. Binnen VOGIN, één van de organisaties achter de VOGIN-IP-lezing heeft hij lange tijd een toonaangevende rol gespeeld, vooral bij organisatie en invulling van de tweemaal per jaar gehouden VOGIN-cursus. Ook bij onze lezingen was hij geregeld betrokken. Afgelopen maart nog met een uitstekend beoordeelde workshop over Altmetrics. Met bijgaande, tijdens die workshop gemaakte foto willen we hem graag gedenken.

wouter

Het is onvoorstelbaar dat we het ook bij de VOGIN-IP-lezing voortaan zonder zijn enthousiaste inbreng zullen moeten doen.

Kijk hier voor een uitgebreider In Memoriam.

 

Morgen (en gisteren)

Onverwacht nog een extra bericht, omdat gistermiddag (nog onverwachter) één van onze sprekers meende te moeten afzeggen. Ondanks dat uiterst late tijdstip is het ons gelukt om op die korte termijn nog vervanging te vinden. Niet over hetzelfde onderwerp, zelfs niet over social media, het oorspronkelijke thema van de middagtrack, maar wel uiterst interessant en belangrijk.


Hanna Jochmann-Mannak zal namelijk een lezing verzorgen over het zoekgedrag van kinderen. Die blijken vaak niet goed uit de voeten te kunnen met Google-achtige zoekmachines en de overvloed aan ongelijksoortige informatie op internet.
Hanna is in 2014 op dit onderwerp gepromoveerd aan de Universiteit Twente (“Websites for children: Search strategies and interface design Three studies on children’s search performance and evaluation“). IP had daar destijds ook aandacht aan besteed.
Vorig jaar heeft ze over de internetbehoeften van kinderen een lezing gegeven op het prestigieuze TEDx Amsterdam. Die lezing kun je hierboven al vast bekijken.
Zij is intussen werkzaam voor de Amsterdamse aanbieder van een kinderzoekmachine, WizeNoze.

Factchecken: meer of minder?

In een eerdere post haalden we een bericht uit de Washington Post aan, dat ze ophielden met het factchecken van hoaxes, omdat lezers veel liever in die onzinverhalen bleven geloven. Toch is dat maar één kant van de zaak. Want gisteren verscheen juist een berichtje dat wereldwijd steeds méér feiten gecontroleerd worden.

Factcheck map

Countries with at least one fact-checking initiative are highlighted in green (Data from DRL database) Poynter

Met daarbij dit mooie kaartje met alle landen waar factcheck initiatieven worden genomen. Vooral met verkiezingen op komst is het in de VS populair om uitspraken van presidentskandidaten op hun waarheidsgehalte te controleren. En dat is inderdaad nog wel iets anders dan het debunken van een internet hoax.
In het zojuist aangehaalde bericht van Sebastiaan van der Lubben van gisteren, werd ook gemeld dat in een wereldwijde inventarisatie door Duke University maar twee Nederlandse initiatieven werden genoemd en dat “Nieuwscheckers” van de Universiteit Leiden daarbij ontbrak. Maar een dag later bliijkt die omissie in elk geval al gecorrigeerd. Daar zijn ook wij blij om, want juist één van de mensen achter dat initiatief, Peter Burger, verzorgt bij ons zowel een workshop als een lezing. En dat gaat echt niet alleen over het debunken van hoaxes en broodje-aap verhalen, maar vooral ook over de zoektechnieken die je kunt toepassen om het waarheidsgehalte van allerlei soorten feiten en berichten te controleren.

Fact checking

Washington Post Onlangs kwam een bericht langs dat de Washington Post zijn “hoax-debunking column” had beëindigd, omdat hun lezers veel liever wel in allerlei onzinberichten wilden blijven geloven. Hoewel aan die “geloofzuchtigheid” ook een financiële kant bleek te zitten, geeft dat toch wel te denken. Gelukkig lijkt het in Nederland zo ver nog niet te zijn. In de media hier speelt factchecking nog in toenemende mate een rol.
In journalistiekopleidingen wordt daar dan ook meer en meer aandacht aan besteed. Peter Burger is specialist op dit terrein bij de opleiding Journalistiek en Nieuwe Media van de Universiteit Leiden. Hij zal op 3 maart ook ons over dit onderwerp bijpraten.
Ook in het programma van Jeroen Pauw werd onlangs nog aandacht besteed aan factchecking. Peter Burger mocht daar 18 november aanschuiven om onjuiste berichten naar aanleiding van de aanslagen in Parijs te ontzenuwen.
Peter Burger bij Jeroen Pauw (na 42.20 minuten)
Peter is ook auteur van een aantal boeken over broodjeaapverhalen: De Wraak van de Kangoeroe (1992), De Gebraden Baby (1995) en De Jacht op de Veluwepoema (2006).
veluwepoemaOp zijn weblog “De gestolen grootmoeder” (vernoemd naar één van die verhalen) besteedt hij daar nu nog altijd aandacht aan.
Op 3 maart zal hij een lezing over factchecking geven. Daarnaast verzorgt hij ‘s middags een workshop waarin de deelnemers zelf zoektechnieken leren gebruiken om feiten te checken en broodjeaapverhalen te ontzenuwen. Ook voor informatieprofessionals is er ongetwijfeld nog veel te leren van de daarbij gebruikte aanpak en technieken.

PS: Toevallig kwam in dezelfde uitzending van Jeroen Pauw, waarin Peter Burger optrad, ook onze keynote spreker Pieter Cobelens uitgebreid aan het woord.

Brenno de Winter en zwarte lijsten

brennoBrenno de Winter, spreker op de VOGIN-IP-lezing vorige maand, klaagt op The Post Online (17 april 2015) over zwarte lijsten die de overheid hanteert, En en passant ook nog over de wijze waarop hij bespionneerd is. “De overheid deinst er niet voor terug om bij een kritische journalist tot diep in het privéleven door te dringen. …. De overheid liet zelfs mijn oude moeder onderzoeken“.

Informatietools bij de douane

douaneOok de Douane – onderdeel van de Belastingdienst – is een intensieve gebruiker van informatie. Toon Steenbakkers – daar al bijna 40 jaar in dienst – is er mede verantwoordelijk voor de informatievoorziening.
In de periode 1992-2008 was hij vooral betrokken bij data-analyse en (later) data-mining. Als resultaat van een onderzoek naar het belang van Open Source Intelligence (OSINT) voor de Douane, werd Steenbakkers in 2008 gevraagd om een OSINT-team te vormen. Daarvan is hij nu landelijk coördinator. Omdat partners en collega’s uit de EU lidstaten op internet dezelfde problemen hebben, ziet Steenbakkers het delen van kennis en het ontwikkelen van tools als een gezamenlijk belang. Samenwerking was daarom vanaf het begin een van zijn doelstellingen.
De Douane heeft behalve met de normale controle op invoer van goederen met veel risico’s te maken. Daarbij kun je denken aan drugs, wapens, namaak, medicijnen, bedreigde uitheemse diersoorten en dergelijke. Niet alle risico’s kunnen worden afgedekt met simpele Google-zoekacties. Vandaar dat met diverse speciale tools wordt gewerkt. Over die tools – deels zelf ontwikkeld of aangepast – zal Toon Steenbakkers ons meer vertellen.
Je kunt daarbij denken aan allerlei soorten monitoring tools, bijvoorbeeld voor het vinden van adverteerders van (illgale) sigaretten of het volgen van sociale media, aan data extractors om grote hoeveelheden informatie binnen te halen, aan tools voor web-archiving, en aan tools voor het vinden/analyseren van relaties op internet. Waarschijnlijk zullen een heleboel namen van interessante tools de revue passeren.
Toon Steenbakkers spreekt in Lezingentrack-2 in het middagprogramma.

Greg Notess mist de grote concurrenten van Google

Een interview met IP


Met Greg Notess, keynote spreker in het ochtendprogramma, heeft IP vooraf al een email-interview gehouden. Deze Nederlandse bewerking staat ook op de IP-site.
notess
IP: Er zijn allerlei redenen waarom “echte” informatieprofessionals nogal kritisch staan ten opzichte van Google. Ze betreuren dat er voortdurend weer allerlei functionaliteit, diensten en producten verdwijnen en zoekresultaten steeds onbetrouwbaarder en onreproduceerbaarder worden. Behoor jij ook tot degenen die Google daarvoor verwensen?
‘Allebei die punten vind ik zeker ook teleurstellend. Maar, zoals zoveel anderen, blijf ik Google natuurlijk toch regelmatig gebruiken, omdat het voor bepaalde soorten zoekacties nu eenmaal makkelijk resultaten oplevert. In zijn algemeenheid pleeg ik ook ten opzichte van elke informatiedienst een realistische houding aan te nemen wat betreft hun sterke en zwakke kanten. Ik moet de eerste nog vinden die niet van allebei wat heeft. Google heeft zich altijd toegelegd op het geven van relevante resultaten voor simpele zoekacties, van het soort dat de meeste gebruikers intikken. Maar de algoritmes en technieken die Google heeft ontwikkeld om die primaire doelgroep van dienst te zijn, resulteren juist in de problemen die informatiespecialisten onderkennen. Maar als we ons realiseren dat we voortdurend de mogelijkheid hebben om gratis te zoeken en resultaten uit Google te krijgen, dan is is het eigenlijk verbazingwekkend dat we op een redelijk consistente manier toch zulke bruikbare resultaten krijgen.’

IP: Ook al worden niet alle nieuwe zoekproducten meer meteen gechargeerd als potentiële “Google-killers” geafficheerd, toch worden ze vaak nog wel aangemerkt als concurrenten voor Google’s marktaandeel. Sommigen zijn niet zo heel veel anders (zoals DuckDuckGo), andere proberen hele nieuwe zoekparadigma’s toe te passen. Welke van de nieuwkomers zouden we volgens jou in de gaten moeten houden.
‘Er is een voortdurend veranderend universum van concurrenten voor het webzoeken. Bing en DuckDuckGo blijven een nuttig tegenwicht tegen Google’s marktdominantie en hebben hun eigen toepassingen. Zoekmachines die een geheel nieuwe aanpak uitproberen, schijnen na één of twee jaar toch te mislukken of in elk geval te verdwijnen (zoals Cuil of Blekko). Onderwerp- of land-specifieke zoekmachines lijken een betere overlevingskans te hebben. En die hebben vaak ook een interessante aanpak. Van het hele spectrum, van grote zoekmachines zoals Yandex en Baidu, tot data-specifieke als Wolfram|Alpha, Zanran en Statista, tot nog andere zoals Qwant of Topsy, zijn er een heleboel om in de gaten te houden en zo af en toe te gebruiken.’

IP: In je lezing ga je het hebben over de transformatie van het zoeken naar het direct krijgen van antwoorden, onder meer gebaseerd op Google’s Knowledge Graph. Hoe betrouwbaar vind je dergelijke antwoorden? En wat is het verschil met de Knowledge Vault die Google ook heeft aangekondigd?
‘Voor populaire onderwerpen zijn verrassend veel antwoorden heel accuraat. Toch blijven onnauwkeurigheden een belangrijke kwestie, vooral als de oorspronkelijke bron zo zelden vermeld wordt. Of er al dan niet iets onder de naam van “Knowledge Vault” wordt, het valt zeker te verwachten dat dat project verder wordt uitgebouwd.’

IP: In de beginjaren van websearch speelden door mensen samengestelde onderwerpsgidsen, zoals de Yahoo!-directory een belangrijke rol. De meeste daarvan zijn intussen verdwenen. Mis je die of is het maar goed ook dat die weg zijn?
‘Het probleem met de directories was altijd dat ze vaak incompleet, verouderd en onnauwkeurig waren. Bij de snelheid waarmee dingen op internet veranderen, zal dat ook zo blijven. Voor mij hebben de links onderaan Wikipedia-pagina’s nu in veel gevallen de rol (maar ook de problemen) van directories overgenomen. Die verwijzingen gebruik ik als mogelijke bron, maar ik voer ook mijn eigen zoekacties uit voor meer recente sites of om de correcte links te vinden.’

IP: Anderzijds is “content curation” nu een buzz-word geworden. Zo staat ZEEF, dat op basis van “curation” gevuld wordt – eigenlijk een beetje als de Yahoo!-directory – nogal in de belangstelling. Is dat geen tegenstrijdigheid?
‘Internet blijft een makkelijk platform om nieuwe en oude ideeën uit te proberen en om venture kapitaal binnen te halen voor projecten die mogelijkerwijs de volgende grote geldmachine kunnen worden. About.com heeft een heleboel transformaties doorgaan en was een directory-achtige site die wel overleefd en gefloreerd heeft. Met ZEEF’s nadruk op affiliate marketing, zou die het in de financiële hoek goed kunnen doen. Maar hoe goed de content daarin beheerd gaat worden, zullen we nog moeten afwachten. Tegenstrijdige ontwikkelingen zullen ook zeker doorgaan als het web en mobiel internet zo populair blijven, en vooral als mensen naar advertenties blijven kijken en online geld blijven uitgeven.’

IP: Tot slot nog twee vragen over het verleden;
– Welke van de vele verdwenen zoekmachines mis je het meest?
– En welke van de verdwenen zoekfunctionaliteit?

‘Ik mis de grote concurrenten van Google die interessante en nuttige functionaliteit voor geavanceerde zoekers ontwikkelden. Alltheweb en zelfs AltaVista en NorthernLight hadden prima ideeën en zoekmogelijkheden die ik graag gebruikte. Jammer genoeg werden die door de markt niet ondersteund.’
‘Van de functionaliteit mis ik echte truncatie, wildcards, interne truncatie, correcte en consistente phrase searching, proximity searching, correct datum-zoeken en nog wat verdere gespecialiseerde tools. Veel daarvan zou ik betrekkelijk weinig gebruiken, maar het is zo plezierig om, als je het nodig hebt, je vraag veel preciezer tot de exact gewenste documenten te kunnen inperken. Maar dat gezegd hebbende, we hebben nog altijd zoveel databases om in te zoeken en zoveel geavanceerde mogelijkheden op allerlei plaatsen, dat ik nog altijd geniet van de grote variëteit aan zoeksystemen en zoekcommando’s die ik daarin kan gebruiken.’

Q&A – Piek Vossen beantwoordt vragen van IP

[Inhoud van de rubriek Q&A uit het februari-nummer van vakblad “IP”]
Piek Vossen, hoogleraar Computationele Lexicologie bij de VU, is een van de keynotesprekers op de VOGIN-IP-lezing op 26 maart in de OBA. In een Q&A vertelt hij over de relatie tussen zoekmachines en big data.

Piek VossenIn 2006 ben je vanuit een commercieel bedrijf – als Chief Technology Officer bij Irion Technologies in Delft – weer de wetenschap ingestapt. Een makkelijke overgang?
‘Irion is een technologiebedrijf waar nieuwe en innovatieve producten worden ontwikkeld. Dat staat niet ver van de onderzoekswereld. In mijn huidige werk doe ik voornamelijk onderzoek en veel acquisitie van projecten; in veel opzichten lijkt dat op mijn oude werk. Bovendien werk ik nog steeds samen met veel bedrijven; sommige stammen nog uit mijn contacten uit de Irion-tijd. Wel is het perspectief bij mijn huidige werk meer de langere termijn; bovendien zijn de vragen uitdagender.’

Maakte die ervaring als CTO bij Irion het makkelijker om je huidige onderzoek meteen te vertalen naar praktische en wellicht commerciële toepassingen?
‘Bij een bedrijf kun je je niet beperken tot een deelprobleem: je moet een totaaloplossing bieden. Ik vind dat ook heel waardevol voor het onderzoek dat we nu doen. Het is belangrijk dat we problemen onderzoeken in een reële context met alle aspecten eromheen. Als je bijvoorbeeld onderzoek doet naar de betekenis van woorden in teksten, dan moet je dat zien vanuit de waarde die de tekst heeft voor een gebruiker. In feite heeft die tekst een bepaalde betekenis voor de gebruiker en niet alleen maar vanuit een algemeen theoretisch perspectief.’
‘Veel evaluaties in de wetenschap zijn kunstmatig. Ik vind dat je veel meer leert over het probleem taal en betekenis door naar de effecten van communicatie (lees: schrijver-tekst-lezer/zoeker) te kijken. Waarom vind je wel of niet wat je zoekt en wat is de rol van meerduidigheid en vaagheid van taal in dat zoekproces? Dat is een heel ander perspectief op betekenis dan alleen te kijken naar de betekenissen die in een woordenboek staan.’

Analyse van big data en klassieke zoekmachinetechnologie lijken op het eerste gezicht niet heel veel gemeen te hebben. Welke rol speelt zoeksoftware niettemin bij de analyse van big data?
‘Het klopt dat big data en zoektechnologie voortkomen uit verschillende onderzoeksparadigma’s. Dat heeft volgens mij ook te maken met het probleem om de betekenis van tekst voldoende te kunnen formaliseren. Daarmee bedoel ik dat we niet alle informatie uit een tekst weten te vangen, bovendien worden er nog te veel fouten gemaakt bij het interpreteren van tekst. Tekstanalyse resulteert te veel in noisy en onvolledige data voor big data-analyse. Er moeten nog veel stappen gezet worden voordat big data en vrijetekstzoeken samenvallen.’
‘Daarnaast wordt bij big data vaak niet gekeken naar natuurlijke manieren van vragen stellen. Het is niet zo eenvoudig om een zoekvraag te vertalen naar een SPARQL query waarmee big data bevraagd kan worden. Daar wordt nu onderzoek naar gedaan maar daarbij doen zich ook weer interpretatieproblemen voor.’
SPARQL queries
Wat doen jullie daar nu aan?
‘In onze projecten genereren we big data uit miljoenen teksten, bijvoorbeeld tien jaar nieuws over de autoindustrie. Dat levert miljoenen triples op, feiten en beweringen uit het nieuws. Om die big en noisy data te kunnen bevragen, draaien we statistische analyses op de data om te zien wat er in staat en hoe we interfaces kunnen maken, zodat mensen die kunnen bevragen zonder zelf SPARQL queries te moeten formuleren. Dergelijke interfaces vallen vaak toch weer terug op gewoon zoeken via een index Wat wij teruggeven als resultaat is echter wel anders. Dat heeft meer de vorm van gestructureerde data die je kunt weergeven in tabelvorm of als graaf – als een soort netwerk.’

Spelen de taalkundige en taaltechnologische methoden waarin je gespecialiseerd bent, een rol bij de analyse van alle soorten big data of geldt dat alleen voor heel speciale soorten?
‘De meeste big data is gestructureerd. Taal speelt daar voornamelijk een rol bij het weergeven van labels voor concepten en relaties. Bij ons speelt de technologie een rol bij het omzetten van tekst in gestructureerde data en, zoals al eerder gezegd, bij het bevragen van die data. De stappen zijn: 1. tekst naar RDF, 2. vraag naar SPARQL, 3. big data-gevolgtrekkingen, 4. RDF-resultaat, 5. resultaat presentatie. Taal en taaltechnologie spelen een rol bij de stappen 1, 2 en 5.’

De bezoekers van de VOGIN-IP-lezing zijn informatiespecialisten die vooral op het thema ‘zoeken’ afkomen. Welke boodschap ga je hen meegeven?
‘Het probleem van tekstinterpretatie wordt zwaar onderschat. Tekst is vaag, incompleet, meerduidig, maar bevat tegelijkertijd vele complexe lagen aan informatie. Het zijn niet alleen feitelijkheden, maar vooral meningen, opinies en perspectieven van mensen op die feitelijkheden. Dat is een puzzel die we voorlopig nog niet opgelost hebben.’


Nog wat filmpjes met/over Piek Vossen