Fact checking

Washington Post Onlangs kwam een bericht langs dat de Washington Post zijn “hoax-debunking column” had beëindigd, omdat hun lezers veel liever wel in allerlei onzinberichten wilden blijven geloven. Hoewel aan die “geloofzuchtigheid” ook een financiële kant bleek te zitten, geeft dat toch wel te denken. Gelukkig lijkt het in Nederland zo ver nog niet te zijn. In de media hier speelt factchecking nog in toenemende mate een rol.
In journalistiekopleidingen wordt daar dan ook meer en meer aandacht aan besteed. Peter Burger is specialist op dit terrein bij de opleiding Journalistiek en Nieuwe Media van de Universiteit Leiden. Hij zal op 3 maart ook ons over dit onderwerp bijpraten.
Ook in het programma van Jeroen Pauw werd onlangs nog aandacht besteed aan factchecking. Peter Burger mocht daar 18 november aanschuiven om onjuiste berichten naar aanleiding van de aanslagen in Parijs te ontzenuwen.
Peter Burger bij Jeroen Pauw (na 42.20 minuten)
Peter is ook auteur van een aantal boeken over broodjeaapverhalen: De Wraak van de Kangoeroe (1992), De Gebraden Baby (1995) en De Jacht op de Veluwepoema (2006).
veluwepoemaOp zijn weblog “De gestolen grootmoeder” (vernoemd naar één van die verhalen) besteedt hij daar nu nog altijd aandacht aan.
Op 3 maart zal hij een lezing over factchecking geven. Daarnaast verzorgt hij ‘s middags een workshop waarin de deelnemers zelf zoektechnieken leren gebruiken om feiten te checken en broodjeaapverhalen te ontzenuwen. Ook voor informatieprofessionals is er ongetwijfeld nog veel te leren van de daarbij gebruikte aanpak en technieken.

PS: Toevallig kwam in dezelfde uitzending van Jeroen Pauw, waarin Peter Burger optrad, ook onze keynote spreker Pieter Cobelens uitgebreid aan het woord.

Brenno de Winter en zwarte lijsten

brennoBrenno de Winter, spreker op de VOGIN-IP-lezing vorige maand, klaagt op The Post Online (17 april 2015) over zwarte lijsten die de overheid hanteert, En en passant ook nog over de wijze waarop hij bespionneerd is. “De overheid deinst er niet voor terug om bij een kritische journalist tot diep in het privéleven door te dringen. …. De overheid liet zelfs mijn oude moeder onderzoeken“.

Informatietools bij de douane

douaneOok de Douane – onderdeel van de Belastingdienst – is een intensieve gebruiker van informatie. Toon Steenbakkers – daar al bijna 40 jaar in dienst – is er mede verantwoordelijk voor de informatievoorziening.
In de periode 1992-2008 was hij vooral betrokken bij data-analyse en (later) data-mining. Als resultaat van een onderzoek naar het belang van Open Source Intelligence (OSINT) voor de Douane, werd Steenbakkers in 2008 gevraagd om een OSINT-team te vormen. Daarvan is hij nu landelijk coördinator. Omdat partners en collega’s uit de EU lidstaten op internet dezelfde problemen hebben, ziet Steenbakkers het delen van kennis en het ontwikkelen van tools als een gezamenlijk belang. Samenwerking was daarom vanaf het begin een van zijn doelstellingen.
De Douane heeft behalve met de normale controle op invoer van goederen met veel risico’s te maken. Daarbij kun je denken aan drugs, wapens, namaak, medicijnen, bedreigde uitheemse diersoorten en dergelijke. Niet alle risico’s kunnen worden afgedekt met simpele Google-zoekacties. Vandaar dat met diverse speciale tools wordt gewerkt. Over die tools – deels zelf ontwikkeld of aangepast – zal Toon Steenbakkers ons meer vertellen.
Je kunt daarbij denken aan allerlei soorten monitoring tools, bijvoorbeeld voor het vinden van adverteerders van (illgale) sigaretten of het volgen van sociale media, aan data extractors om grote hoeveelheden informatie binnen te halen, aan tools voor web-archiving, en aan tools voor het vinden/analyseren van relaties op internet. Waarschijnlijk zullen een heleboel namen van interessante tools de revue passeren.
Toon Steenbakkers spreekt in Lezingentrack-2 in het middagprogramma.

Greg Notess mist de grote concurrenten van Google

Een interview met IP


Met Greg Notess, keynote spreker in het ochtendprogramma, heeft IP vooraf al een email-interview gehouden. Deze Nederlandse bewerking staat ook op de IP-site.
notess
IP: Er zijn allerlei redenen waarom “echte” informatieprofessionals nogal kritisch staan ten opzichte van Google. Ze betreuren dat er voortdurend weer allerlei functionaliteit, diensten en producten verdwijnen en zoekresultaten steeds onbetrouwbaarder en onreproduceerbaarder worden. Behoor jij ook tot degenen die Google daarvoor verwensen?
‘Allebei die punten vind ik zeker ook teleurstellend. Maar, zoals zoveel anderen, blijf ik Google natuurlijk toch regelmatig gebruiken, omdat het voor bepaalde soorten zoekacties nu eenmaal makkelijk resultaten oplevert. In zijn algemeenheid pleeg ik ook ten opzichte van elke informatiedienst een realistische houding aan te nemen wat betreft hun sterke en zwakke kanten. Ik moet de eerste nog vinden die niet van allebei wat heeft. Google heeft zich altijd toegelegd op het geven van relevante resultaten voor simpele zoekacties, van het soort dat de meeste gebruikers intikken. Maar de algoritmes en technieken die Google heeft ontwikkeld om die primaire doelgroep van dienst te zijn, resulteren juist in de problemen die informatiespecialisten onderkennen. Maar als we ons realiseren dat we voortdurend de mogelijkheid hebben om gratis te zoeken en resultaten uit Google te krijgen, dan is is het eigenlijk verbazingwekkend dat we op een redelijk consistente manier toch zulke bruikbare resultaten krijgen.’

IP: Ook al worden niet alle nieuwe zoekproducten meer meteen gechargeerd als potentiële “Google-killers” geafficheerd, toch worden ze vaak nog wel aangemerkt als concurrenten voor Google’s marktaandeel. Sommigen zijn niet zo heel veel anders (zoals DuckDuckGo), andere proberen hele nieuwe zoekparadigma’s toe te passen. Welke van de nieuwkomers zouden we volgens jou in de gaten moeten houden.
‘Er is een voortdurend veranderend universum van concurrenten voor het webzoeken. Bing en DuckDuckGo blijven een nuttig tegenwicht tegen Google’s marktdominantie en hebben hun eigen toepassingen. Zoekmachines die een geheel nieuwe aanpak uitproberen, schijnen na één of twee jaar toch te mislukken of in elk geval te verdwijnen (zoals Cuil of Blekko). Onderwerp- of land-specifieke zoekmachines lijken een betere overlevingskans te hebben. En die hebben vaak ook een interessante aanpak. Van het hele spectrum, van grote zoekmachines zoals Yandex en Baidu, tot data-specifieke als Wolfram|Alpha, Zanran en Statista, tot nog andere zoals Qwant of Topsy, zijn er een heleboel om in de gaten te houden en zo af en toe te gebruiken.’

IP: In je lezing ga je het hebben over de transformatie van het zoeken naar het direct krijgen van antwoorden, onder meer gebaseerd op Google’s Knowledge Graph. Hoe betrouwbaar vind je dergelijke antwoorden? En wat is het verschil met de Knowledge Vault die Google ook heeft aangekondigd?
‘Voor populaire onderwerpen zijn verrassend veel antwoorden heel accuraat. Toch blijven onnauwkeurigheden een belangrijke kwestie, vooral als de oorspronkelijke bron zo zelden vermeld wordt. Of er al dan niet iets onder de naam van “Knowledge Vault” wordt, het valt zeker te verwachten dat dat project verder wordt uitgebouwd.’

IP: In de beginjaren van websearch speelden door mensen samengestelde onderwerpsgidsen, zoals de Yahoo!-directory een belangrijke rol. De meeste daarvan zijn intussen verdwenen. Mis je die of is het maar goed ook dat die weg zijn?
‘Het probleem met de directories was altijd dat ze vaak incompleet, verouderd en onnauwkeurig waren. Bij de snelheid waarmee dingen op internet veranderen, zal dat ook zo blijven. Voor mij hebben de links onderaan Wikipedia-pagina’s nu in veel gevallen de rol (maar ook de problemen) van directories overgenomen. Die verwijzingen gebruik ik als mogelijke bron, maar ik voer ook mijn eigen zoekacties uit voor meer recente sites of om de correcte links te vinden.’

IP: Anderzijds is “content curation” nu een buzz-word geworden. Zo staat ZEEF, dat op basis van “curation” gevuld wordt – eigenlijk een beetje als de Yahoo!-directory – nogal in de belangstelling. Is dat geen tegenstrijdigheid?
‘Internet blijft een makkelijk platform om nieuwe en oude ideeën uit te proberen en om venture kapitaal binnen te halen voor projecten die mogelijkerwijs de volgende grote geldmachine kunnen worden. About.com heeft een heleboel transformaties doorgaan en was een directory-achtige site die wel overleefd en gefloreerd heeft. Met ZEEF’s nadruk op affiliate marketing, zou die het in de financiële hoek goed kunnen doen. Maar hoe goed de content daarin beheerd gaat worden, zullen we nog moeten afwachten. Tegenstrijdige ontwikkelingen zullen ook zeker doorgaan als het web en mobiel internet zo populair blijven, en vooral als mensen naar advertenties blijven kijken en online geld blijven uitgeven.’

IP: Tot slot nog twee vragen over het verleden;
– Welke van de vele verdwenen zoekmachines mis je het meest?
– En welke van de verdwenen zoekfunctionaliteit?

‘Ik mis de grote concurrenten van Google die interessante en nuttige functionaliteit voor geavanceerde zoekers ontwikkelden. Alltheweb en zelfs AltaVista en NorthernLight hadden prima ideeën en zoekmogelijkheden die ik graag gebruikte. Jammer genoeg werden die door de markt niet ondersteund.’
‘Van de functionaliteit mis ik echte truncatie, wildcards, interne truncatie, correcte en consistente phrase searching, proximity searching, correct datum-zoeken en nog wat verdere gespecialiseerde tools. Veel daarvan zou ik betrekkelijk weinig gebruiken, maar het is zo plezierig om, als je het nodig hebt, je vraag veel preciezer tot de exact gewenste documenten te kunnen inperken. Maar dat gezegd hebbende, we hebben nog altijd zoveel databases om in te zoeken en zoveel geavanceerde mogelijkheden op allerlei plaatsen, dat ik nog altijd geniet van de grote variëteit aan zoeksystemen en zoekcommando’s die ik daarin kan gebruiken.’

Q&A – Piek Vossen beantwoordt vragen van IP

[Inhoud van de rubriek Q&A uit het februari-nummer van vakblad “IP”]
Piek Vossen, hoogleraar Computationele Lexicologie bij de VU, is een van de keynotesprekers op de VOGIN-IP-lezing op 26 maart in de OBA. In een Q&A vertelt hij over de relatie tussen zoekmachines en big data.

Piek VossenIn 2006 ben je vanuit een commercieel bedrijf – als Chief Technology Officer bij Irion Technologies in Delft – weer de wetenschap ingestapt. Een makkelijke overgang?
‘Irion is een technologiebedrijf waar nieuwe en innovatieve producten worden ontwikkeld. Dat staat niet ver van de onderzoekswereld. In mijn huidige werk doe ik voornamelijk onderzoek en veel acquisitie van projecten; in veel opzichten lijkt dat op mijn oude werk. Bovendien werk ik nog steeds samen met veel bedrijven; sommige stammen nog uit mijn contacten uit de Irion-tijd. Wel is het perspectief bij mijn huidige werk meer de langere termijn; bovendien zijn de vragen uitdagender.’

Maakte die ervaring als CTO bij Irion het makkelijker om je huidige onderzoek meteen te vertalen naar praktische en wellicht commerciële toepassingen?
‘Bij een bedrijf kun je je niet beperken tot een deelprobleem: je moet een totaaloplossing bieden. Ik vind dat ook heel waardevol voor het onderzoek dat we nu doen. Het is belangrijk dat we problemen onderzoeken in een reële context met alle aspecten eromheen. Als je bijvoorbeeld onderzoek doet naar de betekenis van woorden in teksten, dan moet je dat zien vanuit de waarde die de tekst heeft voor een gebruiker. In feite heeft die tekst een bepaalde betekenis voor de gebruiker en niet alleen maar vanuit een algemeen theoretisch perspectief.’
‘Veel evaluaties in de wetenschap zijn kunstmatig. Ik vind dat je veel meer leert over het probleem taal en betekenis door naar de effecten van communicatie (lees: schrijver-tekst-lezer/zoeker) te kijken. Waarom vind je wel of niet wat je zoekt en wat is de rol van meerduidigheid en vaagheid van taal in dat zoekproces? Dat is een heel ander perspectief op betekenis dan alleen te kijken naar de betekenissen die in een woordenboek staan.’

Analyse van big data en klassieke zoekmachinetechnologie lijken op het eerste gezicht niet heel veel gemeen te hebben. Welke rol speelt zoeksoftware niettemin bij de analyse van big data?
‘Het klopt dat big data en zoektechnologie voortkomen uit verschillende onderzoeksparadigma’s. Dat heeft volgens mij ook te maken met het probleem om de betekenis van tekst voldoende te kunnen formaliseren. Daarmee bedoel ik dat we niet alle informatie uit een tekst weten te vangen, bovendien worden er nog te veel fouten gemaakt bij het interpreteren van tekst. Tekstanalyse resulteert te veel in noisy en onvolledige data voor big data-analyse. Er moeten nog veel stappen gezet worden voordat big data en vrijetekstzoeken samenvallen.’
‘Daarnaast wordt bij big data vaak niet gekeken naar natuurlijke manieren van vragen stellen. Het is niet zo eenvoudig om een zoekvraag te vertalen naar een SPARQL query waarmee big data bevraagd kan worden. Daar wordt nu onderzoek naar gedaan maar daarbij doen zich ook weer interpretatieproblemen voor.’
SPARQL queries
Wat doen jullie daar nu aan?
‘In onze projecten genereren we big data uit miljoenen teksten, bijvoorbeeld tien jaar nieuws over de autoindustrie. Dat levert miljoenen triples op, feiten en beweringen uit het nieuws. Om die big en noisy data te kunnen bevragen, draaien we statistische analyses op de data om te zien wat er in staat en hoe we interfaces kunnen maken, zodat mensen die kunnen bevragen zonder zelf SPARQL queries te moeten formuleren. Dergelijke interfaces vallen vaak toch weer terug op gewoon zoeken via een index Wat wij teruggeven als resultaat is echter wel anders. Dat heeft meer de vorm van gestructureerde data die je kunt weergeven in tabelvorm of als graaf – als een soort netwerk.’

Spelen de taalkundige en taaltechnologische methoden waarin je gespecialiseerd bent, een rol bij de analyse van alle soorten big data of geldt dat alleen voor heel speciale soorten?
‘De meeste big data is gestructureerd. Taal speelt daar voornamelijk een rol bij het weergeven van labels voor concepten en relaties. Bij ons speelt de technologie een rol bij het omzetten van tekst in gestructureerde data en, zoals al eerder gezegd, bij het bevragen van die data. De stappen zijn: 1. tekst naar RDF, 2. vraag naar SPARQL, 3. big data-gevolgtrekkingen, 4. RDF-resultaat, 5. resultaat presentatie. Taal en taaltechnologie spelen een rol bij de stappen 1, 2 en 5.’

De bezoekers van de VOGIN-IP-lezing zijn informatiespecialisten die vooral op het thema ‘zoeken’ afkomen. Welke boodschap ga je hen meegeven?
‘Het probleem van tekstinterpretatie wordt zwaar onderschat. Tekst is vaag, incompleet, meerduidig, maar bevat tegelijkertijd vele complexe lagen aan informatie. Het zijn niet alleen feitelijkheden, maar vooral meningen, opinies en perspectieven van mensen op die feitelijkheden. Dat is een puzzel die we voorlopig nog niet opgelost hebben.’


Nog wat filmpjes met/over Piek Vossen

Piek Vossen

Naar aanleiding van het toekennen van een Spinozapremie aan Piek Vossen, had NWO vorig jaar dit filmpje over onze keynote spreker laten maken.

De keynotes

greg     piek
De twee keynotes voor de VOGIN-IP-lezing 2015 zijn al bekend.
Greg Notess (links) zal de dag openen; Piek Vossen (rechts) zorgt voor de afsluiting.

Op Greg’s eigen website:

“Greg R. Notess is a writer, speaker, and consultant focusing on the Internet, online information resources, Web searching, and the search engine industry. He has been researching and covering Internet information resources since 1990. Greg is also a reference librarian and professor at Montana State University.”

Hier in Nederland volgden informatiespecialisten al vanaf de vroege jaren ’90 zijn zeer regelmatige columns en andere bijdragen over internetbronnen, zoeken en zoekmachines in het Amerikaanse vakblad “Online” (nu “Online Searcher“).

Piek Vossen is in het verleden onder meer CTO geweest bij Irion Technologies in Delft. Sinds 2006 is hij hoogleraar Computationele Lexicologie bij de VU. In 2013 ontving hij de prestigieuze NWO Spinozapremie voor zijn onderzoek. Piek is ook mede-oprichter en voorzitter van de Global Wordnet Association. Op de website van de VU:

“Piek Vossen lijkt zelf wel wat op een supercomputer. Hij is taalwetenschapper en programmeur; gedegen onderzoeker en efficiënt projectmanager. Hij werkt hard en succesvol aan computers die taal door en door begrijpen.”

Verdere gegevens over deze twee lezingen, over de rest van het lezingenprogramma en over de te volgen workshops komen binnenkort op deze site beschikbaar.

Vertrouwt u alleen op Google?

trust2 Inlichtingendiensten hebben dezer dagen een slechte naam gekregen. Toch zal Arno Reuser in zijn lezing beweren dat informatieprofessionals nog wel iets kunnen leren van de manier waarop daar naar informatie wordt gekeken.
In ons vak is Arno vooral bekend als moderator en organisator van onze Nedbib discussielijst. Maar daarnaast laat hij anderen ook meeprofiteren van de kennis die hij opdeed uit zijn contacten met inlichtingendiensten. Contacten die uit zijn werkomgeving voortkwamen.
Zo bekommert hij zich nogal om methoden om zo te zoeken dat je geen (of zo weinig mogelijk) sporen van je zoektochten achterlaat. Een ander belangrijk aspect bij inlichtingendiensten is natuurlijk de nadruk die daar ligt op het bepalen van de betrouwbaarheid van gevonden informatie.

Die betrouwbaarheid moet natuurlijk van nature al hoog in het vaandel staan bij iedere informatieprofessional, maar in de praktijk is bij veel organisaties de tijdsdruk vaak zo groot – en is er vaak ook zoveel informatie – dat daaraan onvoldoende aandacht kan worden besteed. Met als gevolg dat ook in professionele omgevingen regelmatig ongevalideerde informatie in omloop wordt gebracht. trust
Omdat inlichtingendiensten de lat wel altijd een tikje hoger moeten leggen, zal Arno in zijn lezing vanuit die achtergrond ingaan op analyse-techieken die het mogelijk maken om die validatieproblematiek het hoofd te bieden.

Market Intelligence bij AkzoNobel

oneintelAkzoNobel is een belangrijke wereldwijde speler op het gebied van verf en coatings, maar doet ook veel in de sector van de speciale chemie. In zo’n bedrijf speelt competitive intelligence uiteraard een belangrijke rol. Robert Jan Alting von Geusau heeft een project geleid om die informatie-voorziening te verbeteren. Efficiëntie, kosteneffectiviteit en brede toegankelijkheid van ingekochte externe informatie waren daarbij belangrijke uitgangspunten.
In zijn lezing zal Robert Jan ingaan op het verzamelen van de wensen vanuit de diverse gebruikersgroepen en op het keuzetraject voor het aanschaffen van een systeem. Maar een ministens zo belangrijke stap was de uiteindelijke implementatie van het systeem. De overwegingen, keuzes en beslissingen daarbij zullen aan de orde komen. Ook de keuze om verschillende doelgroepen hun eigen ingang op het systeem te geven. De zo gerealiseerde Centrale Intelligence Website is onder de naam “OneIntelligence” het bedrijf ingegaan. Toehoorders van de lezing zullen ook te zien krijgen hoe dat eruit ziet.

Een paar uitspraken uit een eerdere presentatie:
# Manage expectations. Users sometimes expect “instantaneous automation”.
# OneIntelligence makes things more efficient but doesn’t automate everything.
# The quality of the content determines the value that people will get from the system.