Q&A – Piek Vossen beantwoordt vragen van IP

[Inhoud van de rubriek Q&A uit het februari-nummer van vakblad “IP”]
Piek Vossen, hoogleraar Computationele Lexicologie bij de VU, is een van de keynotesprekers op de VOGIN-IP-lezing op 26 maart in de OBA. In een Q&A vertelt hij over de relatie tussen zoekmachines en big data.

Piek VossenIn 2006 ben je vanuit een commercieel bedrijf – als Chief Technology Officer bij Irion Technologies in Delft – weer de wetenschap ingestapt. Een makkelijke overgang?
‘Irion is een technologiebedrijf waar nieuwe en innovatieve producten worden ontwikkeld. Dat staat niet ver van de onderzoekswereld. In mijn huidige werk doe ik voornamelijk onderzoek en veel acquisitie van projecten; in veel opzichten lijkt dat op mijn oude werk. Bovendien werk ik nog steeds samen met veel bedrijven; sommige stammen nog uit mijn contacten uit de Irion-tijd. Wel is het perspectief bij mijn huidige werk meer de langere termijn; bovendien zijn de vragen uitdagender.’

Maakte die ervaring als CTO bij Irion het makkelijker om je huidige onderzoek meteen te vertalen naar praktische en wellicht commerciële toepassingen?
‘Bij een bedrijf kun je je niet beperken tot een deelprobleem: je moet een totaaloplossing bieden. Ik vind dat ook heel waardevol voor het onderzoek dat we nu doen. Het is belangrijk dat we problemen onderzoeken in een reële context met alle aspecten eromheen. Als je bijvoorbeeld onderzoek doet naar de betekenis van woorden in teksten, dan moet je dat zien vanuit de waarde die de tekst heeft voor een gebruiker. In feite heeft die tekst een bepaalde betekenis voor de gebruiker en niet alleen maar vanuit een algemeen theoretisch perspectief.’
‘Veel evaluaties in de wetenschap zijn kunstmatig. Ik vind dat je veel meer leert over het probleem taal en betekenis door naar de effecten van communicatie (lees: schrijver-tekst-lezer/zoeker) te kijken. Waarom vind je wel of niet wat je zoekt en wat is de rol van meerduidigheid en vaagheid van taal in dat zoekproces? Dat is een heel ander perspectief op betekenis dan alleen te kijken naar de betekenissen die in een woordenboek staan.’

Analyse van big data en klassieke zoekmachinetechnologie lijken op het eerste gezicht niet heel veel gemeen te hebben. Welke rol speelt zoeksoftware niettemin bij de analyse van big data?
‘Het klopt dat big data en zoektechnologie voortkomen uit verschillende onderzoeksparadigma’s. Dat heeft volgens mij ook te maken met het probleem om de betekenis van tekst voldoende te kunnen formaliseren. Daarmee bedoel ik dat we niet alle informatie uit een tekst weten te vangen, bovendien worden er nog te veel fouten gemaakt bij het interpreteren van tekst. Tekstanalyse resulteert te veel in noisy en onvolledige data voor big data-analyse. Er moeten nog veel stappen gezet worden voordat big data en vrijetekstzoeken samenvallen.’
‘Daarnaast wordt bij big data vaak niet gekeken naar natuurlijke manieren van vragen stellen. Het is niet zo eenvoudig om een zoekvraag te vertalen naar een SPARQL query waarmee big data bevraagd kan worden. Daar wordt nu onderzoek naar gedaan maar daarbij doen zich ook weer interpretatieproblemen voor.’
SPARQL queries
Wat doen jullie daar nu aan?
‘In onze projecten genereren we big data uit miljoenen teksten, bijvoorbeeld tien jaar nieuws over de autoindustrie. Dat levert miljoenen triples op, feiten en beweringen uit het nieuws. Om die big en noisy data te kunnen bevragen, draaien we statistische analyses op de data om te zien wat er in staat en hoe we interfaces kunnen maken, zodat mensen die kunnen bevragen zonder zelf SPARQL queries te moeten formuleren. Dergelijke interfaces vallen vaak toch weer terug op gewoon zoeken via een index Wat wij teruggeven als resultaat is echter wel anders. Dat heeft meer de vorm van gestructureerde data die je kunt weergeven in tabelvorm of als graaf – als een soort netwerk.’

Spelen de taalkundige en taaltechnologische methoden waarin je gespecialiseerd bent, een rol bij de analyse van alle soorten big data of geldt dat alleen voor heel speciale soorten?
‘De meeste big data is gestructureerd. Taal speelt daar voornamelijk een rol bij het weergeven van labels voor concepten en relaties. Bij ons speelt de technologie een rol bij het omzetten van tekst in gestructureerde data en, zoals al eerder gezegd, bij het bevragen van die data. De stappen zijn: 1. tekst naar RDF, 2. vraag naar SPARQL, 3. big data-gevolgtrekkingen, 4. RDF-resultaat, 5. resultaat presentatie. Taal en taaltechnologie spelen een rol bij de stappen 1, 2 en 5.’

De bezoekers van de VOGIN-IP-lezing zijn informatiespecialisten die vooral op het thema ‘zoeken’ afkomen. Welke boodschap ga je hen meegeven?
‘Het probleem van tekstinterpretatie wordt zwaar onderschat. Tekst is vaag, incompleet, meerduidig, maar bevat tegelijkertijd vele complexe lagen aan informatie. Het zijn niet alleen feitelijkheden, maar vooral meningen, opinies en perspectieven van mensen op die feitelijkheden. Dat is een puzzel die we voorlopig nog niet opgelost hebben.’


Nog wat filmpjes met/over Piek Vossen

Piek Vossen

Naar aanleiding van het toekennen van een Spinozapremie aan Piek Vossen, had NWO vorig jaar dit filmpje over onze keynote spreker laten maken.

De keynotes

greg     piek
De twee keynotes voor de VOGIN-IP-lezing 2015 zijn al bekend.
Greg Notess (links) zal de dag openen; Piek Vossen (rechts) zorgt voor de afsluiting.

Op Greg’s eigen website:

“Greg R. Notess is a writer, speaker, and consultant focusing on the Internet, online information resources, Web searching, and the search engine industry. He has been researching and covering Internet information resources since 1990. Greg is also a reference librarian and professor at Montana State University.”

Hier in Nederland volgden informatiespecialisten al vanaf de vroege jaren ’90 zijn zeer regelmatige columns en andere bijdragen over internetbronnen, zoeken en zoekmachines in het Amerikaanse vakblad “Online” (nu “Online Searcher“).

Piek Vossen is in het verleden onder meer CTO geweest bij Irion Technologies in Delft. Sinds 2006 is hij hoogleraar Computationele Lexicologie bij de VU. In 2013 ontving hij de prestigieuze NWO Spinozapremie voor zijn onderzoek. Piek is ook mede-oprichter en voorzitter van de Global Wordnet Association. Op de website van de VU:

“Piek Vossen lijkt zelf wel wat op een supercomputer. Hij is taalwetenschapper en programmeur; gedegen onderzoeker en efficiënt projectmanager. Hij werkt hard en succesvol aan computers die taal door en door begrijpen.”

Verdere gegevens over deze twee lezingen, over de rest van het lezingenprogramma en over de te volgen workshops komen binnenkort op deze site beschikbaar.

Vertrouwt u alleen op Google?

trust2 Inlichtingendiensten hebben dezer dagen een slechte naam gekregen. Toch zal Arno Reuser in zijn lezing beweren dat informatieprofessionals nog wel iets kunnen leren van de manier waarop daar naar informatie wordt gekeken.
In ons vak is Arno vooral bekend als moderator en organisator van onze Nedbib discussielijst. Maar daarnaast laat hij anderen ook meeprofiteren van de kennis die hij opdeed uit zijn contacten met inlichtingendiensten. Contacten die uit zijn werkomgeving voortkwamen.
Zo bekommert hij zich nogal om methoden om zo te zoeken dat je geen (of zo weinig mogelijk) sporen van je zoektochten achterlaat. Een ander belangrijk aspect bij inlichtingendiensten is natuurlijk de nadruk die daar ligt op het bepalen van de betrouwbaarheid van gevonden informatie.

Die betrouwbaarheid moet natuurlijk van nature al hoog in het vaandel staan bij iedere informatieprofessional, maar in de praktijk is bij veel organisaties de tijdsdruk vaak zo groot – en is er vaak ook zoveel informatie – dat daaraan onvoldoende aandacht kan worden besteed. Met als gevolg dat ook in professionele omgevingen regelmatig ongevalideerde informatie in omloop wordt gebracht. trust
Omdat inlichtingendiensten de lat wel altijd een tikje hoger moeten leggen, zal Arno in zijn lezing vanuit die achtergrond ingaan op analyse-techieken die het mogelijk maken om die validatieproblematiek het hoofd te bieden.

Market Intelligence bij AkzoNobel

oneintelAkzoNobel is een belangrijke wereldwijde speler op het gebied van verf en coatings, maar doet ook veel in de sector van de speciale chemie. In zo’n bedrijf speelt competitive intelligence uiteraard een belangrijke rol. Robert Jan Alting von Geusau heeft een project geleid om die informatie-voorziening te verbeteren. Efficiëntie, kosteneffectiviteit en brede toegankelijkheid van ingekochte externe informatie waren daarbij belangrijke uitgangspunten.
In zijn lezing zal Robert Jan ingaan op het verzamelen van de wensen vanuit de diverse gebruikersgroepen en op het keuzetraject voor het aanschaffen van een systeem. Maar een ministens zo belangrijke stap was de uiteindelijke implementatie van het systeem. De overwegingen, keuzes en beslissingen daarbij zullen aan de orde komen. Ook de keuze om verschillende doelgroepen hun eigen ingang op het systeem te geven. De zo gerealiseerde Centrale Intelligence Website is onder de naam “OneIntelligence” het bedrijf ingegaan. Toehoorders van de lezing zullen ook te zien krijgen hoe dat eruit ziet.

Een paar uitspraken uit een eerdere presentatie:
# Manage expectations. Users sometimes expect “instantaneous automation”.
# OneIntelligence makes things more efficient but doesn’t automate everything.
# The quality of the content determines the value that people will get from the system.

Marydee over robots

omslag van eerdere aflevering van Online SearcherDe column van Marydee Ojala in het nieuwste (jan/feb 2014) nummer van Online Searcher heeft als titel “Research by Robot”. In die column gaat zij in op de toenemende populariteit van robots. Ze begint met wat voorbeelden van betrekkelijk dom, vaak mechanisch werk – ook in bibliotheken:

“You can vacuum with an iRobot Roomba and soon you’ll be able to scrub floors with Scooba. Robot surgeons such as DaVinci are aiding and even replacing surgeons (although their safety track record leaves something to be desired). Manufacturing lines for many industries are staffed robotically. SigFig’s robots provide personal financial planning. The U.S. Department of Defense funds academic research to develop robots as first responders. Libraries use robots to shelve and retrieve books.”

Maar verderop in haar column vraagt ze zich af of het ook al wat intellectueler kan; of robots ons werk ook kunnen doen. Dan zijn het natuurlijk geen mechanische apparaten meer, maar is het slimme software die op en achter het scherm automatisch van alles voor ons doet.

“What about robots taking the jobs of humans? That’s already happened in manufacturing, but can robots perform intellectual endeavors or only tasks requiring brute force? Can they provide search results equal to or better than an information professional?”

En vervolgens ook wat het betekent voor web-search – nu al – en dat professionele zoekers daar eigenlijk niet zo blij mee moeten zijn:

“Web search results differ depending on your geographic location, your prior search activity, your browser, your device, and other algorithmically determined factors. If web search becomes totally optimized for shopping and entertainment, it’s professional researchers who lose out. We benefit from robotic analysis of Big Data but not from search algorithms that ignore the nuances of serious research.”

met als laatste zin

“Will this serve information professionals well or do we need to stage an intervention of our own to restore the human element of search?”

In haar lezing en ook in haar workshop op 20 maart zal Marydee vast ook wel op dit soort vragen ingaan. En anders moeten wij haar daar maar naar vragen.

De VOGIN-IP-lezing
VOGIN en InformatieProfessional bieden een programma vol van
de nieuwste informatie en inzichten rond zoeken en vinden.
Een update en hernieuwde kennismaking voor oud-VOGINcursisten.
Een verdieping en update voor lezers van InformatieProfessional.
Voor iedereen een vervolg op de succesvolle IP-lezingen uit vroeger jaren.

De eerste twee sprekers

De eerste twee sprekers voor het middagprogramma van de VOGIN-IP-lezing zijn bekend. Dat zijn Marydee Ojala en Maarten de Rijke.
Aanvulling: intussen vindt u HIER al alle vijf sprekers!

Marydee2Marydee Ojala verzorgt onze keynote (en ze zal in de ochtend ook een workshop verzorgen – daarover later meer). Zij is onder meer hoofdredacteur van het vakblad Online Searcher dat vorig jaar is ontstaan uit het samengaan van de bekende bladen Online en Searcher Magazine. Daarin verzorgt ze de inleidende column [zie het november/december-nummer] en ook schrijft ze al vele jaren een vaste column over business research, “The Dollar Sign”. Nog wat meer gegevens zoals die onder haar column staan:
She contributes feature articles and news stories to Information Today, EContent, Computers in Libraries, Intranets, CyberSkeptic’s Guide to the Internet, Business Information Review, and Information Today’s NewsBreaks. A long-time observer of the information industry, she speaks frequently at conferences, such as WebSearch University, Internet Librarian, Online Information (London, UK), Internet Librarian International, and national library meetings outside the U.S.
In haar lezing zal ze ingaan op recente ontwikkelingen in het zoeklandschap, zowel bij webzoekmachines als bij aanbieders van betaalde zoeksystemen.

mdr2Maarten de Rijke, hoogleraar bij de UvA, is de tweede spreker. Hij is daar hoofd van de Information and Language Processing Systems Group, onderdeel van het Intelligent Systems Lab Amsterdam. Zijn onderzoek richt zich onder andere op intelligente retrievalsystemen, analyse van sociale media en andere big-data corpora en semantische zoeksystemen.
In een interview naar aanleiding van de Snowden-onthullingen, vorig najaar in de NRC, werd hem gevraagd hoe de NSA bruikbare informatie kan halen uit die enorme hoeveelheden verzamelde data. Wat de NSA daarmee doet, verschilt volgens De Rijke niet veel van wat Google met de inhoud van webpagina’s doet. Alleen is het voor de NSA veel moeilijker om te bepalen naar welke patronen ze moeten zoeken, dan voor Google. Google kan uit analyses van miljoenen clicks afleiden wat gebruikers goede resultaten vinden en zo zijn algoritmes verbeteren. Maar de NSA heeft weinig voorbeeldpatronen van aanslagen waaruit ze zouden kunnen leren …
In zijn lezing zal Maarten de Rijke daarom ingaan op de principes van zelflerende zoekmachines, die “autonoom” steeds slimmer worden.

Een web van onderzoeksdata

Digitaal beschikbaar stellen van onderzoeksgegevens is in de mode. researchdataHet semantisch web is in de mode. Linked data zijn in de mode.
Wat dan te denken van een combinatie van die drie?
Rinke Hoekstra, onderzoeker bij zowel de VU als de UvA, blijkt inderdaad al volop bezig die drie te combineren. Niet als modegril, maar omdat het nuttig is om een web van onderling verbonden onderzoeksdata te genereren. Zo kun je makkelijker de gegevens achter een publicatie echterhalen en is het mogelijk daarmee verband houdende andere gegevens tegen te komen. In die gestructureerde onderzoeksgegevens kun je ook gerichter zoeken dan met full-text zoekvragen mogelijk is.
Mooi dat Rinke ons over die nieuwe ontwikkelingen komt vertellen in zijn lezing op 28 februari.

Zie bijvoorbeeld:
http://www.slideshare.net/rinkehoekstra/semantic-representations-for-research

De VOGIN-IP-lezing
VOGIN en InformatieProfessional bieden een programma vol met
de nieuwste informatie en inzichten over zoeken en vinden.
Een update en hernieuwde kennismaking voor oud-VOGINcursisten.
Een verdieping en update voor lezers van InformatieProfessional.
Een vervolg op de succesvolle IP-lezingen uit voorgaande jaren.

Slimmer zoeken

NRC-Handelsblad had op 9 februari een speciale bijlage “Slimmer zoeken op internet”. grootte van zoekmachinesLeuk om te lezen, maar het is misschien nog beter om op de VOGIN-IP-lezing te komen luisteren naar allerlei tips hoe je beter kunt zoeken en naar wat er allemaal voor nieuwe en veranderende mogelijkheden zijn. Te meer daar op de VOGIN-IP-lezing ook twee auteurs zullen optreden die aan die NRC-special hebben bijgedragen.
Dat zijn Henk van Ess en Eric Sieverts. De NRC-bijdrage van Eric Sieverts was gebaseerd op het artikel over de geschiedenis van de webzoekmachines dat hij vorig jaar voor Informatie Professional schreef. Overigens zal hij in zijn workshop op 28 februari niet op dat verleden, maar juist op de nieuwste ontwikkelingen ingaan.

van Lycos tot Google

De VOGIN-IP-lezing
VOGIN en InformatieProfessional bieden een programma vol met
de nieuwste informatie en inzichten over zoeken en vinden.
Een update en hernieuwde kennismaking voor oud-VOGINcursisten.
Een verdieping en update voor lezers van InformatieProfessional.
Een vervolg op de succesvolle IP-lezingen uit voorgaande jaren.

Taalwetenschap en beter zoeken

AntalvdBoschAntal van den Bosch heeft afgelopen november op de Radboud Universiteit in Nijmegen zijn oratie gehouden ter gelegenheid van zijn aanstelling als hoogleraar “Example-Based Language Modelling”.
In de nieuwsrubriek van InformatieProfessional was daar toen ook al aandacht aan besteed.
Die taalmodellering waarmee hij zich bezig houdt, maakt vooral gebruik van statistische methodes, gebaseerd op de enorme hoeveelheden tekstinformatie die (ook voor het Nederlands) digitaal beschikbaar zijn. Daar komen niet alleen practische toepassingen uit voort, zoals betere spellingscorrectie, vertaalprogramma’s en betere zoektechnieken, maar het geeft ook nieuwe inzichten voor de taalwetenschap. Dergelijke inzichten komen op die manier niet meer voort uit theoretische overwegingen, maar puur experimenteel uit observatie van grote hoeveelheden data.
Voor ons zal Antal in zijn lezing echter vooral ingaan op de mogelijkheden die deze modellen en technieken bieden voor betere interpretatie van de inhoud van teksten – ook als die teksten maar korte tweets zijn. In principe kan daar zelfs voorspellende waarde aan ontleend worden. En uiteraard zal hij ook ingaan op verbeterde zoek- en filtertechnieken die hier een uitvloeisel van zijn. Echte wetenschap en practische toepassing liggen hier heel dicht bij elkaar.

Zie onder andere:
– filmpje ter illustratie van “Phrase-based memory-based machine translation”
– Project “Integrated Social History Environment for Research (ISHER) – Digging into Social Unrest”

De VOGIN-IP-lezing
VOGIN en InformatieProfessional bieden een programma vol met
de nieuwste informatie en inzichten over zoeken en vinden.
Een update en hernieuwde kennismaking voor oud-VOGINcursisten.
Een verdieping en update voor lezers van InformatieProfessional.
Een vervolg op de succesvolle IP-lezingen uit voorgaande jaren.