Informatietools bij de douane

douaneOok de Douane – onderdeel van de Belastingdienst – is een intensieve gebruiker van informatie. Toon Steenbakkers – daar al bijna 40 jaar in dienst – is er mede verantwoordelijk voor de informatievoorziening.
In de periode 1992-2008 was hij vooral betrokken bij data-analyse en (later) data-mining. Als resultaat van een onderzoek naar het belang van Open Source Intelligence (OSINT) voor de Douane, werd Steenbakkers in 2008 gevraagd om een OSINT-team te vormen. Daarvan is hij nu landelijk coördinator. Omdat partners en collega’s uit de EU lidstaten op internet dezelfde problemen hebben, ziet Steenbakkers het delen van kennis en het ontwikkelen van tools als een gezamenlijk belang. Samenwerking was daarom vanaf het begin een van zijn doelstellingen.
De Douane heeft behalve met de normale controle op invoer van goederen met veel risico’s te maken. Daarbij kun je denken aan drugs, wapens, namaak, medicijnen, bedreigde uitheemse diersoorten en dergelijke. Niet alle risico’s kunnen worden afgedekt met simpele Google-zoekacties. Vandaar dat met diverse speciale tools wordt gewerkt. Over die tools – deels zelf ontwikkeld of aangepast – zal Toon Steenbakkers ons meer vertellen.
Je kunt daarbij denken aan allerlei soorten monitoring tools, bijvoorbeeld voor het vinden van adverteerders van (illgale) sigaretten of het volgen van sociale media, aan data extractors om grote hoeveelheden informatie binnen te halen, aan tools voor web-archiving, en aan tools voor het vinden/analyseren van relaties op internet. Waarschijnlijk zullen een heleboel namen van interessante tools de revue passeren.
Toon Steenbakkers spreekt in Lezingentrack-2 in het middagprogramma.

Greg Notess mist de grote concurrenten van Google

Een interview met IP


Met Greg Notess, keynote spreker in het ochtendprogramma, heeft IP vooraf al een email-interview gehouden. Deze Nederlandse bewerking staat ook op de IP-site.
notess
IP: Er zijn allerlei redenen waarom “echte” informatieprofessionals nogal kritisch staan ten opzichte van Google. Ze betreuren dat er voortdurend weer allerlei functionaliteit, diensten en producten verdwijnen en zoekresultaten steeds onbetrouwbaarder en onreproduceerbaarder worden. Behoor jij ook tot degenen die Google daarvoor verwensen?
‘Allebei die punten vind ik zeker ook teleurstellend. Maar, zoals zoveel anderen, blijf ik Google natuurlijk toch regelmatig gebruiken, omdat het voor bepaalde soorten zoekacties nu eenmaal makkelijk resultaten oplevert. In zijn algemeenheid pleeg ik ook ten opzichte van elke informatiedienst een realistische houding aan te nemen wat betreft hun sterke en zwakke kanten. Ik moet de eerste nog vinden die niet van allebei wat heeft. Google heeft zich altijd toegelegd op het geven van relevante resultaten voor simpele zoekacties, van het soort dat de meeste gebruikers intikken. Maar de algoritmes en technieken die Google heeft ontwikkeld om die primaire doelgroep van dienst te zijn, resulteren juist in de problemen die informatiespecialisten onderkennen. Maar als we ons realiseren dat we voortdurend de mogelijkheid hebben om gratis te zoeken en resultaten uit Google te krijgen, dan is is het eigenlijk verbazingwekkend dat we op een redelijk consistente manier toch zulke bruikbare resultaten krijgen.’

IP: Ook al worden niet alle nieuwe zoekproducten meer meteen gechargeerd als potentiële “Google-killers” geafficheerd, toch worden ze vaak nog wel aangemerkt als concurrenten voor Google’s marktaandeel. Sommigen zijn niet zo heel veel anders (zoals DuckDuckGo), andere proberen hele nieuwe zoekparadigma’s toe te passen. Welke van de nieuwkomers zouden we volgens jou in de gaten moeten houden.
‘Er is een voortdurend veranderend universum van concurrenten voor het webzoeken. Bing en DuckDuckGo blijven een nuttig tegenwicht tegen Google’s marktdominantie en hebben hun eigen toepassingen. Zoekmachines die een geheel nieuwe aanpak uitproberen, schijnen na één of twee jaar toch te mislukken of in elk geval te verdwijnen (zoals Cuil of Blekko). Onderwerp- of land-specifieke zoekmachines lijken een betere overlevingskans te hebben. En die hebben vaak ook een interessante aanpak. Van het hele spectrum, van grote zoekmachines zoals Yandex en Baidu, tot data-specifieke als Wolfram|Alpha, Zanran en Statista, tot nog andere zoals Qwant of Topsy, zijn er een heleboel om in de gaten te houden en zo af en toe te gebruiken.’

IP: In je lezing ga je het hebben over de transformatie van het zoeken naar het direct krijgen van antwoorden, onder meer gebaseerd op Google’s Knowledge Graph. Hoe betrouwbaar vind je dergelijke antwoorden? En wat is het verschil met de Knowledge Vault die Google ook heeft aangekondigd?
‘Voor populaire onderwerpen zijn verrassend veel antwoorden heel accuraat. Toch blijven onnauwkeurigheden een belangrijke kwestie, vooral als de oorspronkelijke bron zo zelden vermeld wordt. Of er al dan niet iets onder de naam van “Knowledge Vault” wordt, het valt zeker te verwachten dat dat project verder wordt uitgebouwd.’

IP: In de beginjaren van websearch speelden door mensen samengestelde onderwerpsgidsen, zoals de Yahoo!-directory een belangrijke rol. De meeste daarvan zijn intussen verdwenen. Mis je die of is het maar goed ook dat die weg zijn?
‘Het probleem met de directories was altijd dat ze vaak incompleet, verouderd en onnauwkeurig waren. Bij de snelheid waarmee dingen op internet veranderen, zal dat ook zo blijven. Voor mij hebben de links onderaan Wikipedia-pagina’s nu in veel gevallen de rol (maar ook de problemen) van directories overgenomen. Die verwijzingen gebruik ik als mogelijke bron, maar ik voer ook mijn eigen zoekacties uit voor meer recente sites of om de correcte links te vinden.’

IP: Anderzijds is “content curation” nu een buzz-word geworden. Zo staat ZEEF, dat op basis van “curation” gevuld wordt – eigenlijk een beetje als de Yahoo!-directory – nogal in de belangstelling. Is dat geen tegenstrijdigheid?
‘Internet blijft een makkelijk platform om nieuwe en oude ideeën uit te proberen en om venture kapitaal binnen te halen voor projecten die mogelijkerwijs de volgende grote geldmachine kunnen worden. About.com heeft een heleboel transformaties doorgaan en was een directory-achtige site die wel overleefd en gefloreerd heeft. Met ZEEF’s nadruk op affiliate marketing, zou die het in de financiële hoek goed kunnen doen. Maar hoe goed de content daarin beheerd gaat worden, zullen we nog moeten afwachten. Tegenstrijdige ontwikkelingen zullen ook zeker doorgaan als het web en mobiel internet zo populair blijven, en vooral als mensen naar advertenties blijven kijken en online geld blijven uitgeven.’

IP: Tot slot nog twee vragen over het verleden;
– Welke van de vele verdwenen zoekmachines mis je het meest?
– En welke van de verdwenen zoekfunctionaliteit?

‘Ik mis de grote concurrenten van Google die interessante en nuttige functionaliteit voor geavanceerde zoekers ontwikkelden. Alltheweb en zelfs AltaVista en NorthernLight hadden prima ideeën en zoekmogelijkheden die ik graag gebruikte. Jammer genoeg werden die door de markt niet ondersteund.’
‘Van de functionaliteit mis ik echte truncatie, wildcards, interne truncatie, correcte en consistente phrase searching, proximity searching, correct datum-zoeken en nog wat verdere gespecialiseerde tools. Veel daarvan zou ik betrekkelijk weinig gebruiken, maar het is zo plezierig om, als je het nodig hebt, je vraag veel preciezer tot de exact gewenste documenten te kunnen inperken. Maar dat gezegd hebbende, we hebben nog altijd zoveel databases om in te zoeken en zoveel geavanceerde mogelijkheden op allerlei plaatsen, dat ik nog altijd geniet van de grote variëteit aan zoeksystemen en zoekcommando’s die ik daarin kan gebruiken.’

Q&A – Piek Vossen beantwoordt vragen van IP

[Inhoud van de rubriek Q&A uit het februari-nummer van vakblad “IP”]
Piek Vossen, hoogleraar Computationele Lexicologie bij de VU, is een van de keynotesprekers op de VOGIN-IP-lezing op 26 maart in de OBA. In een Q&A vertelt hij over de relatie tussen zoekmachines en big data.

Piek VossenIn 2006 ben je vanuit een commercieel bedrijf – als Chief Technology Officer bij Irion Technologies in Delft – weer de wetenschap ingestapt. Een makkelijke overgang?
‘Irion is een technologiebedrijf waar nieuwe en innovatieve producten worden ontwikkeld. Dat staat niet ver van de onderzoekswereld. In mijn huidige werk doe ik voornamelijk onderzoek en veel acquisitie van projecten; in veel opzichten lijkt dat op mijn oude werk. Bovendien werk ik nog steeds samen met veel bedrijven; sommige stammen nog uit mijn contacten uit de Irion-tijd. Wel is het perspectief bij mijn huidige werk meer de langere termijn; bovendien zijn de vragen uitdagender.’

Maakte die ervaring als CTO bij Irion het makkelijker om je huidige onderzoek meteen te vertalen naar praktische en wellicht commerciële toepassingen?
‘Bij een bedrijf kun je je niet beperken tot een deelprobleem: je moet een totaaloplossing bieden. Ik vind dat ook heel waardevol voor het onderzoek dat we nu doen. Het is belangrijk dat we problemen onderzoeken in een reële context met alle aspecten eromheen. Als je bijvoorbeeld onderzoek doet naar de betekenis van woorden in teksten, dan moet je dat zien vanuit de waarde die de tekst heeft voor een gebruiker. In feite heeft die tekst een bepaalde betekenis voor de gebruiker en niet alleen maar vanuit een algemeen theoretisch perspectief.’
‘Veel evaluaties in de wetenschap zijn kunstmatig. Ik vind dat je veel meer leert over het probleem taal en betekenis door naar de effecten van communicatie (lees: schrijver-tekst-lezer/zoeker) te kijken. Waarom vind je wel of niet wat je zoekt en wat is de rol van meerduidigheid en vaagheid van taal in dat zoekproces? Dat is een heel ander perspectief op betekenis dan alleen te kijken naar de betekenissen die in een woordenboek staan.’

Analyse van big data en klassieke zoekmachinetechnologie lijken op het eerste gezicht niet heel veel gemeen te hebben. Welke rol speelt zoeksoftware niettemin bij de analyse van big data?
‘Het klopt dat big data en zoektechnologie voortkomen uit verschillende onderzoeksparadigma’s. Dat heeft volgens mij ook te maken met het probleem om de betekenis van tekst voldoende te kunnen formaliseren. Daarmee bedoel ik dat we niet alle informatie uit een tekst weten te vangen, bovendien worden er nog te veel fouten gemaakt bij het interpreteren van tekst. Tekstanalyse resulteert te veel in noisy en onvolledige data voor big data-analyse. Er moeten nog veel stappen gezet worden voordat big data en vrijetekstzoeken samenvallen.’
‘Daarnaast wordt bij big data vaak niet gekeken naar natuurlijke manieren van vragen stellen. Het is niet zo eenvoudig om een zoekvraag te vertalen naar een SPARQL query waarmee big data bevraagd kan worden. Daar wordt nu onderzoek naar gedaan maar daarbij doen zich ook weer interpretatieproblemen voor.’
SPARQL queries
Wat doen jullie daar nu aan?
‘In onze projecten genereren we big data uit miljoenen teksten, bijvoorbeeld tien jaar nieuws over de autoindustrie. Dat levert miljoenen triples op, feiten en beweringen uit het nieuws. Om die big en noisy data te kunnen bevragen, draaien we statistische analyses op de data om te zien wat er in staat en hoe we interfaces kunnen maken, zodat mensen die kunnen bevragen zonder zelf SPARQL queries te moeten formuleren. Dergelijke interfaces vallen vaak toch weer terug op gewoon zoeken via een index Wat wij teruggeven als resultaat is echter wel anders. Dat heeft meer de vorm van gestructureerde data die je kunt weergeven in tabelvorm of als graaf – als een soort netwerk.’

Spelen de taalkundige en taaltechnologische methoden waarin je gespecialiseerd bent, een rol bij de analyse van alle soorten big data of geldt dat alleen voor heel speciale soorten?
‘De meeste big data is gestructureerd. Taal speelt daar voornamelijk een rol bij het weergeven van labels voor concepten en relaties. Bij ons speelt de technologie een rol bij het omzetten van tekst in gestructureerde data en, zoals al eerder gezegd, bij het bevragen van die data. De stappen zijn: 1. tekst naar RDF, 2. vraag naar SPARQL, 3. big data-gevolgtrekkingen, 4. RDF-resultaat, 5. resultaat presentatie. Taal en taaltechnologie spelen een rol bij de stappen 1, 2 en 5.’

De bezoekers van de VOGIN-IP-lezing zijn informatiespecialisten die vooral op het thema ‘zoeken’ afkomen. Welke boodschap ga je hen meegeven?
‘Het probleem van tekstinterpretatie wordt zwaar onderschat. Tekst is vaag, incompleet, meerduidig, maar bevat tegelijkertijd vele complexe lagen aan informatie. Het zijn niet alleen feitelijkheden, maar vooral meningen, opinies en perspectieven van mensen op die feitelijkheden. Dat is een puzzel die we voorlopig nog niet opgelost hebben.’


Nog wat filmpjes met/over Piek Vossen

Piek Vossen

Naar aanleiding van het toekennen van een Spinozapremie aan Piek Vossen, had NWO vorig jaar dit filmpje over onze keynote spreker laten maken.

De keynotes

greg     piek
De twee keynotes voor de VOGIN-IP-lezing 2015 zijn al bekend.
Greg Notess (links) zal de dag openen; Piek Vossen (rechts) zorgt voor de afsluiting.

Op Greg’s eigen website:

“Greg R. Notess is a writer, speaker, and consultant focusing on the Internet, online information resources, Web searching, and the search engine industry. He has been researching and covering Internet information resources since 1990. Greg is also a reference librarian and professor at Montana State University.”

Hier in Nederland volgden informatiespecialisten al vanaf de vroege jaren ’90 zijn zeer regelmatige columns en andere bijdragen over internetbronnen, zoeken en zoekmachines in het Amerikaanse vakblad “Online” (nu “Online Searcher“).

Piek Vossen is in het verleden onder meer CTO geweest bij Irion Technologies in Delft. Sinds 2006 is hij hoogleraar Computationele Lexicologie bij de VU. In 2013 ontving hij de prestigieuze NWO Spinozapremie voor zijn onderzoek. Piek is ook mede-oprichter en voorzitter van de Global Wordnet Association. Op de website van de VU:

“Piek Vossen lijkt zelf wel wat op een supercomputer. Hij is taalwetenschapper en programmeur; gedegen onderzoeker en efficiënt projectmanager. Hij werkt hard en succesvol aan computers die taal door en door begrijpen.”

Verdere gegevens over deze twee lezingen, over de rest van het lezingenprogramma en over de te volgen workshops komen binnenkort op deze site beschikbaar.

Vertrouwt u alleen op Google?

trust2 Inlichtingendiensten hebben dezer dagen een slechte naam gekregen. Toch zal Arno Reuser in zijn lezing beweren dat informatieprofessionals nog wel iets kunnen leren van de manier waarop daar naar informatie wordt gekeken.
In ons vak is Arno vooral bekend als moderator en organisator van onze Nedbib discussielijst. Maar daarnaast laat hij anderen ook meeprofiteren van de kennis die hij opdeed uit zijn contacten met inlichtingendiensten. Contacten die uit zijn werkomgeving voortkwamen.
Zo bekommert hij zich nogal om methoden om zo te zoeken dat je geen (of zo weinig mogelijk) sporen van je zoektochten achterlaat. Een ander belangrijk aspect bij inlichtingendiensten is natuurlijk de nadruk die daar ligt op het bepalen van de betrouwbaarheid van gevonden informatie.

Die betrouwbaarheid moet natuurlijk van nature al hoog in het vaandel staan bij iedere informatieprofessional, maar in de praktijk is bij veel organisaties de tijdsdruk vaak zo groot – en is er vaak ook zoveel informatie – dat daaraan onvoldoende aandacht kan worden besteed. Met als gevolg dat ook in professionele omgevingen regelmatig ongevalideerde informatie in omloop wordt gebracht. trust
Omdat inlichtingendiensten de lat wel altijd een tikje hoger moeten leggen, zal Arno in zijn lezing vanuit die achtergrond ingaan op analyse-techieken die het mogelijk maken om die validatieproblematiek het hoofd te bieden.

Market Intelligence bij AkzoNobel

oneintelAkzoNobel is een belangrijke wereldwijde speler op het gebied van verf en coatings, maar doet ook veel in de sector van de speciale chemie. In zo’n bedrijf speelt competitive intelligence uiteraard een belangrijke rol. Robert Jan Alting von Geusau heeft een project geleid om die informatie-voorziening te verbeteren. Efficiëntie, kosteneffectiviteit en brede toegankelijkheid van ingekochte externe informatie waren daarbij belangrijke uitgangspunten.
In zijn lezing zal Robert Jan ingaan op het verzamelen van de wensen vanuit de diverse gebruikersgroepen en op het keuzetraject voor het aanschaffen van een systeem. Maar een ministens zo belangrijke stap was de uiteindelijke implementatie van het systeem. De overwegingen, keuzes en beslissingen daarbij zullen aan de orde komen. Ook de keuze om verschillende doelgroepen hun eigen ingang op het systeem te geven. De zo gerealiseerde Centrale Intelligence Website is onder de naam “OneIntelligence” het bedrijf ingegaan. Toehoorders van de lezing zullen ook te zien krijgen hoe dat eruit ziet.

Een paar uitspraken uit een eerdere presentatie:
# Manage expectations. Users sometimes expect “instantaneous automation”.
# OneIntelligence makes things more efficient but doesn’t automate everything.
# The quality of the content determines the value that people will get from the system.

Marydee over robots

omslag van eerdere aflevering van Online SearcherDe column van Marydee Ojala in het nieuwste (jan/feb 2014) nummer van Online Searcher heeft als titel “Research by Robot”. In die column gaat zij in op de toenemende populariteit van robots. Ze begint met wat voorbeelden van betrekkelijk dom, vaak mechanisch werk – ook in bibliotheken:

“You can vacuum with an iRobot Roomba and soon you’ll be able to scrub floors with Scooba. Robot surgeons such as DaVinci are aiding and even replacing surgeons (although their safety track record leaves something to be desired). Manufacturing lines for many industries are staffed robotically. SigFig’s robots provide personal financial planning. The U.S. Department of Defense funds academic research to develop robots as first responders. Libraries use robots to shelve and retrieve books.”

Maar verderop in haar column vraagt ze zich af of het ook al wat intellectueler kan; of robots ons werk ook kunnen doen. Dan zijn het natuurlijk geen mechanische apparaten meer, maar is het slimme software die op en achter het scherm automatisch van alles voor ons doet.

“What about robots taking the jobs of humans? That’s already happened in manufacturing, but can robots perform intellectual endeavors or only tasks requiring brute force? Can they provide search results equal to or better than an information professional?”

En vervolgens ook wat het betekent voor web-search – nu al – en dat professionele zoekers daar eigenlijk niet zo blij mee moeten zijn:

“Web search results differ depending on your geographic location, your prior search activity, your browser, your device, and other algorithmically determined factors. If web search becomes totally optimized for shopping and entertainment, it’s professional researchers who lose out. We benefit from robotic analysis of Big Data but not from search algorithms that ignore the nuances of serious research.”

met als laatste zin

“Will this serve information professionals well or do we need to stage an intervention of our own to restore the human element of search?”

In haar lezing en ook in haar workshop op 20 maart zal Marydee vast ook wel op dit soort vragen ingaan. En anders moeten wij haar daar maar naar vragen.

De VOGIN-IP-lezing
VOGIN en InformatieProfessional bieden een programma vol van
de nieuwste informatie en inzichten rond zoeken en vinden.
Een update en hernieuwde kennismaking voor oud-VOGINcursisten.
Een verdieping en update voor lezers van InformatieProfessional.
Voor iedereen een vervolg op de succesvolle IP-lezingen uit vroeger jaren.

De eerste twee sprekers

De eerste twee sprekers voor het middagprogramma van de VOGIN-IP-lezing zijn bekend. Dat zijn Marydee Ojala en Maarten de Rijke.
Aanvulling: intussen vindt u HIER al alle vijf sprekers!

Marydee2Marydee Ojala verzorgt onze keynote (en ze zal in de ochtend ook een workshop verzorgen – daarover later meer). Zij is onder meer hoofdredacteur van het vakblad Online Searcher dat vorig jaar is ontstaan uit het samengaan van de bekende bladen Online en Searcher Magazine. Daarin verzorgt ze de inleidende column [zie het november/december-nummer] en ook schrijft ze al vele jaren een vaste column over business research, “The Dollar Sign”. Nog wat meer gegevens zoals die onder haar column staan:
She contributes feature articles and news stories to Information Today, EContent, Computers in Libraries, Intranets, CyberSkeptic’s Guide to the Internet, Business Information Review, and Information Today’s NewsBreaks. A long-time observer of the information industry, she speaks frequently at conferences, such as WebSearch University, Internet Librarian, Online Information (London, UK), Internet Librarian International, and national library meetings outside the U.S.
In haar lezing zal ze ingaan op recente ontwikkelingen in het zoeklandschap, zowel bij webzoekmachines als bij aanbieders van betaalde zoeksystemen.

mdr2Maarten de Rijke, hoogleraar bij de UvA, is de tweede spreker. Hij is daar hoofd van de Information and Language Processing Systems Group, onderdeel van het Intelligent Systems Lab Amsterdam. Zijn onderzoek richt zich onder andere op intelligente retrievalsystemen, analyse van sociale media en andere big-data corpora en semantische zoeksystemen.
In een interview naar aanleiding van de Snowden-onthullingen, vorig najaar in de NRC, werd hem gevraagd hoe de NSA bruikbare informatie kan halen uit die enorme hoeveelheden verzamelde data. Wat de NSA daarmee doet, verschilt volgens De Rijke niet veel van wat Google met de inhoud van webpagina’s doet. Alleen is het voor de NSA veel moeilijker om te bepalen naar welke patronen ze moeten zoeken, dan voor Google. Google kan uit analyses van miljoenen clicks afleiden wat gebruikers goede resultaten vinden en zo zijn algoritmes verbeteren. Maar de NSA heeft weinig voorbeeldpatronen van aanslagen waaruit ze zouden kunnen leren …
In zijn lezing zal Maarten de Rijke daarom ingaan op de principes van zelflerende zoekmachines, die “autonoom” steeds slimmer worden.

Een web van onderzoeksdata

Digitaal beschikbaar stellen van onderzoeksgegevens is in de mode. researchdataHet semantisch web is in de mode. Linked data zijn in de mode.
Wat dan te denken van een combinatie van die drie?
Rinke Hoekstra, onderzoeker bij zowel de VU als de UvA, blijkt inderdaad al volop bezig die drie te combineren. Niet als modegril, maar omdat het nuttig is om een web van onderling verbonden onderzoeksdata te genereren. Zo kun je makkelijker de gegevens achter een publicatie echterhalen en is het mogelijk daarmee verband houdende andere gegevens tegen te komen. In die gestructureerde onderzoeksgegevens kun je ook gerichter zoeken dan met full-text zoekvragen mogelijk is.
Mooi dat Rinke ons over die nieuwe ontwikkelingen komt vertellen in zijn lezing op 28 februari.

Zie bijvoorbeeld:
http://www.slideshare.net/rinkehoekstra/semantic-representations-for-research

De VOGIN-IP-lezing
VOGIN en InformatieProfessional bieden een programma vol met
de nieuwste informatie en inzichten over zoeken en vinden.
Een update en hernieuwde kennismaking voor oud-VOGINcursisten.
Een verdieping en update voor lezers van InformatieProfessional.
Een vervolg op de succesvolle IP-lezingen uit voorgaande jaren.