Delf dieper in Delpher

delpher2In het februari-nummer van IP staat een artikel over de vernieuwde versie van Delpher, het zoeksysteem van de KB, waarmee zowel gedigitaliseerde kranten als boeken doorzocht kunnen worden. Het wordt aangeprezen met de slogan “Ruim 1 miljoen Nederlandse boeken, kranten en tijdschriften”. Daarbij zijn alleen al die kranten – niet alleen uit Nederland maar ook uit Suriname, de Antillen en Nederlandsch Indië – meer dan 6 miljoen bladzijden. Intussen zitten ook al 80.000 van de door Google gescande boeken in Delpher.
Ondanks allerlei verbeteringen vergt de nieuwe versie van Delpher nog steeds wel enige oefening om er precies (en alles) uit te krijgen wat je wilt. Ewoud Sanders, niet alleen bekend als auteur van de taalrubriek Woordhoek in NRC-Handelsblad, maar ook van boekjes over slimmer zoeken, had al een handleiding geschreven voor zoeken in de KB-collecties, met speciale aandacht voor Delpher. Daarvan is net deze week een nieuwe versie uitgekomen
Nieuwe versie!Voor bezoekers van de VOGIN-IP-lezing op 26 maart verzorgt hij nu ook een workshop, waarin deelnemers leren om meer te halen uit deze “buitengewoon rijke, maar ook weerbarstige bron” (zoals Ewoud dat zelf formuleert). Meldt u hiervoor tijdig aan, want deze workshop wordt die dag maar eenmaal gegeven – alleen in het middagprogramma.

Q&A – Piek Vossen beantwoordt vragen van IP

[Inhoud van de rubriek Q&A uit het februari-nummer van vakblad “IP”]
Piek Vossen, hoogleraar Computationele Lexicologie bij de VU, is een van de keynotesprekers op de VOGIN-IP-lezing op 26 maart in de OBA. In een Q&A vertelt hij over de relatie tussen zoekmachines en big data.

Piek VossenIn 2006 ben je vanuit een commercieel bedrijf – als Chief Technology Officer bij Irion Technologies in Delft – weer de wetenschap ingestapt. Een makkelijke overgang?
‘Irion is een technologiebedrijf waar nieuwe en innovatieve producten worden ontwikkeld. Dat staat niet ver van de onderzoekswereld. In mijn huidige werk doe ik voornamelijk onderzoek en veel acquisitie van projecten; in veel opzichten lijkt dat op mijn oude werk. Bovendien werk ik nog steeds samen met veel bedrijven; sommige stammen nog uit mijn contacten uit de Irion-tijd. Wel is het perspectief bij mijn huidige werk meer de langere termijn; bovendien zijn de vragen uitdagender.’

Maakte die ervaring als CTO bij Irion het makkelijker om je huidige onderzoek meteen te vertalen naar praktische en wellicht commerciële toepassingen?
‘Bij een bedrijf kun je je niet beperken tot een deelprobleem: je moet een totaaloplossing bieden. Ik vind dat ook heel waardevol voor het onderzoek dat we nu doen. Het is belangrijk dat we problemen onderzoeken in een reële context met alle aspecten eromheen. Als je bijvoorbeeld onderzoek doet naar de betekenis van woorden in teksten, dan moet je dat zien vanuit de waarde die de tekst heeft voor een gebruiker. In feite heeft die tekst een bepaalde betekenis voor de gebruiker en niet alleen maar vanuit een algemeen theoretisch perspectief.’
‘Veel evaluaties in de wetenschap zijn kunstmatig. Ik vind dat je veel meer leert over het probleem taal en betekenis door naar de effecten van communicatie (lees: schrijver-tekst-lezer/zoeker) te kijken. Waarom vind je wel of niet wat je zoekt en wat is de rol van meerduidigheid en vaagheid van taal in dat zoekproces? Dat is een heel ander perspectief op betekenis dan alleen te kijken naar de betekenissen die in een woordenboek staan.’

Analyse van big data en klassieke zoekmachinetechnologie lijken op het eerste gezicht niet heel veel gemeen te hebben. Welke rol speelt zoeksoftware niettemin bij de analyse van big data?
‘Het klopt dat big data en zoektechnologie voortkomen uit verschillende onderzoeksparadigma’s. Dat heeft volgens mij ook te maken met het probleem om de betekenis van tekst voldoende te kunnen formaliseren. Daarmee bedoel ik dat we niet alle informatie uit een tekst weten te vangen, bovendien worden er nog te veel fouten gemaakt bij het interpreteren van tekst. Tekstanalyse resulteert te veel in noisy en onvolledige data voor big data-analyse. Er moeten nog veel stappen gezet worden voordat big data en vrijetekstzoeken samenvallen.’
‘Daarnaast wordt bij big data vaak niet gekeken naar natuurlijke manieren van vragen stellen. Het is niet zo eenvoudig om een zoekvraag te vertalen naar een SPARQL query waarmee big data bevraagd kan worden. Daar wordt nu onderzoek naar gedaan maar daarbij doen zich ook weer interpretatieproblemen voor.’
SPARQL queries
Wat doen jullie daar nu aan?
‘In onze projecten genereren we big data uit miljoenen teksten, bijvoorbeeld tien jaar nieuws over de autoindustrie. Dat levert miljoenen triples op, feiten en beweringen uit het nieuws. Om die big en noisy data te kunnen bevragen, draaien we statistische analyses op de data om te zien wat er in staat en hoe we interfaces kunnen maken, zodat mensen die kunnen bevragen zonder zelf SPARQL queries te moeten formuleren. Dergelijke interfaces vallen vaak toch weer terug op gewoon zoeken via een index Wat wij teruggeven als resultaat is echter wel anders. Dat heeft meer de vorm van gestructureerde data die je kunt weergeven in tabelvorm of als graaf – als een soort netwerk.’

Spelen de taalkundige en taaltechnologische methoden waarin je gespecialiseerd bent, een rol bij de analyse van alle soorten big data of geldt dat alleen voor heel speciale soorten?
‘De meeste big data is gestructureerd. Taal speelt daar voornamelijk een rol bij het weergeven van labels voor concepten en relaties. Bij ons speelt de technologie een rol bij het omzetten van tekst in gestructureerde data en, zoals al eerder gezegd, bij het bevragen van die data. De stappen zijn: 1. tekst naar RDF, 2. vraag naar SPARQL, 3. big data-gevolgtrekkingen, 4. RDF-resultaat, 5. resultaat presentatie. Taal en taaltechnologie spelen een rol bij de stappen 1, 2 en 5.’

De bezoekers van de VOGIN-IP-lezing zijn informatiespecialisten die vooral op het thema ‘zoeken’ afkomen. Welke boodschap ga je hen meegeven?
‘Het probleem van tekstinterpretatie wordt zwaar onderschat. Tekst is vaag, incompleet, meerduidig, maar bevat tegelijkertijd vele complexe lagen aan informatie. Het zijn niet alleen feitelijkheden, maar vooral meningen, opinies en perspectieven van mensen op die feitelijkheden. Dat is een puzzel die we voorlopig nog niet opgelost hebben.’


Nog wat filmpjes met/over Piek Vossen

Beeldherkenning

smeulders
In de Volkskrant van afgelopen zaterdag stond een uitgebreid interview met professor Arnold Smeulders over automatische (digitale) beeldherkenning, onder de aansprekende titel “Een vleugje Silicon Valley aan de universiteit”.
Automatische beeldherkenning is begonnen als een tamelijk academisch onderwerp. Maar met de opkomst van digitaal beeld – foto’s en video – en vooral de huidige explosie daarvan in de sociale media, is het van steeds groter praktisch belang geworden. Ook voor steeds meer commerciële bedrijven, van makers van chips voor mobieltjes tot Google (+) zelf. Of zoals Smeulders in het Volkskrant-interview zegt: “ Het is raar: iedereen is nu bezig met digitale plaatjes, met het onderwerp waar ik al dertig jaar mee bezig ben. Ik weet niet wat me overkomt.
De Amsterdamse universitaire onderzoeksgroep van Smeulders en (tot voor kort) Cees Snoek speelt al heel lang een vooraanstaande rol in het onderzoek op dit terrein. Zoals uit het Volkskrant-artikel blijkt, weten zij echter ook goed de verbinding met de commerciële praktijk te leggen.
Een van de VOGIN-IP-lezingen op 26 maart is ook aan dit onderwerp gewijd. Thomas Mensink, uit die zelfde onderzoeksgroep van Smeulders aan de UvA, vertelt ons dan over de nieuwste ontwikkelingen op dit gebied. Tot nu toe werden in de meeste gevallen technieken van “machine learning” toegepast. Daarbij leert de computer op basis van een heleboel voorbeelden hoe een bepaald object te herkennen is, ook als het in verschillende omgevingen of vanuit verschillende hoeken gezien wordt.euvision examples Maar voor elk te herkennen onderwerp/object moet dat afzonderlijk gedaan worden. De heilige graal van beeldherkenning is daarom natuurlijk dat een computer ook zelfstandig nieuwe onderwerpen kan herkennen, waarop hij nog niet getraind is. Dat is waar Thomas Mensink zich nu mee bezig houdt en waar hij ons over gaat vertellen.

De VOGIN-IP workshop(s)

http://pixabay.com/en/middle-ages-forge-workshop-old-168630/
Hands-on (of anders in elk geval “heads-on”) is het devies bij de workshops die 26 maart op het programma staan.

  • Greg Notess is niet alleen een van onze keynote speakers, maar verzorgt ook een workshop over “Advanced web searching”. Daarin wordt de geavanceerde zoeksyntax van verschillende zoekmachines uitgetest, beoordeeld op zijn werking en met elkaar vergeleken.
  • Joyce van Aalten, bekend van haar cursussen over taxonomieën en het beter doorzoekbaar maken van Sharepoint-systemen, behandelt dit onderwerp ook bij ons. In haar workshop “Taxonomieën maken en toepassen in SharePoint 2013″ leer je hoe dat werkt en krijg je en-passant ook het Sharepoint-jargon uitgelegd.
  • Bianca Kramer en Jeroen Bosman hebben de laatste weken nogal (internationale) belangstelling getrokken met hun onderzoek naar nieuwe tools en diensten die de workflow van wetenschappers vereenvoudigen (en moderniseren). Dat vormt ook de basis van hun workshop “101 innovaties in de wetenschappelijke communicatie”.
  • Arno Reuser, met zijn verleden van inlichtingendienstmedewerker, wil altijd weten of gevonden informatie wel correct is en afkomstig van de bron die het voorgeeft te zijn. Hij laat zijn deelnemers kennismaken met tools en methoden ter beantwoording van de vragen: “Goed of fout? Echt of vals? Juist of onjuist?”
  • Marina Noordegraaf en Frank Huysmans hebben een workshop met de intrigerende titel “Eerste Hulp Bij Informatievrijheid – hoe informatievrij ben jij?” Daarin gaat het over de rol van de informatieprofessional op het gebied van onder meer intellectueel eigendom, privacy, overheidsspionage en ethiek.
  • Ewoud Sanders is niet alleen de vaste “Taalhoek”-columnist van NRC-Handelsblad, maar door zijn historisch taalonderzoek, ook expert in zoeken in oud tekstmateriaal. In zijn workshop “Slimmer zoeken door negen miljoen oude krantenpagina’s” leert hij deelnemers de weg te vinden in de historische schatkamer die Delpher (KB) biedt.
  • Boyd Hendriks hoor je vaak spreken over kennismanagement en zaken als competitive intelligence en ROI. In zijn workshop “Een duidelijke aanpak voor de inzet van Sociale Media” legt hij nu de link naar toepassing van sociale media, waarbij deelnemers leren hun eigen plan van aanpak daarvoor te maken.
  • Eric Sieverts vraagt zich af hoe het zit met de concrete antwoorden die steeds meer zogenaamde semantische zoeksystemen (ook Google) geven. Deelnemers moeten voor hem uitzoeken of dat goede antwoorden zijn of dat je nog altijd beter naar echte informatie kunt zoeken, kortom: “Vertrouwen op semantische zoeksystemen of zelf aan het stuur”.

Flickr - mtneer_man - https://www.flickr.com/photos/mtneer_man/9209994442
Meldt je tijdig aan, want voor de workshops geldt: “wie het eerst komt, het eerst maalt”.

Aanmelding open

http://en.wikipedia.org/wiki/German_keyboard_layout#mediaviewer/File:Keyboard_on_a_German_mechanical_Olympia_typewriter.jpg
Vorige week is de registratie van aanmeldingen voor de VOGIN-IP-lezing officieel geopend.
Wacht niet te lang met inschrijven, want aan de workshops kunnen maar beperkte aantallen belangstellenden deelnemen. En wie het eerst komt (lees: registreert) het eerst maalt.
En als u wel te lang wacht? Voor u nog geen nood, want parallel aan de workshops zijn er ook uiterst interessante lezingen – zonder beperking op de aantallen toehoorders. …..
Maar voor ons dan wel nood, want wij willen graag tijdig weten hoeveel deelnemers we ongeveer kunnen verwachten, zodat we ook de workshops al kunnen indelen.
Raadpleeg dus snel het programma en maak uw keuzes.

Piek Vossen

Naar aanleiding van het toekennen van een Spinozapremie aan Piek Vossen, had NWO vorig jaar dit filmpje over onze keynote spreker laten maken.

Beste poster op FORCE2015

tweetBianca Kramer en Jeroen Bosman hebben zojuist op de FORCE2015 conferentie in Oxford de prijs voor de beste poster gewonnen. FORCE2015 is de “Research Communication and e-Scholarship” conferentie waar nieuwe ontwikkelingen op het terrein van wetenschappelijke communicatie aan de orde komen.
[Hier ook een verslag over het congres]
101
Maar wat Bianca (@MsPhelps) en Jeroen betreft, blijft het niet bij een poster op dat congres in Oxford. Wat zij op die poster beschrijven – en wat je met nog uitgebreider gegevens op hun “silk”-webpagina kunt vinden – vormt ook de basis voor wat aan de orde komt in de workshop die ze 26 maart verzorgen op de VOGIN-IP-lezing. Wie geïnteresseerd is in (een aantal van) hun “101 Innovations in Scholarly Communication”, moet dus zeker aan die workshop deelnemen.

De keynotes

greg     piek
De twee keynotes voor de VOGIN-IP-lezing 2015 zijn al bekend.
Greg Notess (links) zal de dag openen; Piek Vossen (rechts) zorgt voor de afsluiting.

Op Greg’s eigen website:

“Greg R. Notess is a writer, speaker, and consultant focusing on the Internet, online information resources, Web searching, and the search engine industry. He has been researching and covering Internet information resources since 1990. Greg is also a reference librarian and professor at Montana State University.”

Hier in Nederland volgden informatiespecialisten al vanaf de vroege jaren ’90 zijn zeer regelmatige columns en andere bijdragen over internetbronnen, zoeken en zoekmachines in het Amerikaanse vakblad “Online” (nu “Online Searcher“).

Piek Vossen is in het verleden onder meer CTO geweest bij Irion Technologies in Delft. Sinds 2006 is hij hoogleraar Computationele Lexicologie bij de VU. In 2013 ontving hij de prestigieuze NWO Spinozapremie voor zijn onderzoek. Piek is ook mede-oprichter en voorzitter van de Global Wordnet Association. Op de website van de VU:

“Piek Vossen lijkt zelf wel wat op een supercomputer. Hij is taalwetenschapper en programmeur; gedegen onderzoeker en efficiënt projectmanager. Hij werkt hard en succesvol aan computers die taal door en door begrijpen.”

Verdere gegevens over deze twee lezingen, over de rest van het lezingenprogramma en over de te volgen workshops komen binnenkort op deze site beschikbaar.

Ook weer in 2015!

Ook in 2015 komt er weer een VOGIN-IP-lezing. Een dag vol met lezingen en workshops.
De datum ligt al vast: donderdag 26 maartSAVE THE DATE!
De plaats weten we ook al: de OBA.
Met het programma zijn we druk bezig; de eerste sprekers hebben zelfs al toegezegd.
Zodra we daarover meer te melden hebben, informeren we u via de gebruikelijke media en op deze plaats.