Greg Notess mist de grote concurrenten van Google

Een interview met IP


Met Greg Notess, keynote spreker in het ochtendprogramma, heeft IP vooraf al een email-interview gehouden. Deze Nederlandse bewerking staat ook op de IP-site.
notess
IP: Er zijn allerlei redenen waarom “echte” informatieprofessionals nogal kritisch staan ten opzichte van Google. Ze betreuren dat er voortdurend weer allerlei functionaliteit, diensten en producten verdwijnen en zoekresultaten steeds onbetrouwbaarder en onreproduceerbaarder worden. Behoor jij ook tot degenen die Google daarvoor verwensen?
‘Allebei die punten vind ik zeker ook teleurstellend. Maar, zoals zoveel anderen, blijf ik Google natuurlijk toch regelmatig gebruiken, omdat het voor bepaalde soorten zoekacties nu eenmaal makkelijk resultaten oplevert. In zijn algemeenheid pleeg ik ook ten opzichte van elke informatiedienst een realistische houding aan te nemen wat betreft hun sterke en zwakke kanten. Ik moet de eerste nog vinden die niet van allebei wat heeft. Google heeft zich altijd toegelegd op het geven van relevante resultaten voor simpele zoekacties, van het soort dat de meeste gebruikers intikken. Maar de algoritmes en technieken die Google heeft ontwikkeld om die primaire doelgroep van dienst te zijn, resulteren juist in de problemen die informatiespecialisten onderkennen. Maar als we ons realiseren dat we voortdurend de mogelijkheid hebben om gratis te zoeken en resultaten uit Google te krijgen, dan is is het eigenlijk verbazingwekkend dat we op een redelijk consistente manier toch zulke bruikbare resultaten krijgen.’

IP: Ook al worden niet alle nieuwe zoekproducten meer meteen gechargeerd als potentiële “Google-killers” geafficheerd, toch worden ze vaak nog wel aangemerkt als concurrenten voor Google’s marktaandeel. Sommigen zijn niet zo heel veel anders (zoals DuckDuckGo), andere proberen hele nieuwe zoekparadigma’s toe te passen. Welke van de nieuwkomers zouden we volgens jou in de gaten moeten houden.
‘Er is een voortdurend veranderend universum van concurrenten voor het webzoeken. Bing en DuckDuckGo blijven een nuttig tegenwicht tegen Google’s marktdominantie en hebben hun eigen toepassingen. Zoekmachines die een geheel nieuwe aanpak uitproberen, schijnen na één of twee jaar toch te mislukken of in elk geval te verdwijnen (zoals Cuil of Blekko). Onderwerp- of land-specifieke zoekmachines lijken een betere overlevingskans te hebben. En die hebben vaak ook een interessante aanpak. Van het hele spectrum, van grote zoekmachines zoals Yandex en Baidu, tot data-specifieke als Wolfram|Alpha, Zanran en Statista, tot nog andere zoals Qwant of Topsy, zijn er een heleboel om in de gaten te houden en zo af en toe te gebruiken.’

IP: In je lezing ga je het hebben over de transformatie van het zoeken naar het direct krijgen van antwoorden, onder meer gebaseerd op Google’s Knowledge Graph. Hoe betrouwbaar vind je dergelijke antwoorden? En wat is het verschil met de Knowledge Vault die Google ook heeft aangekondigd?
‘Voor populaire onderwerpen zijn verrassend veel antwoorden heel accuraat. Toch blijven onnauwkeurigheden een belangrijke kwestie, vooral als de oorspronkelijke bron zo zelden vermeld wordt. Of er al dan niet iets onder de naam van “Knowledge Vault” wordt, het valt zeker te verwachten dat dat project verder wordt uitgebouwd.’

IP: In de beginjaren van websearch speelden door mensen samengestelde onderwerpsgidsen, zoals de Yahoo!-directory een belangrijke rol. De meeste daarvan zijn intussen verdwenen. Mis je die of is het maar goed ook dat die weg zijn?
‘Het probleem met de directories was altijd dat ze vaak incompleet, verouderd en onnauwkeurig waren. Bij de snelheid waarmee dingen op internet veranderen, zal dat ook zo blijven. Voor mij hebben de links onderaan Wikipedia-pagina’s nu in veel gevallen de rol (maar ook de problemen) van directories overgenomen. Die verwijzingen gebruik ik als mogelijke bron, maar ik voer ook mijn eigen zoekacties uit voor meer recente sites of om de correcte links te vinden.’

IP: Anderzijds is “content curation” nu een buzz-word geworden. Zo staat ZEEF, dat op basis van “curation” gevuld wordt – eigenlijk een beetje als de Yahoo!-directory – nogal in de belangstelling. Is dat geen tegenstrijdigheid?
‘Internet blijft een makkelijk platform om nieuwe en oude ideeën uit te proberen en om venture kapitaal binnen te halen voor projecten die mogelijkerwijs de volgende grote geldmachine kunnen worden. About.com heeft een heleboel transformaties doorgaan en was een directory-achtige site die wel overleefd en gefloreerd heeft. Met ZEEF’s nadruk op affiliate marketing, zou die het in de financiële hoek goed kunnen doen. Maar hoe goed de content daarin beheerd gaat worden, zullen we nog moeten afwachten. Tegenstrijdige ontwikkelingen zullen ook zeker doorgaan als het web en mobiel internet zo populair blijven, en vooral als mensen naar advertenties blijven kijken en online geld blijven uitgeven.’

IP: Tot slot nog twee vragen over het verleden;
– Welke van de vele verdwenen zoekmachines mis je het meest?
– En welke van de verdwenen zoekfunctionaliteit?

‘Ik mis de grote concurrenten van Google die interessante en nuttige functionaliteit voor geavanceerde zoekers ontwikkelden. Alltheweb en zelfs AltaVista en NorthernLight hadden prima ideeën en zoekmogelijkheden die ik graag gebruikte. Jammer genoeg werden die door de markt niet ondersteund.’
‘Van de functionaliteit mis ik echte truncatie, wildcards, interne truncatie, correcte en consistente phrase searching, proximity searching, correct datum-zoeken en nog wat verdere gespecialiseerde tools. Veel daarvan zou ik betrekkelijk weinig gebruiken, maar het is zo plezierig om, als je het nodig hebt, je vraag veel preciezer tot de exact gewenste documenten te kunnen inperken. Maar dat gezegd hebbende, we hebben nog altijd zoveel databases om in te zoeken en zoveel geavanceerde mogelijkheden op allerlei plaatsen, dat ik nog altijd geniet van de grote variëteit aan zoeksystemen en zoekcommando’s die ik daarin kan gebruiken.’

Nu nog lang niet vol

VOGIN-IP 2014

Meekijken via video in de bovenzaal tijdens VOGIN-IP 2014 – Foto: Marina Noordegraaf

Nog 20 dagen te gaan.
Vorig jaar moesten we op dat moment aan de rem trekken, omdat we met 150 deelnemers aan het maximum van de zaal zaten. Wie zich later aanmeldde kwam -met korting- in een ander zaaltje terecht, met een live video-verbinding. Leuk geprobeerd, maar toch niet het ware.
Nu staan we ook op 150 deelnemers, maar gelukkig hoeven we nu niet af te remmen. Er zal geen onderscheid zijn tussen eerste en tweederangs deelnemers, want de grote zaal van de OBA is nog lang niet vol. Meldt u dus gerust nog aan.
De enige beperking die er wel al is, betreft de workshop van Greg Notess. Die is wel al beide keren volgeboekt. Maar als alternatief daarvoor is er genoeg keuze aan andere interessante workshops en leuke lezingen.

Social Media according to Boyd

Sociale media behoort misschien niet direct tot het centrale thema “zoeken en vinden”, maar de ideeën die Boyd Hendriks daarover heeft zijn interessant genoeg om hem daarover toch ook een workshop te laten verzorgen. Daarbij kijkt hij dan vooral vanuit de situatie bij overheidsorganisaties. Wie op zoek is naar de business case voor gebruik van Sociale Media bij gemeenten vindt namelijk meestal een plaatje dat is opgebouwd uit verschillende toepassingen met verschillende verantwoordelijkheden en onduidelijke verwachtingen. Dat is nogal verwarrend en maakt die business onnodig lastig.

Sociale Media bij de gemeentelijke organisatie

De drie toepassingsgebieden van Sociale Media bij de gemeentelijke organisatie: de PIOFAH-functies, de Producten en Diensten en het Beleid en Bestuur.

Het organisatieplaatje dat normaal bij de opbouw van een business case gebruikt kan worden is bij gemeenten vaak wisselend en afhankelijk van het heersende organisatiemodel (secretarie-, dienst- of directie-gecentreerd). Het is ook afhankelijk van wat leidend is: het politieke, het bestuurlijke of het ambtelijke. En verder speelt ook  nog een rol of de focus op beleid of op uitvoering ligt, en of de ondersteunende functies centraal of decentraal aangestuurd worden
In het algemeen is de inzet van Sociale Media niet alleen goed voor de interne of externe communicatie, maar ook voor synergie, dialoog en transparantie. Vaak leiden goede toepassingen in de kernprocessen van organisaties tot verhoging van efficiëntie en toename van innovatie. Maar wat meer is: goede inzet van Sociale Media zorgt voor een stabiele beleving van de organisatie door alle betrokkenen, medewerkers of publiek.

Als basis voor het samenstellen van de business case kiest Boyd een eenvoudig organisatieschema dat dekkend is voor het merendeel van de gemeenten. Alle drie toepassingsgebieden In het schema hierboven hebben hun eigen karakteristieke toegevoegde waarde bij het gebruik van Sociale Media. Behalve voor een communicatieafdeling blijft er weinig waarde over voor een totaalplan en zal de business case vooral gezocht worden binnen de afzonderlijke gebieden. Boyd kijkt daarbij om te beginnen naar de PIOFAH functies: Personeel, Informatie, Organisatie, Financiën, Automatisering en Huisvesting. Die middenfuncties zijn in het verleden vaak gedecentraliseerd, later weer gecentraliseerd en meer recentelijk betrokken bij Shared Services Programma’s of gedeeltelijk uitbesteed (Outsourcing). Veel vormen van Sociale Media hebben hun weg gevonden bij het managen van kennis en projecten rond die middenfuncties. De sterke interne dialoog die ontstaat bij het inzetten van Twitter, Yammer, Blogs, Wiki’s etc, kunnen de synergie en samenhang van die afdelingen versterken. Veranderingen in de organisatiestructuur krijgen daarom ook minder vat op de output van het werk.

Van datgene wat Boyd in zijn workshop verder nog  aan de orde laat komen,onder meer opgedeeld in een viertal ontwikkelingsfasen, is een uitgebreider beschrijving te vinden op zijn eigen blog:  http://informatieland.blogspot.nl/

Door een gemeente als voorbeeldorganisatie te nemen, komen verschillende aanpakken aan de orde die elk ook elders hun eigen doel en meerwaarde hebben. Op die manier krijgen deelnemers een aantal verschillende bouwstenen aangereikt om zelf tot een passend plan van aanpak te komen.

Meld je aan voor Boyd’s workshop of voor één van de andere al even interessante workshops of voor de lezingentracks:
    >> aanmelden
    >> programmaoverzicht

Schema.org semantische markup

image by DCMIIn IP is een nieuwe rubriek gestart, “Dat zoeken we op”. In de eerste aflevering merkte Eric Sieverts op dat restaurantzoek- en beoordeelsite IENS ook al gebruik maakt van semantische (of gestructureerde) markup. Je ziet dat onder meer aan de manier waarop IENS-pagina’s in zoekresultaten van Google terecht komen, met vermelding van gestructureerde gegevens zoals plaats en buurt, beoordeling en prijsniveau, de zogenaamde “rich snippets”. iens Voor het benoemen van allerlei soorten eigenschappen, verwerkt in de HTML-code van webpagina’s, wordt gebruik gemaakt van de standaard Schema.org. De grote zoekmachines Google, Yahoo!, Bing en Yandex die bij de ontwikkeling hiervan samenwerken, kunnen die gegevens daardoor herkennen. Schema.org zou je dus een metadatamodel kunnen noemen; sommigen spreken zelfs al van een “ontologie”.schema Wie hebben eigenlijk belang bij dit soort codering? Wij zoekers in elk geval. Voor ons is het handig dat we sneller en beter zien wat we eigenlijk gevonden hebben. Maar waarom nemen eigenaars van websites de moeite – zoals bij IENS – om die markup aan webpagina’s toe te voegen? Voornaamste reden daarvoor is dat die vorm van markup intussen een belangrijk onderdeel is van Search Engine Optimalisatie. Als wij sneller herkennen of het gevondene aan onze behoefte voldoet, klikken we sneller en gerichter op zo’n link, en dat is natuurlijk in het belang van website-eigenaars. Zelfs wordt gefluisterd dat sites die Schema.org toepassen door zoekmachines sowieso al hoger gerankt worden. Intussen doen al cijfers de ronde dat dit soort codering aanwezig is in 20% van de resultaten die uit een gemiddelde Google zoekactie komen. Maar voor het Nederlandse deel van internet bestaat de indruk dat die codering nog veel minder algemeen is – IENS is dus een beetje een voorloper. itemprop Het is wellicht wat onverwacht dat het niet alleen sectoren als e-commerce, horeca en receptenwereld zijn waar Schema.org opgang doet, maar dat zelfs de beeldende kunst geïnteresseerd is, zoals uit een recente “Art & Technology blog” blijkt.

Wie meer over de schema’s van enkele van die sectoren wil weten, moet maar eens op de site van Schema.org kijken bij schema.org/Restaurant, schema.org/Recipe of schema.org/VisualArtwork.
En tijdens de VOGIN-IP-lezing moet je dan zeker naar de lezing van Peter Mika, want die is vanuit zijn functie bij Yahoo! een van de mensen die aan de verdere ontwikkeling en toepassing van Schema.org werkt. Hij zal dus zeker al onze vragen hierover kunnen beantwoorden.

Taxonomieën, termensets en metadatastores

by © Ralf Roletschek – Fahrradtechnik und Fotografie. Licensed under GFDL 1.2 via Wikimedia Commons

SharePoint 2013 biedt de mogelijkheid om taxonomieën te ontwikkelen, te beheren en in te zetten binnen de SharePoint omgeving. Maar hoe bouw je zo’n taxonomie op en hoe implementeer je die het beste? Voor degene die nog geen ervaring hebben met termensets en taxonomieën, legt Joyce van Aalten dit haarfijn uit tijdens haar workshop op de VOGIN-IP-lezing. En voor degenen die al (enige) SharePoint ervaring hebben, is het een nuttige herhaling van de theorie. Kreten als managed metadatastore, termensets, site columns en enterprise keywords worden uitgelegd. Zonder slides, maar aan de hand van een werkende SharePoint 2013 omgeving, zodat direct duidelijk wordt hoe je termensets maakt én toepast bij het vindbaar maken van SharePoint informatie.
De nadruk ligt bij deze workshop vooral op zélf doen. Want aan het eind van de workshop ga je naar huis met een opzet voor je eigen SharePoint termenset. Deze is gebruiksklaar voor het importeren binnen je eigen SharePoint omgeving. Daartoe onderzoeken we eerst of bestaande (gratis) SharePoint taxonomieën voor jouw organisatie bruikbaar zijn. Of dat het toch beter is om je eigen termensets te bouwen. Daar gaan we vervolgens meteen mee aan de slag. Joyce neemt hiervoor het benodigde format mee, deze gebruik je tijdens de workshop, maar neem je ook mee naar huis om eventueel verder uit te werken. Vergeet dus niet je laptop of tablet mee te nemen (bij voorkeur met Excel2010)!

EHBI – de bijsluiter

Bij een workshop Eerste Hulp bij Informatievrijheid hoort natuurlijk een bijsluiter.
Frank en Marina maakten er één:
Foto: Marina Noordegraaf

EHBI – de bijsluiter

Samenstelling van EHBI

  • Eén experiment met de workshopbezoekers waarin zij aan den lijve ervaren hoeveel hun privacy hen waard is
  • Vier mini-presentaties over:
    • Politieke en economische belangen van informatiestromen
    • De rol van auteursrecht in de vrije toegang tot informatie
    • Het privacy versus veiligheidsdebat
    • Censuur en het recht om vergeten te worden
  • Twee waargebeurde verhalen uit de bibliotheekpraktijk waarbij we je uitdagen om stelling te nemen: hoe ver zou jij gaan om de vrije toegang tot informatie te beschermen? En hoever zou jouw organisatie gaan?
  • Een discussie over de rol van bibliotheken in de informatie-arena

Werking

EHBI vergroot je bewustzijn van het belang van ‘informatievrijheid’ voor het bibliotheekwerk en van de noodzaak om positie in te nemen. Workshopbezoekers worden geprikkeld om na te denken hoe ze informatievrijheid op de agenda van hun eigen organisatie kunnen zetten.

Niet gebruiken bij

EHBI dient niet ingenomen te worden als je op zoekt bent naar tools om je informatievrijheid te beschermen. Deze worden aangeboden door Bits of Freedom. Zoek je naar oefening met deze tools? Bezoek dan eens een Privacy Café.

Bijwerkingen

EHBI is bedoeld om discussie uit te lokken. Houd er dus rekening mee dat je EHBI met meer vragen verlaat dan waarmee je kwam.


Lijkt EHBI op je lijf geschreven? Schrijf je dan nu in. Dat kan via het aanmeldformulier. Of kies voor één van de andere mooie workshops.

Delf dieper in Delpher

delpher2In het februari-nummer van IP staat een artikel over de vernieuwde versie van Delpher, het zoeksysteem van de KB, waarmee zowel gedigitaliseerde kranten als boeken doorzocht kunnen worden. Het wordt aangeprezen met de slogan “Ruim 1 miljoen Nederlandse boeken, kranten en tijdschriften”. Daarbij zijn alleen al die kranten – niet alleen uit Nederland maar ook uit Suriname, de Antillen en Nederlandsch Indië – meer dan 6 miljoen bladzijden. Intussen zitten ook al 80.000 van de door Google gescande boeken in Delpher.
Ondanks allerlei verbeteringen vergt de nieuwe versie van Delpher nog steeds wel enige oefening om er precies (en alles) uit te krijgen wat je wilt. Ewoud Sanders, niet alleen bekend als auteur van de taalrubriek Woordhoek in NRC-Handelsblad, maar ook van boekjes over slimmer zoeken, had al een handleiding geschreven voor zoeken in de KB-collecties, met speciale aandacht voor Delpher. Daarvan is net deze week een nieuwe versie uitgekomen
Nieuwe versie!Voor bezoekers van de VOGIN-IP-lezing op 26 maart verzorgt hij nu ook een workshop, waarin deelnemers leren om meer te halen uit deze “buitengewoon rijke, maar ook weerbarstige bron” (zoals Ewoud dat zelf formuleert). Meldt u hiervoor tijdig aan, want deze workshop wordt die dag maar eenmaal gegeven – alleen in het middagprogramma.

Q&A – Piek Vossen beantwoordt vragen van IP

[Inhoud van de rubriek Q&A uit het februari-nummer van vakblad “IP”]
Piek Vossen, hoogleraar Computationele Lexicologie bij de VU, is een van de keynotesprekers op de VOGIN-IP-lezing op 26 maart in de OBA. In een Q&A vertelt hij over de relatie tussen zoekmachines en big data.

Piek VossenIn 2006 ben je vanuit een commercieel bedrijf – als Chief Technology Officer bij Irion Technologies in Delft – weer de wetenschap ingestapt. Een makkelijke overgang?
‘Irion is een technologiebedrijf waar nieuwe en innovatieve producten worden ontwikkeld. Dat staat niet ver van de onderzoekswereld. In mijn huidige werk doe ik voornamelijk onderzoek en veel acquisitie van projecten; in veel opzichten lijkt dat op mijn oude werk. Bovendien werk ik nog steeds samen met veel bedrijven; sommige stammen nog uit mijn contacten uit de Irion-tijd. Wel is het perspectief bij mijn huidige werk meer de langere termijn; bovendien zijn de vragen uitdagender.’

Maakte die ervaring als CTO bij Irion het makkelijker om je huidige onderzoek meteen te vertalen naar praktische en wellicht commerciële toepassingen?
‘Bij een bedrijf kun je je niet beperken tot een deelprobleem: je moet een totaaloplossing bieden. Ik vind dat ook heel waardevol voor het onderzoek dat we nu doen. Het is belangrijk dat we problemen onderzoeken in een reële context met alle aspecten eromheen. Als je bijvoorbeeld onderzoek doet naar de betekenis van woorden in teksten, dan moet je dat zien vanuit de waarde die de tekst heeft voor een gebruiker. In feite heeft die tekst een bepaalde betekenis voor de gebruiker en niet alleen maar vanuit een algemeen theoretisch perspectief.’
‘Veel evaluaties in de wetenschap zijn kunstmatig. Ik vind dat je veel meer leert over het probleem taal en betekenis door naar de effecten van communicatie (lees: schrijver-tekst-lezer/zoeker) te kijken. Waarom vind je wel of niet wat je zoekt en wat is de rol van meerduidigheid en vaagheid van taal in dat zoekproces? Dat is een heel ander perspectief op betekenis dan alleen te kijken naar de betekenissen die in een woordenboek staan.’

Analyse van big data en klassieke zoekmachinetechnologie lijken op het eerste gezicht niet heel veel gemeen te hebben. Welke rol speelt zoeksoftware niettemin bij de analyse van big data?
‘Het klopt dat big data en zoektechnologie voortkomen uit verschillende onderzoeksparadigma’s. Dat heeft volgens mij ook te maken met het probleem om de betekenis van tekst voldoende te kunnen formaliseren. Daarmee bedoel ik dat we niet alle informatie uit een tekst weten te vangen, bovendien worden er nog te veel fouten gemaakt bij het interpreteren van tekst. Tekstanalyse resulteert te veel in noisy en onvolledige data voor big data-analyse. Er moeten nog veel stappen gezet worden voordat big data en vrijetekstzoeken samenvallen.’
‘Daarnaast wordt bij big data vaak niet gekeken naar natuurlijke manieren van vragen stellen. Het is niet zo eenvoudig om een zoekvraag te vertalen naar een SPARQL query waarmee big data bevraagd kan worden. Daar wordt nu onderzoek naar gedaan maar daarbij doen zich ook weer interpretatieproblemen voor.’
SPARQL queries
Wat doen jullie daar nu aan?
‘In onze projecten genereren we big data uit miljoenen teksten, bijvoorbeeld tien jaar nieuws over de autoindustrie. Dat levert miljoenen triples op, feiten en beweringen uit het nieuws. Om die big en noisy data te kunnen bevragen, draaien we statistische analyses op de data om te zien wat er in staat en hoe we interfaces kunnen maken, zodat mensen die kunnen bevragen zonder zelf SPARQL queries te moeten formuleren. Dergelijke interfaces vallen vaak toch weer terug op gewoon zoeken via een index Wat wij teruggeven als resultaat is echter wel anders. Dat heeft meer de vorm van gestructureerde data die je kunt weergeven in tabelvorm of als graaf – als een soort netwerk.’

Spelen de taalkundige en taaltechnologische methoden waarin je gespecialiseerd bent, een rol bij de analyse van alle soorten big data of geldt dat alleen voor heel speciale soorten?
‘De meeste big data is gestructureerd. Taal speelt daar voornamelijk een rol bij het weergeven van labels voor concepten en relaties. Bij ons speelt de technologie een rol bij het omzetten van tekst in gestructureerde data en, zoals al eerder gezegd, bij het bevragen van die data. De stappen zijn: 1. tekst naar RDF, 2. vraag naar SPARQL, 3. big data-gevolgtrekkingen, 4. RDF-resultaat, 5. resultaat presentatie. Taal en taaltechnologie spelen een rol bij de stappen 1, 2 en 5.’

De bezoekers van de VOGIN-IP-lezing zijn informatiespecialisten die vooral op het thema ‘zoeken’ afkomen. Welke boodschap ga je hen meegeven?
‘Het probleem van tekstinterpretatie wordt zwaar onderschat. Tekst is vaag, incompleet, meerduidig, maar bevat tegelijkertijd vele complexe lagen aan informatie. Het zijn niet alleen feitelijkheden, maar vooral meningen, opinies en perspectieven van mensen op die feitelijkheden. Dat is een puzzel die we voorlopig nog niet opgelost hebben.’


Nog wat filmpjes met/over Piek Vossen

Beeldherkenning

smeulders
In de Volkskrant van afgelopen zaterdag stond een uitgebreid interview met professor Arnold Smeulders over automatische (digitale) beeldherkenning, onder de aansprekende titel “Een vleugje Silicon Valley aan de universiteit”.
Automatische beeldherkenning is begonnen als een tamelijk academisch onderwerp. Maar met de opkomst van digitaal beeld – foto’s en video – en vooral de huidige explosie daarvan in de sociale media, is het van steeds groter praktisch belang geworden. Ook voor steeds meer commerciële bedrijven, van makers van chips voor mobieltjes tot Google (+) zelf. Of zoals Smeulders in het Volkskrant-interview zegt: “ Het is raar: iedereen is nu bezig met digitale plaatjes, met het onderwerp waar ik al dertig jaar mee bezig ben. Ik weet niet wat me overkomt.
De Amsterdamse universitaire onderzoeksgroep van Smeulders en (tot voor kort) Cees Snoek speelt al heel lang een vooraanstaande rol in het onderzoek op dit terrein. Zoals uit het Volkskrant-artikel blijkt, weten zij echter ook goed de verbinding met de commerciële praktijk te leggen.
Een van de VOGIN-IP-lezingen op 26 maart is ook aan dit onderwerp gewijd. Thomas Mensink, uit die zelfde onderzoeksgroep van Smeulders aan de UvA, vertelt ons dan over de nieuwste ontwikkelingen op dit gebied. Tot nu toe werden in de meeste gevallen technieken van “machine learning” toegepast. Daarbij leert de computer op basis van een heleboel voorbeelden hoe een bepaald object te herkennen is, ook als het in verschillende omgevingen of vanuit verschillende hoeken gezien wordt.euvision examples Maar voor elk te herkennen onderwerp/object moet dat afzonderlijk gedaan worden. De heilige graal van beeldherkenning is daarom natuurlijk dat een computer ook zelfstandig nieuwe onderwerpen kan herkennen, waarop hij nog niet getraind is. Dat is waar Thomas Mensink zich nu mee bezig houdt en waar hij ons over gaat vertellen.

De VOGIN-IP workshop(s)

http://pixabay.com/en/middle-ages-forge-workshop-old-168630/
Hands-on (of anders in elk geval “heads-on”) is het devies bij de workshops die 26 maart op het programma staan.

  • Greg Notess is niet alleen een van onze keynote speakers, maar verzorgt ook een workshop over “Advanced web searching”. Daarin wordt de geavanceerde zoeksyntax van verschillende zoekmachines uitgetest, beoordeeld op zijn werking en met elkaar vergeleken.
  • Joyce van Aalten, bekend van haar cursussen over taxonomieën en het beter doorzoekbaar maken van Sharepoint-systemen, behandelt dit onderwerp ook bij ons. In haar workshop “Taxonomieën maken en toepassen in SharePoint 2013″ leer je hoe dat werkt en krijg je en-passant ook het Sharepoint-jargon uitgelegd.
  • Bianca Kramer en Jeroen Bosman hebben de laatste weken nogal (internationale) belangstelling getrokken met hun onderzoek naar nieuwe tools en diensten die de workflow van wetenschappers vereenvoudigen (en moderniseren). Dat vormt ook de basis van hun workshop “101 innovaties in de wetenschappelijke communicatie”.
  • Arno Reuser, met zijn verleden van inlichtingendienstmedewerker, wil altijd weten of gevonden informatie wel correct is en afkomstig van de bron die het voorgeeft te zijn. Hij laat zijn deelnemers kennismaken met tools en methoden ter beantwoording van de vragen: “Goed of fout? Echt of vals? Juist of onjuist?”
  • Marina Noordegraaf en Frank Huysmans hebben een workshop met de intrigerende titel “Eerste Hulp Bij Informatievrijheid – hoe informatievrij ben jij?” Daarin gaat het over de rol van de informatieprofessional op het gebied van onder meer intellectueel eigendom, privacy, overheidsspionage en ethiek.
  • Ewoud Sanders is niet alleen de vaste “Taalhoek”-columnist van NRC-Handelsblad, maar door zijn historisch taalonderzoek, ook expert in zoeken in oud tekstmateriaal. In zijn workshop “Slimmer zoeken door negen miljoen oude krantenpagina’s” leert hij deelnemers de weg te vinden in de historische schatkamer die Delpher (KB) biedt.
  • Boyd Hendriks hoor je vaak spreken over kennismanagement en zaken als competitive intelligence en ROI. In zijn workshop “Een duidelijke aanpak voor de inzet van Sociale Media” legt hij nu de link naar toepassing van sociale media, waarbij deelnemers leren hun eigen plan van aanpak daarvoor te maken.
  • Eric Sieverts vraagt zich af hoe het zit met de concrete antwoorden die steeds meer zogenaamde semantische zoeksystemen (ook Google) geven. Deelnemers moeten voor hem uitzoeken of dat goede antwoorden zijn of dat je nog altijd beter naar echte informatie kunt zoeken, kortom: “Vertrouwen op semantische zoeksystemen of zelf aan het stuur”.

Flickr - mtneer_man - https://www.flickr.com/photos/mtneer_man/9209994442
Meldt je tijdig aan, want voor de workshops geldt: “wie het eerst komt, het eerst maalt”.