Nu nog lang niet vol

VOGIN-IP 2014

Meekijken via video in de bovenzaal tijdens VOGIN-IP 2014 – Foto: Marina Noordegraaf

Nog 20 dagen te gaan.
Vorig jaar moesten we op dat moment aan de rem trekken, omdat we met 150 deelnemers aan het maximum van de zaal zaten. Wie zich later aanmeldde kwam -met korting- in een ander zaaltje terecht, met een live video-verbinding. Leuk geprobeerd, maar toch niet het ware.
Nu staan we ook op 150 deelnemers, maar gelukkig hoeven we nu niet af te remmen. Er zal geen onderscheid zijn tussen eerste en tweederangs deelnemers, want de grote zaal van de OBA is nog lang niet vol. Meldt u dus gerust nog aan.
De enige beperking die er wel al is, betreft de workshop van Greg Notess. Die is wel al beide keren volgeboekt. Maar als alternatief daarvoor is er genoeg keuze aan andere interessante workshops en leuke lezingen.

Social Media according to Boyd

Sociale media behoort misschien niet direct tot het centrale thema “zoeken en vinden”, maar de ideeën die Boyd Hendriks daarover heeft zijn interessant genoeg om hem daarover toch ook een workshop te laten verzorgen. Daarbij kijkt hij dan vooral vanuit de situatie bij overheidsorganisaties. Wie op zoek is naar de business case voor gebruik van Sociale Media bij gemeenten vindt namelijk meestal een plaatje dat is opgebouwd uit verschillende toepassingen met verschillende verantwoordelijkheden en onduidelijke verwachtingen. Dat is nogal verwarrend en maakt die business onnodig lastig.

Sociale Media bij de gemeentelijke organisatie

De drie toepassingsgebieden van Sociale Media bij de gemeentelijke organisatie: de PIOFAH-functies, de Producten en Diensten en het Beleid en Bestuur.

Het organisatieplaatje dat normaal bij de opbouw van een business case gebruikt kan worden is bij gemeenten vaak wisselend en afhankelijk van het heersende organisatiemodel (secretarie-, dienst- of directie-gecentreerd). Het is ook afhankelijk van wat leidend is: het politieke, het bestuurlijke of het ambtelijke. En verder speelt ook  nog een rol of de focus op beleid of op uitvoering ligt, en of de ondersteunende functies centraal of decentraal aangestuurd worden
In het algemeen is de inzet van Sociale Media niet alleen goed voor de interne of externe communicatie, maar ook voor synergie, dialoog en transparantie. Vaak leiden goede toepassingen in de kernprocessen van organisaties tot verhoging van efficiëntie en toename van innovatie. Maar wat meer is: goede inzet van Sociale Media zorgt voor een stabiele beleving van de organisatie door alle betrokkenen, medewerkers of publiek.

Als basis voor het samenstellen van de business case kiest Boyd een eenvoudig organisatieschema dat dekkend is voor het merendeel van de gemeenten. Alle drie toepassingsgebieden In het schema hierboven hebben hun eigen karakteristieke toegevoegde waarde bij het gebruik van Sociale Media. Behalve voor een communicatieafdeling blijft er weinig waarde over voor een totaalplan en zal de business case vooral gezocht worden binnen de afzonderlijke gebieden. Boyd kijkt daarbij om te beginnen naar de PIOFAH functies: Personeel, Informatie, Organisatie, Financiën, Automatisering en Huisvesting. Die middenfuncties zijn in het verleden vaak gedecentraliseerd, later weer gecentraliseerd en meer recentelijk betrokken bij Shared Services Programma’s of gedeeltelijk uitbesteed (Outsourcing). Veel vormen van Sociale Media hebben hun weg gevonden bij het managen van kennis en projecten rond die middenfuncties. De sterke interne dialoog die ontstaat bij het inzetten van Twitter, Yammer, Blogs, Wiki’s etc, kunnen de synergie en samenhang van die afdelingen versterken. Veranderingen in de organisatiestructuur krijgen daarom ook minder vat op de output van het werk.

Van datgene wat Boyd in zijn workshop verder nog  aan de orde laat komen,onder meer opgedeeld in een viertal ontwikkelingsfasen, is een uitgebreider beschrijving te vinden op zijn eigen blog:  http://informatieland.blogspot.nl/

Door een gemeente als voorbeeldorganisatie te nemen, komen verschillende aanpakken aan de orde die elk ook elders hun eigen doel en meerwaarde hebben. Op die manier krijgen deelnemers een aantal verschillende bouwstenen aangereikt om zelf tot een passend plan van aanpak te komen.

Meld je aan voor Boyd’s workshop of voor één van de andere al even interessante workshops of voor de lezingentracks:
    >> aanmelden
    >> programmaoverzicht

Schema.org semantische markup

image by DCMIIn IP is een nieuwe rubriek gestart, “Dat zoeken we op”. In de eerste aflevering merkte Eric Sieverts op dat restaurantzoek- en beoordeelsite IENS ook al gebruik maakt van semantische (of gestructureerde) markup. Je ziet dat onder meer aan de manier waarop IENS-pagina’s in zoekresultaten van Google terecht komen, met vermelding van gestructureerde gegevens zoals plaats en buurt, beoordeling en prijsniveau, de zogenaamde “rich snippets”. iens Voor het benoemen van allerlei soorten eigenschappen, verwerkt in de HTML-code van webpagina’s, wordt gebruik gemaakt van de standaard Schema.org. De grote zoekmachines Google, Yahoo!, Bing en Yandex die bij de ontwikkeling hiervan samenwerken, kunnen die gegevens daardoor herkennen. Schema.org zou je dus een metadatamodel kunnen noemen; sommigen spreken zelfs al van een “ontologie”.schema Wie hebben eigenlijk belang bij dit soort codering? Wij zoekers in elk geval. Voor ons is het handig dat we sneller en beter zien wat we eigenlijk gevonden hebben. Maar waarom nemen eigenaars van websites de moeite – zoals bij IENS – om die markup aan webpagina’s toe te voegen? Voornaamste reden daarvoor is dat die vorm van markup intussen een belangrijk onderdeel is van Search Engine Optimalisatie. Als wij sneller herkennen of het gevondene aan onze behoefte voldoet, klikken we sneller en gerichter op zo’n link, en dat is natuurlijk in het belang van website-eigenaars. Zelfs wordt gefluisterd dat sites die Schema.org toepassen door zoekmachines sowieso al hoger gerankt worden. Intussen doen al cijfers de ronde dat dit soort codering aanwezig is in 20% van de resultaten die uit een gemiddelde Google zoekactie komen. Maar voor het Nederlandse deel van internet bestaat de indruk dat die codering nog veel minder algemeen is – IENS is dus een beetje een voorloper. itemprop Het is wellicht wat onverwacht dat het niet alleen sectoren als e-commerce, horeca en receptenwereld zijn waar Schema.org opgang doet, maar dat zelfs de beeldende kunst geïnteresseerd is, zoals uit een recente “Art & Technology blog” blijkt.

Wie meer over de schema’s van enkele van die sectoren wil weten, moet maar eens op de site van Schema.org kijken bij schema.org/Restaurant, schema.org/Recipe of schema.org/VisualArtwork.
En tijdens de VOGIN-IP-lezing moet je dan zeker naar de lezing van Peter Mika, want die is vanuit zijn functie bij Yahoo! een van de mensen die aan de verdere ontwikkeling en toepassing van Schema.org werkt. Hij zal dus zeker al onze vragen hierover kunnen beantwoorden.

Taxonomieën, termensets en metadatastores

by © Ralf Roletschek – Fahrradtechnik und Fotografie. Licensed under GFDL 1.2 via Wikimedia Commons

SharePoint 2013 biedt de mogelijkheid om taxonomieën te ontwikkelen, te beheren en in te zetten binnen de SharePoint omgeving. Maar hoe bouw je zo’n taxonomie op en hoe implementeer je die het beste? Voor degene die nog geen ervaring hebben met termensets en taxonomieën, legt Joyce van Aalten dit haarfijn uit tijdens haar workshop op de VOGIN-IP-lezing. En voor degenen die al (enige) SharePoint ervaring hebben, is het een nuttige herhaling van de theorie. Kreten als managed metadatastore, termensets, site columns en enterprise keywords worden uitgelegd. Zonder slides, maar aan de hand van een werkende SharePoint 2013 omgeving, zodat direct duidelijk wordt hoe je termensets maakt én toepast bij het vindbaar maken van SharePoint informatie.
De nadruk ligt bij deze workshop vooral op zélf doen. Want aan het eind van de workshop ga je naar huis met een opzet voor je eigen SharePoint termenset. Deze is gebruiksklaar voor het importeren binnen je eigen SharePoint omgeving. Daartoe onderzoeken we eerst of bestaande (gratis) SharePoint taxonomieën voor jouw organisatie bruikbaar zijn. Of dat het toch beter is om je eigen termensets te bouwen. Daar gaan we vervolgens meteen mee aan de slag. Joyce neemt hiervoor het benodigde format mee, deze gebruik je tijdens de workshop, maar neem je ook mee naar huis om eventueel verder uit te werken. Vergeet dus niet je laptop of tablet mee te nemen (bij voorkeur met Excel2010)!

EHBI – de bijsluiter

Bij een workshop Eerste Hulp bij Informatievrijheid hoort natuurlijk een bijsluiter.
Frank en Marina maakten er één:
Foto: Marina Noordegraaf

EHBI – de bijsluiter

Samenstelling van EHBI

  • Eén experiment met de workshopbezoekers waarin zij aan den lijve ervaren hoeveel hun privacy hen waard is
  • Vier mini-presentaties over:
    • Politieke en economische belangen van informatiestromen
    • De rol van auteursrecht in de vrije toegang tot informatie
    • Het privacy versus veiligheidsdebat
    • Censuur en het recht om vergeten te worden
  • Twee waargebeurde verhalen uit de bibliotheekpraktijk waarbij we je uitdagen om stelling te nemen: hoe ver zou jij gaan om de vrije toegang tot informatie te beschermen? En hoever zou jouw organisatie gaan?
  • Een discussie over de rol van bibliotheken in de informatie-arena

Werking

EHBI vergroot je bewustzijn van het belang van ‘informatievrijheid’ voor het bibliotheekwerk en van de noodzaak om positie in te nemen. Workshopbezoekers worden geprikkeld om na te denken hoe ze informatievrijheid op de agenda van hun eigen organisatie kunnen zetten.

Niet gebruiken bij

EHBI dient niet ingenomen te worden als je op zoekt bent naar tools om je informatievrijheid te beschermen. Deze worden aangeboden door Bits of Freedom. Zoek je naar oefening met deze tools? Bezoek dan eens een Privacy Café.

Bijwerkingen

EHBI is bedoeld om discussie uit te lokken. Houd er dus rekening mee dat je EHBI met meer vragen verlaat dan waarmee je kwam.


Lijkt EHBI op je lijf geschreven? Schrijf je dan nu in. Dat kan via het aanmeldformulier. Of kies voor één van de andere mooie workshops.

Delf dieper in Delpher

delpher2In het februari-nummer van IP staat een artikel over de vernieuwde versie van Delpher, het zoeksysteem van de KB, waarmee zowel gedigitaliseerde kranten als boeken doorzocht kunnen worden. Het wordt aangeprezen met de slogan “Ruim 1 miljoen Nederlandse boeken, kranten en tijdschriften”. Daarbij zijn alleen al die kranten – niet alleen uit Nederland maar ook uit Suriname, de Antillen en Nederlandsch Indië – meer dan 6 miljoen bladzijden. Intussen zitten ook al 80.000 van de door Google gescande boeken in Delpher.
Ondanks allerlei verbeteringen vergt de nieuwe versie van Delpher nog steeds wel enige oefening om er precies (en alles) uit te krijgen wat je wilt. Ewoud Sanders, niet alleen bekend als auteur van de taalrubriek Woordhoek in NRC-Handelsblad, maar ook van boekjes over slimmer zoeken, had al een handleiding geschreven voor zoeken in de KB-collecties, met speciale aandacht voor Delpher. Daarvan is net deze week een nieuwe versie uitgekomen
Nieuwe versie!Voor bezoekers van de VOGIN-IP-lezing op 26 maart verzorgt hij nu ook een workshop, waarin deelnemers leren om meer te halen uit deze “buitengewoon rijke, maar ook weerbarstige bron” (zoals Ewoud dat zelf formuleert). Meldt u hiervoor tijdig aan, want deze workshop wordt die dag maar eenmaal gegeven – alleen in het middagprogramma.

Q&A – Piek Vossen beantwoordt vragen van IP

[Inhoud van de rubriek Q&A uit het februari-nummer van vakblad “IP”]
Piek Vossen, hoogleraar Computationele Lexicologie bij de VU, is een van de keynotesprekers op de VOGIN-IP-lezing op 26 maart in de OBA. In een Q&A vertelt hij over de relatie tussen zoekmachines en big data.

Piek VossenIn 2006 ben je vanuit een commercieel bedrijf – als Chief Technology Officer bij Irion Technologies in Delft – weer de wetenschap ingestapt. Een makkelijke overgang?
‘Irion is een technologiebedrijf waar nieuwe en innovatieve producten worden ontwikkeld. Dat staat niet ver van de onderzoekswereld. In mijn huidige werk doe ik voornamelijk onderzoek en veel acquisitie van projecten; in veel opzichten lijkt dat op mijn oude werk. Bovendien werk ik nog steeds samen met veel bedrijven; sommige stammen nog uit mijn contacten uit de Irion-tijd. Wel is het perspectief bij mijn huidige werk meer de langere termijn; bovendien zijn de vragen uitdagender.’

Maakte die ervaring als CTO bij Irion het makkelijker om je huidige onderzoek meteen te vertalen naar praktische en wellicht commerciële toepassingen?
‘Bij een bedrijf kun je je niet beperken tot een deelprobleem: je moet een totaaloplossing bieden. Ik vind dat ook heel waardevol voor het onderzoek dat we nu doen. Het is belangrijk dat we problemen onderzoeken in een reële context met alle aspecten eromheen. Als je bijvoorbeeld onderzoek doet naar de betekenis van woorden in teksten, dan moet je dat zien vanuit de waarde die de tekst heeft voor een gebruiker. In feite heeft die tekst een bepaalde betekenis voor de gebruiker en niet alleen maar vanuit een algemeen theoretisch perspectief.’
‘Veel evaluaties in de wetenschap zijn kunstmatig. Ik vind dat je veel meer leert over het probleem taal en betekenis door naar de effecten van communicatie (lees: schrijver-tekst-lezer/zoeker) te kijken. Waarom vind je wel of niet wat je zoekt en wat is de rol van meerduidigheid en vaagheid van taal in dat zoekproces? Dat is een heel ander perspectief op betekenis dan alleen te kijken naar de betekenissen die in een woordenboek staan.’

Analyse van big data en klassieke zoekmachinetechnologie lijken op het eerste gezicht niet heel veel gemeen te hebben. Welke rol speelt zoeksoftware niettemin bij de analyse van big data?
‘Het klopt dat big data en zoektechnologie voortkomen uit verschillende onderzoeksparadigma’s. Dat heeft volgens mij ook te maken met het probleem om de betekenis van tekst voldoende te kunnen formaliseren. Daarmee bedoel ik dat we niet alle informatie uit een tekst weten te vangen, bovendien worden er nog te veel fouten gemaakt bij het interpreteren van tekst. Tekstanalyse resulteert te veel in noisy en onvolledige data voor big data-analyse. Er moeten nog veel stappen gezet worden voordat big data en vrijetekstzoeken samenvallen.’
‘Daarnaast wordt bij big data vaak niet gekeken naar natuurlijke manieren van vragen stellen. Het is niet zo eenvoudig om een zoekvraag te vertalen naar een SPARQL query waarmee big data bevraagd kan worden. Daar wordt nu onderzoek naar gedaan maar daarbij doen zich ook weer interpretatieproblemen voor.’
SPARQL queries
Wat doen jullie daar nu aan?
‘In onze projecten genereren we big data uit miljoenen teksten, bijvoorbeeld tien jaar nieuws over de autoindustrie. Dat levert miljoenen triples op, feiten en beweringen uit het nieuws. Om die big en noisy data te kunnen bevragen, draaien we statistische analyses op de data om te zien wat er in staat en hoe we interfaces kunnen maken, zodat mensen die kunnen bevragen zonder zelf SPARQL queries te moeten formuleren. Dergelijke interfaces vallen vaak toch weer terug op gewoon zoeken via een index Wat wij teruggeven als resultaat is echter wel anders. Dat heeft meer de vorm van gestructureerde data die je kunt weergeven in tabelvorm of als graaf – als een soort netwerk.’

Spelen de taalkundige en taaltechnologische methoden waarin je gespecialiseerd bent, een rol bij de analyse van alle soorten big data of geldt dat alleen voor heel speciale soorten?
‘De meeste big data is gestructureerd. Taal speelt daar voornamelijk een rol bij het weergeven van labels voor concepten en relaties. Bij ons speelt de technologie een rol bij het omzetten van tekst in gestructureerde data en, zoals al eerder gezegd, bij het bevragen van die data. De stappen zijn: 1. tekst naar RDF, 2. vraag naar SPARQL, 3. big data-gevolgtrekkingen, 4. RDF-resultaat, 5. resultaat presentatie. Taal en taaltechnologie spelen een rol bij de stappen 1, 2 en 5.’

De bezoekers van de VOGIN-IP-lezing zijn informatiespecialisten die vooral op het thema ‘zoeken’ afkomen. Welke boodschap ga je hen meegeven?
‘Het probleem van tekstinterpretatie wordt zwaar onderschat. Tekst is vaag, incompleet, meerduidig, maar bevat tegelijkertijd vele complexe lagen aan informatie. Het zijn niet alleen feitelijkheden, maar vooral meningen, opinies en perspectieven van mensen op die feitelijkheden. Dat is een puzzel die we voorlopig nog niet opgelost hebben.’


Nog wat filmpjes met/over Piek Vossen

Beeldherkenning

smeulders
In de Volkskrant van afgelopen zaterdag stond een uitgebreid interview met professor Arnold Smeulders over automatische (digitale) beeldherkenning, onder de aansprekende titel “Een vleugje Silicon Valley aan de universiteit”.
Automatische beeldherkenning is begonnen als een tamelijk academisch onderwerp. Maar met de opkomst van digitaal beeld – foto’s en video – en vooral de huidige explosie daarvan in de sociale media, is het van steeds groter praktisch belang geworden. Ook voor steeds meer commerciële bedrijven, van makers van chips voor mobieltjes tot Google (+) zelf. Of zoals Smeulders in het Volkskrant-interview zegt: “ Het is raar: iedereen is nu bezig met digitale plaatjes, met het onderwerp waar ik al dertig jaar mee bezig ben. Ik weet niet wat me overkomt.
De Amsterdamse universitaire onderzoeksgroep van Smeulders en (tot voor kort) Cees Snoek speelt al heel lang een vooraanstaande rol in het onderzoek op dit terrein. Zoals uit het Volkskrant-artikel blijkt, weten zij echter ook goed de verbinding met de commerciële praktijk te leggen.
Een van de VOGIN-IP-lezingen op 26 maart is ook aan dit onderwerp gewijd. Thomas Mensink, uit die zelfde onderzoeksgroep van Smeulders aan de UvA, vertelt ons dan over de nieuwste ontwikkelingen op dit gebied. Tot nu toe werden in de meeste gevallen technieken van “machine learning” toegepast. Daarbij leert de computer op basis van een heleboel voorbeelden hoe een bepaald object te herkennen is, ook als het in verschillende omgevingen of vanuit verschillende hoeken gezien wordt.euvision examples Maar voor elk te herkennen onderwerp/object moet dat afzonderlijk gedaan worden. De heilige graal van beeldherkenning is daarom natuurlijk dat een computer ook zelfstandig nieuwe onderwerpen kan herkennen, waarop hij nog niet getraind is. Dat is waar Thomas Mensink zich nu mee bezig houdt en waar hij ons over gaat vertellen.

De VOGIN-IP workshop(s)

http://pixabay.com/en/middle-ages-forge-workshop-old-168630/
Hands-on (of anders in elk geval “heads-on”) is het devies bij de workshops die 26 maart op het programma staan.

  • Greg Notess is niet alleen een van onze keynote speakers, maar verzorgt ook een workshop over “Advanced web searching”. Daarin wordt de geavanceerde zoeksyntax van verschillende zoekmachines uitgetest, beoordeeld op zijn werking en met elkaar vergeleken.
  • Joyce van Aalten, bekend van haar cursussen over taxonomieën en het beter doorzoekbaar maken van Sharepoint-systemen, behandelt dit onderwerp ook bij ons. In haar workshop “Taxonomieën maken en toepassen in SharePoint 2013″ leer je hoe dat werkt en krijg je en-passant ook het Sharepoint-jargon uitgelegd.
  • Bianca Kramer en Jeroen Bosman hebben de laatste weken nogal (internationale) belangstelling getrokken met hun onderzoek naar nieuwe tools en diensten die de workflow van wetenschappers vereenvoudigen (en moderniseren). Dat vormt ook de basis van hun workshop “101 innovaties in de wetenschappelijke communicatie”.
  • Arno Reuser, met zijn verleden van inlichtingendienstmedewerker, wil altijd weten of gevonden informatie wel correct is en afkomstig van de bron die het voorgeeft te zijn. Hij laat zijn deelnemers kennismaken met tools en methoden ter beantwoording van de vragen: “Goed of fout? Echt of vals? Juist of onjuist?”
  • Marina Noordegraaf en Frank Huysmans hebben een workshop met de intrigerende titel “Eerste Hulp Bij Informatievrijheid – hoe informatievrij ben jij?” Daarin gaat het over de rol van de informatieprofessional op het gebied van onder meer intellectueel eigendom, privacy, overheidsspionage en ethiek.
  • Ewoud Sanders is niet alleen de vaste “Taalhoek”-columnist van NRC-Handelsblad, maar door zijn historisch taalonderzoek, ook expert in zoeken in oud tekstmateriaal. In zijn workshop “Slimmer zoeken door negen miljoen oude krantenpagina’s” leert hij deelnemers de weg te vinden in de historische schatkamer die Delpher (KB) biedt.
  • Boyd Hendriks hoor je vaak spreken over kennismanagement en zaken als competitive intelligence en ROI. In zijn workshop “Een duidelijke aanpak voor de inzet van Sociale Media” legt hij nu de link naar toepassing van sociale media, waarbij deelnemers leren hun eigen plan van aanpak daarvoor te maken.
  • Eric Sieverts vraagt zich af hoe het zit met de concrete antwoorden die steeds meer zogenaamde semantische zoeksystemen (ook Google) geven. Deelnemers moeten voor hem uitzoeken of dat goede antwoorden zijn of dat je nog altijd beter naar echte informatie kunt zoeken, kortom: “Vertrouwen op semantische zoeksystemen of zelf aan het stuur”.

Flickr - mtneer_man - https://www.flickr.com/photos/mtneer_man/9209994442
Meldt je tijdig aan, want voor de workshops geldt: “wie het eerst komt, het eerst maalt”.

Aanmelding open

http://en.wikipedia.org/wiki/German_keyboard_layout#mediaviewer/File:Keyboard_on_a_German_mechanical_Olympia_typewriter.jpg
Vorige week is de registratie van aanmeldingen voor de VOGIN-IP-lezing officieel geopend.
Wacht niet te lang met inschrijven, want aan de workshops kunnen maar beperkte aantallen belangstellenden deelnemen. En wie het eerst komt (lees: registreert) het eerst maalt.
En als u wel te lang wacht? Voor u nog geen nood, want parallel aan de workshops zijn er ook uiterst interessante lezingen – zonder beperking op de aantallen toehoorders. …..
Maar voor ons dan wel nood, want wij willen graag tijdig weten hoeveel deelnemers we ongeveer kunnen verwachten, zodat we ook de workshops al kunnen indelen.
Raadpleeg dus snel het programma en maak uw keuzes.