De IKEA Knowledge Graph

Dit jaar is er in het lezingenprogramma weer eens wat meer aandacht voor het vindbaar maken van informatie door middel van “kennisorganisatie­systemen”. Dat is de wat sjiekere benaming voor wat we vroeger onderwerpsontsluiting plachten te noemen. Er is zowel een lezing over taxonomieën als eentje over “knowledge graphs”. Over die eerste lezing hadden we het eerder al; hier meer over die tweede.

Katariina Kari personificeert een interessante combinatie van competenties: uitvoerend musicus en ITer, en daarbij specifiek het semantisch web. Ze combineerde dat eerder al in het realiseren van de digitale transformatie voor klassieke muziek. Na verantwoordelijk te zijn geweest voor de “Fashion Knowledge Graph” van de grote internationale online modeketen Zalando, werkt ze nu aan de knowledge graph van IKEA.

Als informatieprofessionals kennen we intussen natuurlijk wel de principes van wat een knowledge graph is. Maar het is goed om eens te horen welke achterliggende architectuur daar in de praktijk voor ontwikkeld kan worden, zeker als dat bij zo’n groot alom bekend bedrijf als IKEA is. Katariina gaat er in haar lezing op in hoe zij daarvoor een drie-lagen-model toepast. Dat is ontleend aan de GIST upper ontology for the enterprise. In een artikel in Medium heeft ze dat vorig jaar al eens beschreven. In de eerste plaats zijn er de “soorten dingen” waar het bij het bedrijf om draait. Dat zal vaak maar een beperkt aantal zijn – bij IKEA beschreven met circa 100 centraal beheerde concepten. Die vormen als het ware de “ontologie” met de definitie van klassen en eigenschappen. Daaronder volgen de individuele “dingen”. Eerst in een laag van de onderwerps­categorieën waartoe die dingen behoren. Denk bijvoorbeeld aan iets als boekenkasten. Bij IKEA ligt hun aantal in de duizenden. En daaronder de individuele dingen/produkten zelf, waarvan het aantal bij IKEA – het zal niet verwonderen – wel in het miljoen loopt. Denk daarbij aan iets als “BILLY boekenkast wit 80x28x202 cm”.

Alleen de concepten voor de eerste twee lagen worden echt door mensen bedacht en bestaan uit gecontroleerd vocabulaire. Voor de grote massa die daaronder volgt, worden de termen automatisch gegenereerd uit de databronnen waarin de gegevens voor die produkten toch al aanwezig zijn. Hoe je dat praktisch kunt organiseren met verantwoordelijkheden, auteurschap en opslag, zal in de lezing ook aan de orde komen.
Deze knowledge graph is (ook) op de klanten van IKEA gericht, om hen een betere digitale “beleving” te kunnen bieden. Voor de interne logistiek van individuele items wordt hij niet gebruikt.

Joyce over vindbaarheid en taxonomieën

Joyce van Aalten is al heel wat keren met workshops present geweest in het VOGIN-IP programma. Dit jaar is zij “gepromoveerd” tot spreker. En waarover anders dan over vindbaarheid van informatie en de rol van taxonomieën daarin. In de laatste (digitale) aflevering van IP van vorig jaar stond ook al een stuk van haar hand. Dit mede naar aanleiding van het uitkomen van een nieuw boek Taxonomies: Practical Approaches to Developing and Managing Vocabularies for Digital Information, waaraan Joyce een hoofdstuk over taxonomie-software had bijgedragen.
Haar lezing op 16 maart heeft ze een intrigerende titel meegegeven: Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar niks aan kan doen). Alleen al die titel zou een reden moeten zijn haar lezing niet te willen missen. Hopelijk dat ze daarbij ook uit de doeken kan doen wie dan wel wat aan die vijf problemen kan doen (of er de schuld van kan krijgen …….).

Eerste keynote: Elisabeth Bik

Tot ons genoegen kunnen we de eerste keynote spreker voor 16 maart aankondigen.
Elisabeth Bik is een Nederlandse microbioloog die al heel lang in Amerika werkt. De laatste jaren heeft zij internationale bekendheid gekregen door haar onvermoeibare inzet bij het detecteren van frauduleuze praktijken van wetenschappers bij het publiceren van hun onderzoeksresultaten. Dat kan bijvoorbeeld de vorm aannemen van gesjoemel met plaatjes waaruit auteurs soms vergaande ongerechtvaardigde conclusies trekken. Dit is een heel andere soort “fakenews” en “factchecking” dan tot nu toe in ons programma aan bod gekomen is. En ook met verdergaande consequenties: op basis van haar bevindingen hebben uitgevers al bijna 1000 artikelen moeten terugtrekken en bijna evenzoveel gecorrigeerde versies moeten publiceren. Maar ook voor haar zelf zitten er soms – minder leuke – consequenties aan: veel aandacht kreeg een aanklacht voor “Intimidatie, afpersing en chantage” door een “getroffen” wetenschapper. Overigens kreeg ze daarop massale steunbetuiging van andere “echte” wetenschappers.

Ook in andere kranten dan NRC werd al geregeld aandacht besteed aan haar manier van onderzoek, zoals in onder meer Trouw, Volkskrant, De Morgen, Guardian, The New York Times en The New Yorker.

We zijn bijzonder verheugd dat Elisabeth Bik nu bij ons over haar ervaringen en technieken komt vertellen.

Nog even een geruststelling voor wie zich bekommert om de CO2 emissies van ons congres. Het is niet alleen voor een praatje van 40 minuten bij ons dat Elisabeth Bik uit Californië komt overvliegen; ze combineert dat met diverse andere verplichtingen in Europa.

Al 2x bij NPO-OP1, a.s. woensdag live bij VOGIN-IP


Altijd leuk als een voor VOGIN-IP geboekte spreker ineens ook op TV verschijnt. Eerder gebeurde dat met Christiaan Triebert, nu is de beurt aan Knack-factchecker Brecht Castel. Al twee keer mocht hij vorige maand bij NPO-OP1 aanschuiven om te vertellen over zijn factchecking-activiteiten, vooral met betrekking tot (nep)nieuws over Oekraïne ([8 april], [26 april]). Op TV is natuurlijk leuk, maar Brecht a.s. woensdag live horen vertellen is nog veel leuker. Want dan krijgt hij veel ruimer de tijd (40 minuten) om iets van zijn methoden te laten zien en bovendien kan hij daar niet worden onderbroken door eigenwijze presentatoren en andere gasten.

Naar zo’n live lezing zitten luisteren is natuurlijk fantastisch, maar zelf doen is zeker zo leuk. Daarom zijn we blij dat je ook actief met factchecken aan de gang kunt in de workshop van Leon Pauw. Hij is factchecker voor het Leidse Nieuwscheckers en vervangt in deze workshop onze reguliere docent Alexander Pleijter die onverwacht verhinderd was.

Woensdag is natuurlijk kort dag, maar aanmelden kan nog tot uiterlijk dinsdagavond (wel hoe eerder, hoe fijner voor de organisatoren). En je kunt het ook nog combineren: in het ochtendprogramma naar Brecht, in de middag naar Leon’s workshop.
Zien we je woensdag?

 
aanmelden
 

Het pure zoeken


In voorgaande blogposts hadden we nog niet veel aandacht besteed aan het “pure zoeken”, wat toch altijd een wezenlijk onderdeel van ons jaarlijkse programma vormt. Naast de veelheid aan gereedschappen voor het verwerken van gevonden gegevens dat eerder aan de orde kwam, zijn er namelijk ook wel degelijk pure zoekonderdelen.

In de eerste plaats zijn dat twee heel praktische onderdelen. Zo verzorgt Ewoud Sanders zijn bekende workshop “Slimmer zoeken in Delpher“. Met ruim 100 miljoen gedigitaliseerde pagina’s uit Nederlandse kranten, boeken en tijdschriften is Delpher een ware goudmijn, waarin je meer en betere resultaten vindt als je weet welke zoektechnieken je kunt toepassen.
Daarnaast is er een nieuwe workshop van Bianca Kramer en Jeroen Bosman. Zij besteden aandacht aan zoektechnieken om betrouwbare informatie op te sporen, zoals die nodig is voor systematic reviews. Maar dan niet via de gecontroleerde bibliografische databases die daar meestal voor gebruikt worden, maar met webzoekmachines. Zij stellen de vraag of je daarmee ook zodanig precies en gecontroleerd kunt zoeken, dat het resultaat aan de strengere eisen voor systematic reviews voldoet.

Naast deze workshops is er dan natuurlijk nog de spannende keynote waarmee we de dag openen. Andrew Yates, assistent hoogleraar bij IRlab aan de Universiteit van Amsterdam, is specialist op het gebied van de toepassing van neurale netwerken. De meesten van ons zullen die term waarschijnlijk alleen kennen in relatie tot machine learning technieken die worden toegepast in systemen waarmee teksten of plaatjes steeds beter automatisch geclassificeerd kunnen worden. Maar zulke neural deep learning technieken zijn nu ook in gebruik voor het verbeteren van zoekresultaten. Dergelijke neural search zorgt dan vooral voor een verbeterde ranking van zoekresultaten, doordat de betekenis van stukken tekst beter door zoeksystemen begrepen kan worden. Hoe dat precies werkt en wat voor verbetering dat oplevert, daarover zal Andrew Yates ons 11 mei bijpraten.

Archief beter vindbaar maken met Records in Contexts


Linked (Open) Data is voor informatieprofessionals belangrijk gereedschap bij het vindbaar maken van informatie. Het onderwerp komt dit jaar daarom in een aantal lezingen en workshops aan bod. Onder andere in de lezing van Merel Geerlings en Ivo Zandhuis.

Merel en Ivo komen vertellen hoe men bij het Stadsarchief Amsterdam linked data inzet om tot betere zoekresultaten voor de gebruiker te komen. De sprekers zien dat linked data veel denkstappen wegneemt bij de gebruiker omdat je via de relaties die in het schema zijn vastgelegd, makkelijker associatief kunt zoeken. Bovendien kun je als informatieprofessional profiteren van elkaars kennis door verbindingen te leggen met elkaars terminologiebronnen. Zo concentreert het Stadsarchief zich bijvoorbeeld op de metadata waar zij expert in is – de straten, personen en organisaties van Amsterdam – en richt zich voor de andere te beschrijven concepten op de terminologiebronnen die collega’s elders al hebben gemaakt.


Visualisatie van een metadatanetwerk in RiC.
Bron: Stadsarchief Amsterdam, ‘Records in Contexts (4): Metadatanetwerk,’ 21 april 2021

 
Het Stadsarchief gebruikt sinds kort de nieuwe archiefbeschrijvingsstandaard Records in Contexts (RiC) om het archiefmateriaal vindbaar te maken. RiC is gebaseerd op linked data en heel geschikt om digitaal materiaal mee te beschrijven. Komt er met RiC een einde aan de voor gebruikers soms ingewikkelde hiërarchisch opgebouwde inventarissen? Merel en Ivo zullen ons in hun lezing daar meer over vertellen. En misschien ook wel over de ‘blauwdruk’ die bij het Stadsarchief is gemaakt van alle interne metadata en vocabulaires èn de verbindingen naar buiten.

Omdat het Stadsarchief één van de eerste archiefinstellingen is die RiC gebruikt, verscheen afgelopen jaar speciaal voor de vakgenoten een tiental blogposts over de implementatie. De blogposts vind je terug op het Bronnen in bytes blog van het Stadsarchief.

De algoritmes achter het toeslagenschandaal


Algoritmes zijn overal. Dus is het niet verwonderlijk dat ze ook een rol speelden bij de besluitvorming achter het toeslagenschandaal. Je kunt je natuurlijk afvragen, wat wij als informatieprofessionals daarmee van doen hebben. Cynthia Liem heeft daar wel een antwoord op:

In het veelbesproken toeslagenschandaal speelden digitale en algoritmische componenten een belangrijke rol. Hoewel er in het toeslagenschandaal sprake was van een toepassing die ver af lijkt te staan van de informatieprofessional (automatische inschatting van onrechtmatigheid/fraude), hebben de gebruikte digitale en algoritmische componenten wel degelijk veel overeenkomsten met componenten waar een informatieprofessional mee te maken zou krijgen in zoek- en aanbevelingsscenario’s.

 
Vandaar dat we blij zijn dat juist zij ons komt vertellen hoe het daarmee zat en welke les ook wij daaruit kunnen trekken. De bovenstaande quote komt dan ook uit de tekst over haar lezing die ze ons had toegestuurd. Voor dagblad Trouw (zie boven) en RTL-nieuws heeft ze – samen met Trouw-columnist Ilyaz Nasrullah – namelijk onderzoek gedaan naar die “digitale en algoritmische componenten” die de belastingdienst gebruikte.

Cynthia was al eens eerder bij ons te gast. In 2019 bleef ze met de voorbeelden in haar lezing nog dicht bij haar andere discipline, de muziek – zij is ook professioneel uitvoerend musicus. Aan onderstaande toen gemaakte foto is dat wel af te zien. Dit keer sluit zij in hoge mate aan bij de actualiteit.