Lezingen 2022

vogin-ip-klein Sprekers bij de 10de
VOGIN-IP-lezing
11 mei 2022
Brecht Castel Hoe online onderzoek helpt in de strijd tegen desinformatie
Paul Groth Minimum viable data reuse
Geert-Jan Strengholt
Rana Klein
/ Keynote / Archief van de toekomst
Frank van Harmelen Van de droom van het Semantic Web naar de realiteit van Linked Open Data
Cynthia Liem Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaal
Enno Meijers Termennetwerk – een katalysator voor Verbonden Erfgoed
Ivo Zandhuis
Merel Geerlings
Records in Contexts – nieuwe metadatastandaard Stadsarchief Amsterdam
Andrew Yates / Keynote / Improving search with neural ranking methods

Sprekers

Brecht Castel
Brecht Castel (°1990) is zelfstandig journalist. Hij werkt voor Knack sinds 2017, en sinds 2020 ook als vaste factchecker in het kader van onze samenwerking met Facebook. In 2016 fietste hij van België naar de Balkan om een reportagereeks over vluchtelingen te maken voor studentenblad Veto. Hij trok ook naar Tadzjikistan voor onderzoek. Hij heeft een bachelor politieke wetenschappen en is historicus (beide KU Leuven). In 2018 behaalde hij het postgraduaat Internationale Researchjournalistiek (Journalismfund.eu/Thomas More) en hij studeerde Russisch in avondschool (CLT).
| web | Knack | twitter | li | orcid |

 
Lezing: “Hoe online onderzoek helpt in de strijd tegen desinformatie”
We delen dagelijks foto’s en video’s op sociale media, vaak zonder nadenken of de bron te checken. Zo kan desinformatie zich als een lopend vuurtje verspreiden. Hoe hou je dat tegen? Door met gratis online tools snel en efficiënt de juiste context van beelden te achterhalen. Dan deel je pas als iets klopt. In deze lezing krijg je enkele praktische tips & tricks aangereikt om zelf te factchecken. Die zoektechnieken kunnen trouwens ook helpen op totaal andere terreinen. Iedereen kan zijn voordeel doen met wat OSINT: Open Source INTelligence, het gebruiken van publieke online bronnen voor onderzoek.

Paul Groth
Paul Groth is Professor of Algorithmic Data Science at the University of Amsterdam where he leads the Intelligent Data Engineering Lab (INDElab). He holds a Ph.D. in Computer Science from the University of Southampton (2007) and has done research at the University of Southern California, the Vrije Universiteit Amsterdam and Elsevier Labs. His research focuses on intelligent systems for dealing with large amounts of diverse contextualized knowledge.
Paul is scientific director of the UvA’s Data Science Center. Additionally, he is co-scientific director of two Innovation Center for Artificial Intelligence (ICAI) labs: The AI for Retail (AIR) Lab – a collaboration between UvA and Ahold Delhaize; and the Discovery Lab – a collaboration between Elsevier, the University of Amsterdam and VU University.
Previously, Paul led the design of a number of large scale data integration and knowledge graph construction efforts in the biomedical domain.
| web | web | twitter | li | slides | scholar | orcid |

Lezing: “Minimum viable data reuse”
There are a myriad of recommendations, advice, and guidelines about what data providers should do to facilitate data reuse. It can be overwhelming.
Based on recent empirical work (analyzing data reuse proxies at scale, understanding data sensemaking and looking at how researchers search for data), I’ll talk about what practices are a good place to start for helping others to reuse your data.
[Lecture in English]

Geert-Jan Strengholt
Geert-Jan Strengholt (1961) is als creative director en innovationlead verbonden aan VPRO Innovatie & Digitale Media en het VPRO Medialab. In het Medialab (sinds 2015) onderzoekt hij het verhalend potentieel van nieuwe technologieën in nauwe samenwerking met programmamakers binnen en buiten de VPRO.
Met een achtergrond in psychologie en kunstgeschiedenis (immersieve beleving in kunst-installaties) werkte hij ondermeer voor Mediamatic, Submarine en inmiddels al 20 jaar voor de publieke omroepen. Het crossmediale project In Europa (2009) werd bekroond met de Prix Europa vanwege het innovatieve gebruik van Google Maps om historische verhalen in tijd en ruimte context te geven. In datzelfde jaar ontwikkelde hij VPRO Radio Gemist, de eerste podcast-app voor iPhone. In het domein van digitale archieven werkte hij met het Nederlands Instituut voor Beeld en Geluid aan woord.nl (2014), een web-applicatie waarin het radio-archief van de publieke omroep doorzoekbaar, toegankelijk en met name op mobiele devices en tablets beluisterbaar werd gemaakt. Daartoe werd geëxperimenteerd met Spraakherkenning om de benodigde metadata te genereren. De liefde voor verhalende audio leidde in 2017 tot TREES, een mobiele app met een seriële podcast als backbone, waarin jonge journalisten interactieve onderzoeksjournalistiek voor en met millennials maakten. Daarnaast verkende Geert-Jan ondermeer VR (De Volmaakte Mens – 2015, Onzichtbaar NL- 2016), chat-applicaties (Robo Sapiens, 2018), interactives (Srebrenica – 2015, China met Ruben Terlou – 2017/18, De Industrie – 2018) en smart speakers (hoor/spel Hotel Spieker – 2018). De afgelopen twee jaar werkte hij intensief samen met de redactie van Tegenlicht en de Labs van Beeld en Geluid om te onderzoeken hoe kunstmatige intelligentie ingezet kon worden voor het Archief van de Toekomst.
| public spaces | li |

Rana Klein
Rana Klein is werkzaam als AI Developer bij het Nederlands Instituut voor Beeld en Geluid. Ze ontwikkelt machine learning modellen, pipelines en benchmarking tools. Hoewel Rana door haar master Logica aan de Universiteit van Amsterdam een fundamentele filosofische en wiskundige achtergrond heeft, staan voor haar de wensen van de gebruiker voorop.
| li | github |
 
 
 
 

Lezing: “VPRO Tegenlicht: Archief van de toekomst”
Samen met ontwerpbureau Sudox en het Nederlands Instituut voor Beeld en Geluid ontwikkelen VPRO Tegenlicht en VPRO Medialab het ‘Archief van de Toekomst’. Dit online archief gebruikt kunstmatige intelligentie om meer dan 500 uitzendingen gemaakt sinds 2002 op nieuwe manieren beschikbaar en doorzoekbaar te maken. Met gebruik van algoritmes voor beeldherkenning en spraak- en tekstanalyse zijn alle uitzendingen omgezet in een dataset. Daarin kunnen gebruikers zelf zoeken naar specifieke fragmenten, citaten en zelfs losse shots. De op tijdlijn en thema’s gebaseerde website is bedoeld voor alle geïnteresseerden, zoals scholieren, docenten, onderzoekers, studenten, kunstenaars en ontwerpers. Zij kunnen grasduinen in fragmenten en dwarsverbanden ontdekken om tot nieuwe visies op de toekomst te komen. Archief van de toekomst is gebaseerd op Open Standaarden en Open Source technologie.
Het online archief is sinds zondag 20 februari 2022 te raadplegen via vpro.nl/tegenlicht of vpro.nl/tegenlicht/archiefvandetoekomst

Frank van Harmelen
Frank van Harmelen (1960) is hoogleraar Knowledge Representation & Reasoning aan de Vrije Universiteit Amsterdam. Hij verkreeg een PhD aan de Universiteit van Edinburgh.Hij werkte mee aan het definiëren van de Web ontology language OWL, die een wereldwijde standaard is geworden, breed commercieel wordt toegepast en de basis is geworden voor een hele onderzoeksgemeenschap.
Hij is wetenschappelijk directeur van het Hybrid Intelligence Centre (https://hybrid-intelligence-centre.org), een 10-jarig 20m€ onderzoeksproject naar AI systemen die met mensen samenwerken in plaats van ze te vervangen.
Hij is fellow van de European AI Society en van de Asia-Pacific AI Association, hij is lid van de Academia Europaea en van de Koninklijke Nederlandse Academie van Wetenschappen (KNAW). Hij is gasthoogleraar aan Wuhan University of Science and Technology (WUST) in Wuhan, China.
| web | web | twitter | li | scholar | slides | wikipedia | dbpedia | wikidata |

Lezing: Van de droom van het Semantic Web naar de realiteit van Linked Open Data
Al twee decennia wordt er gesproken over (en gewerkt aan) een “semantic web”: een verrijking van het world wide web waarop niet alleen ménsen informatie uitwisselen, maar waarop ook computers op basis van formele representaties informatie en kennis kunnen vinden, koppelen en uitwisselen. Na 20 jaar heeft dat “semantic web” nog niet bepaald de huiskamers van consumenten en de leeszalen van bibliotheken bereikt. Moeten we spreken van een mislukking? Deze lezing vertelt hoe de droom van het semantic web wel degelijk dagelijkse praktijk geworden is in de vorm van “linked open data”, en hoe zulke linked open data de moderne grondslag is voor informatie uitwisseling tussen wetenschappers onderling, tussen bedrijven en consumenten, en tussen overheden en burgers.

Cynthia Liem
Cynthia Liem is Universitair Hoofddocent Informatica aan de TU Delft, en daarnaast ook actief uitvoerend musicus (klassiek piano – Magma Duo). Haar informatica-onderzoek richt zich op zoekmachines en aanbevelingssystemen voor multimediale data. Haar bijzondere interesse gaat hierbij uit naar het vindbaar en toegankelijk maken van digitaal materiaal dat niet triviaal op de radar van gebruikers zit. Daarnaast vindt ze het belangrijk om te borgen dat datagedreven beslissingen op verantwoorde wijze worden genomen, en in lijn zijn met menselijke bedoelingen en publieke waarden. Hier besteedt ze expliciet aandacht aan in onderzoek en onderwijs, maar ook als veelgevraagd publiek spreker. Cynthia deed industriële ervaring op bij Bell Labs Nederland, Philips en Google, ontving verschillende beurzen en prijzen, waaronder de Lucent Global Science Scholarship, Anita Borg Memorial Scholarship en een NWO Veni-beurs, en is van 2021-2026 lid van De Jonge Akademie.
| web | twitter | ted-x | li | scholar |

Lezing: “Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaal”
In het veelbesproken toeslagenschandaal speelden digitale en algoritmische componenten een belangrijke rol. Hoewel er in het toeslagenschandaal sprake was van een toepassing die ver af lijkt te staan van de informatieprofessional (automatische inschatting van onrechtmatigheid/fraude), hebben de gebruikte digitale en algoritmische componenten wel degelijk veel overeenkomsten met componenten waar een informatieprofessional mee te maken zou krijgen in zoek- en aanbevelingsscenario’s. In mijn presentatie sta ik hierbij stil, en deel ik mijn bredere ervaringen rond de voorbereiding van het Trouw-artikel dat de algoritmische kant van het toeslagenschandaal belichtte. Om de discussie van ‘wat een algoritme exact doet’ goed te kunnen voeren, is het minstens zo belangrijk om bredere digitale geletterheid en een meer systemische blik te bevorderen, uitdrukkelijk ook bij mensen die zich van nature als ‘niet-technisch’ identificeren
[zie artikel1 en artikel2 in Trouw]

Enno Meijers
Enno Meijers, adviseur bij de Onderzoeksafdeling van de Koninklijke Bibliotheek, werkt als programmamanager voor het Netwerk Digitaal Erfgoed (NDE). Als trekker van het NDE-Bruikbaar programma werkt hij aan het verbeteren van de vindbaarheid van erfgoedinformatie. Het toepassen van Linked Data en webtechnologieën staat hierbij centraal. Vanuit het NDE programma zorgt hij ook voor de aansluiting op de CLARIAH infrastructuur. Eerder was hij via Bibliotheek.nl betrokken bij de ontwikkeling van de digitale infrastructuur voor de openbare bibliotheken. Enno heeft een achtergrond in elektrotechniek en bedrijfskundige informatica.
| slides | twitter | li | github | nde | orcid |

Lezing: “Termennetwerk – een katalysator voor Verbonden Erfgoed”
Het Netwerk Digitaal Erfgoed (NDE) werkt, als samenwerkingsverband van Nederlandse erfgoedinstellingen, aan het beter vindbaar maken van erfgoedinformatie. Naar schatting ruim 2000 erfgoedinstellingen in Nederland publiceren digitale informatie over hun collecties. Het vinden van de beschikbare informatie over meerdere instellingen heen is echter voor veel gebruikers een lastige opgave. Om die reden werkt NDE aan diensten die het samenbrengen van verspreide erfgoedinformatie eenvoudiger maakt. Een van deze diensten is het Termennetwerk. Het Termennetwerk helpt om bij het beschrijven van erfgoedobjecten snel de juiste gestandaardiseerde definitie te vinden voor bijvoorbeeld personen of onderwerpen. Door gebruik van deze gestandaardiseerde termen kan informatie beter met elkaar verbonden worden. Zeker wanneer de informatie ook nog als Linked Data beschikbaar gemaakt wordt. In tegenstelling tot bestaande vergelijkbare oplossingen zoekt het Termennetwerk realtime in meerdere terminologiebronnen. De zoekresultaten worden geharmoniseerd en teruggegeven via een standaard beschrijvingsformaat (SKOS) en zoekinterface (GraphQL). Ook de koppeling met de terminologiebronnen verloopt via een standaard zoektaal (SPARQL) waardoor elke bron, die dit Linked Data protocol ondersteunt, koppelbaar is. In de presentatie wordt uitgebreid ingegaan op de functionaliteit van het Termennetwerk en de mogelijkheden om deze open source software ook voor andere informatiedomeinen in te zetten.

Ivo Zandhuis
Ivo Zandhuis studeerde informatica en werkt als freelance adviseur digitale toegankelijkheid voor cultureel erfgoed. In die rol is hij bij het Stadsarchief Amsterdam betrokken bij het implementeren van Linked Data in het algemeen en Records in Contexts in het bijzonder. Hij promoveerde in de geschiedenis en is gastonderzoeker bij het Internationaal Instituut voor Sociale Geschiedenis.
| web | twitter | github | li | orcid |

 

 

Merel Geerlings
Merel Geerlings studeerde geschiedenis en algemene cultuurwetenschappen en heeft in de zomer van 2021 het diploma Archivistiek B behaald. Sinds 2018 werkt ze bij het Stadsarchief Amsterdam, eerst als inventarisator van particuliere archieven en sinds 2020 als projectleider Linked Data. In die rol houdt ze zich intensief bezig met de implementatie van Records in Contexts en de transformatie naar Linked Data gebaseerde metadata van archief.
| li |

 

 
Lezing: “Records in Contexts – nieuwe metadatastandaard Stadsarchief Amsterdam”
De nieuwe beschrijvingsstandaard voor archieven heet Records in Contexts, en het Stadsarchief Amsterdam is een van de eerste organisaties die de nieuwe standaard van de International Council on Archives implementeert. Het Stadsarchief was direct enthousiast over de nieuwe standaard, omdat deze weet om te gaan met een van de grootste uitdagingen waar het archief momenteel voor staat: het beschrijven van digitaal geboren en gedigitaliseerd archief. Ook is Records in Contexts gebaseerd op Linked Data, wat voor de gebruiker een heel scala aan nieuwe mogelijkheden biedt om informatie te zoeken en te vinden. In deze presentatie meer over de standaard zelf, welke mogelijkheden het biedt, waarom het Stadsarchief erop inzet en wat dat deze keuze betekent voor de gebruiker.

Andrew Yates
Andrew Yates is an Assistant Professor at the University of Amsterdam, where he focuses on developing content-based neural ranking methods and leveraging them to improve search and downstream tasks. He has co-authored a variety of academic papers on neural ranking methods as well as a recent book on transformer-based neural methods: “Pretrained Transformers for Text Ranking: BERT and Beyond”. Previously, Andrew was a post-doctoral researcher and then senior researcher at the Max Planck Institute for Informatics. Andrew received his Ph.D. in Computer Science from Georgetown University, where he worked on information retrieval and information extraction in the medical domain.
| web | twitter | github | scholar |

Lezing: “Improving search with neural ranking methods”
Text ranking, the task of ordering pieces of text based on their relevance to a query, is a common task that appears in many search scenarios. Web search is a common example. At its core, text ranking relies on a ranking method to produce good estimates of how well different pieces of text (e.g., Web pages) match a given query, though many other signals may ultimately influence a ranking. Traditionally, such ranking methods relied on term statistics to balance the discriminativeness of a query term with the term’s importance in a piece of text. In recent years, however, deep learning has begun to reshape how text ranking is performed by improving textual understanding. These neural ranking methods have substantially increased ranking quality while breaking the rules that successful statistical ranking methods follow. In this talk, I will take a deep dive into these methods to explore why they work so well, where they fall short, how they can already be leveraged to improve search, and what the future might bring.
[Lecture in English]