25 jaar Google

16/02/202422/02/2024 / ericvogin / Leave a comment

Eind vorig jaar vierde Google zijn 25ste verjaardag. In het kader van de VOGIN-IP-lezing die immers “zoeken & vinden” als thema heeft, willen we daar graag nog even bij stilstaan. In IP hebben we dat destijds ook gedaan bij 15 jaar Google.

De traditie wil dat Google, zoals veel technologiebedrijven, in een garage is ontstaan. Toch is dat niet helemaal waar, want Larry Page en Sergey Brin hadden in 1998 hun nieuwe zoekmachine ontwikkeld als onderdeel van hun studie aan Stanford University. Het allereerste URL was dan ook google.stanford.edu.
De 'garage van Google' in Menlo Park Pas toen Google echt een product werd, kwam die garage in beeld. Toen hadden ze intussen al 25 miljoen pagina’s geïndexeerd. Dat was een eerste stapje op weg naar Google’s oorspronkelijke ambitie om alle kennis van deze wereld vindbaar te willen maken. Bij het 15-jarig bestaan in 2013 was die ambitie echter al aardig verwaterd geraakt; de zoekmachine was intussen alleen nog maar een succesvol hulpmiddel om advertenties te verkopen.

Afbeelding uit 'Search Engine Watch' 2001 Van de minstens vijftien zoekmachines waaraan IP in voorgaande jaren al aandacht had besteed, was op dat moment naast Google alleen Bing nog overgebleven.
Overigens had Google zelf pas eind 2000 de op dat moment nog aanwezige concurrentie in grootte gepasseerd. En daarna heeft het nog tot circa 2007 geduurd voordat Google de andere definitief achter zich gelaten had.
Sinds de eerste echte zoekmachine (Lycos) rond 1993 verdubbelde 15 jaar lang ongeveer ieder jaar het aantal webpagina’s in de op dat moment grootste zoekmachine.
De race wie de grootste was, verloor trouwens al steeds meer aan betekenis. Het werd moeilijker om te definiëren wat daarvoor nog als afzonderlijke webpagina’s geteld moesten worden. Is elke tweet een webpagina? Heb je te maken met een andere pagina als automatisch een iets ander sessienummer in een URL wordt verwerkt of als één van de 20 blokjes informatie op een pagina verschilt van die in een vorige versie? Zijn gepersonaliseerde pagina’s die verschillende gebruikers op dezelfde site te zien krijgen, verschillende pagina’s? Daarnaast zijn de “items” die je op internet vindt steeds onvergelijkbaarder. Tellen miljarden tweets van 140 tekens bij het vergelijken van groottes even zwaar mee als PDF’s van 140 bladzijden? Vandaar dat de grafiek hierboven in een “pluim” uitloopt, die bij 2013 zelfs helemaal ophoudt.

Waarom zocht Google zo goed?

Belangrijk voor de snelle acceptatie van Google was de goede relevantie-ordening die het geïntroduceerd had. Die ranking berustte voor een belangrijk deel op een soort citatie-algoritme, de Pagerank. Hoe meer backlinks er waren vanaf andere pagina’s, en hoe hogere Pagerank die pagina’s zelf hadden, hoe beter. Daarbij heeft de “page” in “Pagerank” niet alleen betrekking op die “pagina’s”, maar is het ook een toespeling op de achternaam van Larry Page. De Pagerank is heel lang de basis van Google’s ranking gebleven (en voor aanbieders van websites de na te streven gouden standaard om hun vindbaarheid te garanderen). Bovendien was Google groot – en dus schijnbaar volledig – en had het zo’n eenvoudig “kaal” gebruikersinterface, vergeleken met andere zoeksystemen.

Daarnaast is Google in de loop der tijd steeds meer aan vraagverbetering gaan doen. Synoniemen en spellingsvarianten van gebruikte zoektermen werden automatisch ook in zoekacties meegenomen. Dit zijn voorbeelden van de semantische zoektechnieken die Google meer en meer introduceerde. Daarbij ging het meer om de betekenis van termen dan om de precieze reeks letters die als zoekvraag was ingetikt, onder het motto ‘not STRINGS but THINGS’. Bovendien speelde de ingeschatte intentie van de zoeker een steeds belangrijker rol. Zo werd pure Pagerank allengs van minder belang voor de volgorde van presenteren van de zoekresultaten en zelfs voor wat wel of niet getoond werd. Kennis over wat een gebruiker eerder gezocht en bekeken had, werd zeker zo belangrijk als de op backlinks gebaseerde Pagerank. Voor wie wilde weten welke factoren toen allemaal meespeelden. publiceerde wijlen Bill Slawski in 2018 een uitputtend overzicht van de “Google Ranking Signals”.
Belangrijk hulpmiddel bij veel van de nieuwe technieken werd de door Google opgezette Knowledge Graph, waarin semantische relaties tussen meer dan een miljard begrippen waren vastgelegd. Op basis van zoektermen werden daaruit zogenaamde “caroussels” en “knowledge cards” met achtergrondinformatie gegenereerd, die naast of tussen de gewone zoekresultaten werden getoond. Aanvankelijk werd het aan de gebruiker overgelaten welke keuze die wilde maken uit de daarmee aangereikte begrippen om zoekacties uit te breiden of in te perken. Belangrijk hierbij was ook de toepassing van Google’s RankBrain machine learning techniek om te herkennen waar zowel zoekvragen als gevonden webpagina’s “echt” over gaan. Allengs liet Google ook steeds meer automatisch gebeuren. Al die automatische aanpassingen van zoekvragen ontlokten bij professionele zoekers soms wel de verzuchting dat Google zich niet met hun vraag moest bemoeien, want dat ze zelf het beste wisten wat ze zochten.

Veel verdergaande mogelijkheden dan alleen maar semantische functionaliteit werden mogelijk met de recente opkomst van generatieve kunstmatige intelligentie op basis van zogenaamde “Large Language Models”. Google heeft bij die ontwikkeling aangehaakt door, als concurrent voor het alom bewierookte ChatGPT, ook een eigen chatbot “Bard” te ontwikkelen. Als reactie op vragen/opdrachten geeft die niet een lijstje met “blauwe links”, maar – veel meer dan bij de eerdere semantische zoeksystemen – in keurige volzinnen geformuleerde en beargumenteerde antwoorden en eventuele aanpassingen op zoekvragen. Recent heeft Google deze chatbot de nieuwe naam “Gemini” gegeven.
In de workshop “Prompt Engineering” kunnen deelnemers op 18 april met dit systeem kennis maken en leren hoe je “prompts” (opdrachten) in een iteratief proces zodanig kunt (her)formuleren dat je betere antwoorden krijgt.
Door de hier geschetste ontwikkelingen heeft Google van een “zoekmachine” tot een “antwoordmachine” kunnen evolueren.

Nog wat extra plussen en minnen

Google biedt ook nog een heleboel tools en diensten, waarvan een deel niet rechtstreeks met zoeken en vinden te maken heeft. In de loop van de jaren zijn dat er steeds meer geworden, maar intussen zijn er ook al weer een heleboel verdwenen (waar ik straks nog op terug kom).
Een voorbeeld van een niet-zoek dienst is het “Structured data testing tool” waarmee embedded metadata in webpagina’s, zoals Schema.org markup, geanalyseerd kan worden. En een alom veel bekender voorbeeld is natuurlijk Gmail, dat Microsoft’s Hotmail al snel als favoriet gratis mailprogramma verdrongen had. Voorbeelden die wel direct met zoeken te maken hebben, zijn enerzijds functies die we verder vooral van betaalde zoeksystemen kennen, zoals het gebruik van zoekvelden (filetype:, site:, inurl:, intitle: e.d.). Anderzijds zijn er allerlei aparte zoeksystemen voor specifieke soorten materiaal, zoals wetenschappelijke publicaties (Google Scholar, dat een concurrent is voor betaalde bibliografische zoeksystemen – en waarvan het interface nogal afwijkt van Google’s andere zoekdiensten), nieuws (uit vele honderden kranten en tijdschriften wereldwijd), boeken (Google Books, met full-text doorzoekbare inhoud van gescande boeken), octrooien (Google patents), video’s (YouTube, dat elders ontwikkeld was, maar door Google is aangekocht), afbeeldingen (Google Image, dat zijn plaatjes uit webpagina’s haalt) en foto’s (Google Photos, wat vooral bedoeld is om eigen foto’s te uploaden). Al die diensten bieden hun eigen specifieke filtermogelijkheden.
Helemaal een beetje anders zijn Google Groups (waar intussen heel wat meer inzit dan alleen de klassieke nieuwsgroepdiscussies), Google Maps (dat de hele wereld in vaak hoge resolutie in kaart gebracht heeft en dat via Google streetview gecombineerd wordt met regelmatig ge-updatete foto’s vanaf “de straat”), Alerts (dat attendering op nieuw materiaal uit de meeste eerder genoemde zoeksystemen biedt), en Activity (dat de geschiedenis van je zoekactiviteiten in bijna alle Google-diensten bijhoudt, en dat de daarbij gevonden resultaten laat zien). Voor nog veel meer voorbeelden verwijs ik naar de keuzebalk die in de meeste Google-producten is op te vragen en die hier rechts naast deze tekst is afgebeeld.

En dan nog een paar van de beloofde minnen.
Ondanks de bovengenoemde extraatjes, ontbreekt toch nog veel zoekfunctionaliteit waar we in betaalde systemen wel aan gewend zijn. Zo kun je niet zoeken op metadata, kun je niet trunceren en kun je niet achteraf resultaatsets combineren. Zoeken op backlinks werkt niet meer. Zoekresultaten zijn niet reproduceerbaar en aantallen gevonden resultaten zijn niet betrouwbaar (en worden nu al helemaal niet meer getoond).
Bijzonder hinderlijk is verder nog het frequent verdwijnen van functies en diensten, zelfs als die vrij veel gebruikt werden. In de volgende paragraaf ga ik daar nog wat nader op in.

Een kerkhof van verdwenen Google-diensten

Google is altijd goed geweest in het bedenken van nieuwe functionaliteit en diensten. Alleen zijn ze vaak wat minder goed om daar voldoende publiciteit voor te maken, zodat veel ervan niet zo veel wordt gebruikt. En dat is dan weer een goede reden om een functie of dienst na een tijdje – al dan niet geruisloos – te laten verdwijnen. Zo is de afgelopen jaren een omvangrijk kerkhof met verdwenen functies, diensten en producten ontstaan. In verborgen hoekjes liggen oook nog allerlei producten die langzaam waren weggekwijnd en waarvan bijna niemand zich het bestaan meer herinnert. Maar er zijn ook volop functies en producten die door velen worden betreurd, maar die door Google meedogenloos zijn omgebracht. Een ware “graveyard of broken dreams”.
Hier een rijtje van verdwenen functies en diensten die ik zelf, soms intensief, soms incidenteel, en soms zelfs helemaal nooit gebruikt heb:
+-operator for Exact search, ~-operator for Synonym search, Translated search, Desktop search, Recipe search, Google Wave, Google Buzz, Google Reader, iGoogle, Google Directory, Google Gears, Google Notebook, Google Answers, Google Tables, Google Health, Google Toolbar, Google Pack, Google Aardvark, Google Talk, Google Labs, Google Sets, Code search, Blog search, Blogger, Sidewiki, Searchwiki, Wonderwheel, Timeline, Sites met afbeeldingen, Related Links, Knol, Image Swirl, de Google Auto, Google Glass, info-commando, (heel recent) Google Cache,…. En dan heb ik er vast nog een stel vergeten. Knap indrukwekkend. En dan somde Phil Bradley er enkele jaren geleden in zijn weblog nog tientallen meer op.

Verdwijnende zoekgoeroes

Functies en diensten zijn niet het enige dat bij Google verdwijnt. In het verleden waren er nogal wat zoekgoeroes die Google kritisch volgden, op Twitter en in hun eigen weblogs. Daar waarschuwden ze ons voor rare fouten en pitfalls die ze waren tegengekomen bij de diverse Google diensten. Maar de meeste van die goeroes doen er intussen het zwijgen toe. Gwen Harris (@websearchlady) is met pensioen en de immer kritische Phil Bradley beperkt zich tot didactische podcasts, nu ook hij met pensioen is. Greg Notess en Marydee Ojala schrijven hooguit nog wat in betaalde bladen. Henk van Ess richt zijn aandacht nu vooral op het gebruik van systemen voor generatieve AI. Van Danny Sullivan komen niet heel veel kritische geluiden meer, sinds hij, na zijn afscheid bij SearchEngineLand, bij Google zelf in dienst gekomen was. Nu pakt dat laatste soms wel goed uit, omdat zoekgebruikers via hem een laagdrempelige ingang bij Google hebben, waarlangs een overleden functie een enkele keer toch nog gereanimeerd kan worden.

Als we zien hoe Google, zelfs als we ons alleen tot zoekfuncties beperken, in 25 jaar veranderd is, dan lijkt een voorspelling hoe Google er over nog eens 25 jaar zal uitzien een kansloze uitdaging.

Eric Sieverts
Een aantal fragmenten uit deze tekst is eerder gepubliceerd in bijdragen in IP en incidenteel in andere media.

20 jaar Facebook

07/02/202408/02/2024 / voginip / Leave a comment

Het 20-jarig jubileum van Facebook markeert een belangrijke mijlpaal in de evolutie van sociale media. Oorspronkelijk in 2004 gelanceerd als “smoelenboek” voor Harvard-studenten, werd Facebook al snel een dominante kracht in het verbinden van mensen over de hele wereld. Dat veroorzaakte een revolutie in de manier waarop we met elkaar omgaan, informatie delen en communiceren. Facebook is in Nederland het populairste sociale medium. Zo’n 7,9 miljoen Nederlanders gebruiken het. En velen van hen nog heel intensief ook.
Geen wonder dat steeds meer onderzoeken aantonen dat Facebook ‘real life’ consequenties heeft. Want naarmate het platform is gegroeid en geëvolueerd in de afgelopen twee decennia, zijn ook de uitdagingen waarmee Facebook wordt geconfronteerd toegenomen.

Verspreiding van schadelijk materiaal

Tijdens een recente hoorzitting hebben Amerikaanse senatoren Mark Zuckerberg, de CEO van Meta, het moederbedrijf van Facebook en ook eigenaar van Whatsapp, beschuldigd van het verspreiden van schadelijk materiaal op het platform. Zoals desinformatie, stalking, haatspraak en ander schadelijk materiaal dat zich heeft kunnen verspreiden door agressieve algoritmen die zijn gericht op het maximaliseren van advertentie-inkomsten. Deze algoritmen geven prioriteit aan betrokkenheid, wat vaak leidt tot de versterking van verdeeldheid zaaiende en sensationele inhoud, in plaats van het bevorderen van betekenisvolle interacties.

Deze erosie van de oorspronkelijke magische formule van sociale media, waarin persoonlijke interacties werden vermengd met massale communicatie, heeft geleid tot groeiende zorgen over de negatieve impact van sociale media op de samenleving. De verspreiding van desinformatie en schadelijke inhoud heeft bijgedragen aan polarisatie, misinformatie en zelfs geweld in de echte wereld.

Ondanks deze uitdagingen blijft Meta, het moederbedrijf van Facebook, ook eigenaar van Messenger, WhatsApp en Instagram, indrukwekkende financiële resultaten behalen. Meta is momenteel $ 742 miljard waard en zal naar verwachting in 2023 een omzet van ongeveer $ 133 miljard realiseren. Echter, naast deze financiële successen, zijn er ernstige scheuren ontstaan in het digitale plein. Deze scheuren vertegenwoordigen de groeiende desillusie met traditionele sociale mediaplatforms en de dringende behoefte aan alternatieve ruimtes voor online interactie.

Dit is belangrijk omdat sociale mediaplatforms inmiddels integrale onderdelen van de moderne samenleving zijn geworden, die de publieke discussie beïnvloeden, politieke meningen vormen en de geestelijke gezondheid beïnvloeden. De ongecontroleerde verspreiding van schadelijke inhoud vormt een bedreiging voor de democratie en sociale cohesie, waardoor het noodzakelijk is om de onderliggende problemen van sociale mediaplatforms aan te pakken.

Op zoek naar nieuwe plekken om verhalen uit te wisselen

Als reactie op deze uitdagingen zoeken mensen steeds vaker alternatieve platforms op waar ze verhalen kunnen uitwisselen en contact kunnen leggen met anderen zonder te worden onderworpen aan hetzelfde niveau van manipulatie en schade. Deze platforms geven prioriteit aan privacy, betekenisvolle interacties en gemeenschapsvorming boven statistieken over betrokkenheid en stijgende advertentie-inkomsten.
Enkele van de nieuwe populaire plekken waar mensen samenkomen om verhalen uit te wisselen zijn:

Berichten-apps:
Platforms zoals WhatsApp, Signal https://signal.org/ en Telegram https://telegram.org/ bieden privé, versleutelde berichtenfuncties waarmee gebruikers contact kunnen leggen met vrienden en familie zonder de kritiek van algoritmen of de verspreiding van schadelijke inhoud. Telegram en Signal zijn als reactie op META’s overheersende positie op de markt gekomen.
Niche gemeenschappen:
Online forums en op gemeenschap gebaseerde platforms zoals Reddit https://www.reddit.com/?rdt=59952 , Discord https://discord.com/ en Clubhouse https://www.clubhouse.com/ bieden ruimtes voor gelijkgestemde individuen om samen te komen en specifieke interesses of onderwerpen te bespreken in een meer gecontroleerde omgeving.
Op abonnement gebaseerde platforms:
Platforms zoals Patreon https://www.patreon.com/nl-NL en Substack https://substack.com/ stellen makers in staat om hun inhoud rechtstreeks bijvan hun publiek ten gelde te maken, waardoor de afhankelijkheid van advertentie-inkomsten wordt verminderd en mogelijk meer oprechte interacties worden bevorderd.
Gedecentraliseerde sociale netwerken:
Opkomende platforms gebaseerd op blockchaintechnologie, zoals Steemit https://steemit.com/ en Minds, https://www.minds.com/ streven ernaar sociale media te decentraliseren, waardoor gebruikers meer controle krijgen over hun gegevens en inhoud en de invloed van algoritmen en gecentraliseerde autoriteiten wordt verminderd.

Het 20-jarig jubileum van Facebook markeert een kritiek moment om na te denken over de impact en toekomst van sociale media op de samenleving. Naarmate de zorgen over de verspreiding van schadelijke inhoud en de erosie van betekenisvolle interacties blijven groeien, zoeken mensen steeds vaker naar alternatieve platforms die privacy, authenticiteit en gemeenschapsvorming prioriteren. Het is essentieel dat beleidsmakers, techbedrijven en gebruikers samenwerken om deze uitdagingen aan te pakken en te streven naar een veiligere en verantwoorde digitale omgeving.

Peter van Gorsel

Ticketverkoop is begonnen

05/02/202405/02/2024 / voginip / Leave a comment

Het programma voor de 12^de VOGIN-IP-lezing is klaar. Hoewel we nog niet van alle sprekers definitieve teksten over hun lezingen hebben ontvangen, zijn die lezingen wel alle acht al ingevuld. Van alle tien onze workshops hebben we de beschrijvingen wel al binnen. De ticketverkoop kan vandaag dus beginnen.
Voor deelname op 18 april hoef je niet bij de loketten hierboven aan te sluiten; je kunt je gewoon online aanmelden. En wacht daar ook niet te lang mee, want onze speciale vroegboekkorting geldt maar tot en met 29 februari. Bovendien plegen onze workshops snel vol te lopen.

Het programma vordert

21/01/2024 / voginip / Leave a comment

Met nog drie maanden te gaan begint het programma voor de 12de VOGIN-IP-lezing al aardig vorm te krijgen. Van de acht lezingen waarvoor het programma ruimte biedt (de twee keynotes meegerekend), hebben we er intussen al zeven kunnen vastleggen. Wie nieuwsgierig is wat hij/zij op 18 april voorgezet krijgt, moet nog even geduld hebben. We willen ook het laatste gaatje gevuld hebben, voordat we het programma aan de grote klok hangen. Wel kunnen we nu al verklappen dat het programma natuurlijk weer interessant zal worden.

En dan zijn er ook altijd nog de workshops. Die zitten in een wat minder rigide schema, zodat we de vrijheid hebben daar naar believen nog wat toe te voegen.
Op dit moment zijn er daarvan (ook) al zeven vastgelegd. Maar we verwachten dat tegen de tijd dat u kunt aanmelden uit wel meer dan die zeven gekozen kan worden. Het duurt dan ook niet al te lang meer voordat we de inschrijving kunnen openen, wanneer het hele programma bekend is. Dan breekt weer een periode van keuzestress aan, als u bij het aanmelden uw keuze moet maken tussen al die razend interessante lezingen en workshops.

Voetafdrukken van ChatGPT

23/10/202323/10/2023 / ericvogin / Leave a comment

CC:2023, Eric Sieverts; foto: Marokko 2012

Er zullen weinig informatieprofessionals zijn, die de laatste maanden het nieuws over kunstmatige intelligentie (AI) niet met belangstelling gevolgd hebben. Large Language Models, generatieve AI en in het bijzonder OpenAI’s programma ChatGPT en Google-applicatie Bard hebben de talige kant van AI het afgelopen jaar een enorme boost gegeven. Voor allerlei toepassingen blijken die systemen verbazingwekkende resultaten op te leveren.

Aan de negatieve kanten van deze toepassingen wordt ook wel regelmatig aandacht besteed, zoals aan de vervuiling van het informatieaanbod met zogenaamde “hallucinaties” van ChatGPT en met domweg foute antwoorden. Een vervuiling die gewone zoekmachines dan ook weer als zodanig moeten onderkennen. Een negatief aspect waarop in het nieuws wat minder nadruk wordt gelegd, is de ecologische voetafdruk van deze technieken. Die is namelijk beslist niet verwaarloosbaar. Zowel het vooraf trainen van de gebruikte taalmodellen als het verwerken van elk request dat op dergelijke systemen wordt losgelaten, doet een enorm beroep op processor-capaciteit. Voor de servers waarop dit soort systemen draaien moet daarom al extreme koeling worden toegepast.

Aan een recent onderzoek van Kasper Groes Albin Ludvigsen, een Deense data scientist, ontlenen we hier wat gegevens over de CO2 uitstoot die met dat energiegebruik gepaard gaat.

“Training OpenAI’s GPT-4 model may have emitted upwards of 15,000 tons CO2e, according to my estimates that are based on leaked data.”
“In comparison, it’s estimated that training GPT-3 [de vorige versie] emitted 552 tons CO2e.”
“15,000 tons is roughly the same as the annual emissions of 938 Americans.”

Een andere bron van informatie over het energiegebruik van dit soort generatieve AI biedt Columbia University in AI’s Growing Carbon Footprint. Zij schrijven:

“To process and analyze the vast amounts of data, large language models need tens of thousands of advanced high-performance chips for training and, once trained, for making predictions about new data and responding to queries.”
“In 2018, a large language model had 100 million parameters. GPT-2, launched in 2019, had 1.5 billion parameters; GPT-3 at 100 times larger, had 175 billion parameters; no one knows how large GPT-4 is. Google’s PaLM large language model, which is much more powerful than Bard, had 540 billion parameters.”

Zij citeren ook een andere recente studie die berekende dat het trainen van GPT-3 (de vorige versie dus nog, met het taalmodel met 175 miljard parameters) 1287 MWh aan electriciteit gebruikte, wat resulteerde in emissies van 502 ton CO2, het equivalent van een jaar lang rijden met 112 benzineauto’s. Volgens de cijfers uit de Deense studie zou dat voor GPT-4 dus nog eens bijna 30x zoveel kunnen zijn.

En dat is dan alleen nog het trainen. Google schatte dat van de totale energie die in AI gebruikt wordt, maar 40% op rekening komt van het trainen en 60% gebruikt wordt voor “inference”, het uit taalmodellen afleiden van antwoorden en het genereren van de tekst van reacties op vragen en opdrachten van gebruikers. Het verwerken van een enkele vraag vergt natuurlijk veel en veel minder energie dan zo’n trainingssessie. Ook al moet het model frequent hertraind worden, staat dat niet in verhouding tot het zeer vele malen grotere aantal te beantwoorden vragen. Het genereren van zulke antwoorden verbruikt ook wel 100 keer zoveel energie als het gewoon beantwoorden van een zoekvraag met Google. Bovendien heeft ChatGPT intussen al meer dan 200 miljoen actieve gebruikers die een tijdlang heel veel niet zo serieuze test- en fun-requests op het systeem hebben afgevuurd. Hoewel ChatGPT verreweg het bekendste systeem voor generatieve AI is, zijn er intussen nog veel meer van dergelijke systemen actief, die ook allemaal energie verstoken.

Nu generatieve AI hard op weg lijkt te zijn om als energieverspiller de plaats over te nemen van een vorige notoire verspiller als blockchain, is energieverbruik dus wel een dingetje om bij stil te staan, voordat we voor elke kleinigheid van generatieve AI gebruik gaan maken. Als we cijfers over het maandelijks aantal ChatGPT gebruikers mogen geloven, die Nerdynav vorige week publiceerde, schijnt de grootste hype overigens alweer een beetje voorbij te zijn. Na een piek in april lijkt het gebruik intussen al aardig te stabiliseren.
from: https://nerdynav.com/chatgpt-statistics/

Eric Sieverts

Wet digitale overheid

11/10/2023 / pgorsel / Leave a comment

De overheid gaat via de Wet digitale overheid (Wdo) de digitale dienstverlening verbeteren en moderniseren. Deze wet is bedoeld om de toegankelijkheid, betrouwbaarheid en veiligheid van digitale overheidsdiensten te waarborgen en om de interactie tussen burgers, bedrijven en de overheid te vereenvoudigen. Op 21 maart van dit jaar heeft de Eerste Kamer het wetsvoorstel digitale overheid aangenomen. De Wdo wordt vanaf 1 juli 2023 in fases ingevoerd. Ook voor de informatieprofessional is dit een belangrijke ontwikkeling, omdat de Wdo consequenties heeft voor de toegankelijkheid van informatie van overheid en semioverheid.

Wat hieraan vooraf ging – identiteit en access
De ontwikkeling van Identity and Access Management (IAM) blijft evolueren omdat organisaties blijvend nieuwe uitdagingen in de digitale wereld het hoofd moeten bieden, waaronder de behoefte aan verbeterde gebruikerservaringen, hacking, betere beveiliging tegen geavanceerde bedreigingen en naleving van veranderende regelgeving. De ontwikkeling van IAM is beïnvloed door een toenemende hoeveelheid compliance en privacy regelgeving voor gegevensbescherming, zoals de AVG en de California Consumer Privacy Act (CCPA), die van organisaties eisen dat ze sterke toegangscontrole- en maatregelen voor gegevensbescherming hebben. Naarmate de technologie vordert, zal IAM waarschijnlijk meer geavanceerde functies integreren zoals Kunstmatige Intelligentie (AI) en Machine Learning (ML) voor bedreigingsdetectie en adaptieve toegangscontrole.

De ontwikkeling van Identity and Access Management (IAM), is van belang in het kader van cybersecurity en toegangscontrole. IAM is het raamwerk dat organisaties gebruiken om ervoor te zorgen dat de juiste personen onder de juiste voorwaarden toegang hebben tot de juiste resources en data. Deze systemen zijn ontworpen om gebruikersidentiteiten te beheren, toegang tot systemen en gegevens te controleren en beveiligingsbeleid af te dwingen. Natuurlijk bestaat het concept van identiteits- en toegangsbeheer al eeuwenlang in verschillende vormen – denk aan sleutels, badges en persoonlijke identificatie via ID-kaart of paspoort – maar identiteit en veiligheid zaten zo niet in het basisontwerp van het internet. Zeker toen het grote publiek toegang tot het WWW kreeg.

Authenticatie en access control
Door de snelle opkomst van het internet en met name aangejaagd door de opkomst van personal computers en netwerken werd het digitale beheer van de identiteit belangrijk. We kennen allemaal computersystemen met ‘eenvoudige’ authenticatiemechanismen zoals gebruikersnamen en wachtwoorden. In veel gevallen gebruiken we dit nog steeds op dagelijkse basis. Deze systemen blijken echter vaak onvoldoende voor robuuste beveiliging. Zeker nadat de eerste hackers aan de digitale horizon waren verschenen. En dat laatste is er zeker niet minder op geworden. Het is moeilijk vast te stellen wie de eerste hacker was doordat de precieze definitie van een hacker onduidelijk is. Maar een van de eerste hackers was zeker de Amerikaanse computerprogrammeur John Draper – bijgenaamd Captain Crunch. Hij hackte als eerste een van de grootste computernetwerken die begin jaren 1970 publiek toegankelijk waren: het telefoonnet.

De digitale industrie zat niet stil en de oplossingen volgen elkaar in rap tempo op. In de jaren ’70 en ’80 van de vorige eeuw werd het concept van Role-Based Access Control (RBAC) geïntroduceerd. RBAC koppelt machtigingen aan rollen, waardoor het gemakkelijker wordt om toegang voor grote groepen gebruikers te beheren. In de jaren ’80 werden het Lightweight Directory Access Protocol (LDAP) en de X.509-standaard voor digitale certificaten ontwikkeld. Deze standaarden hielpen bij het beheren en verifiëren van gebruikers in genetwerkte omgevingen. In de jaren ’90 en 2000 begonnen commerciële IAM-oplossingen op te komen. Deze systemen boden centraal gebruikersbeheer, single sign-on (SSO) en meer geavanceerde authenticatie methoden zoals biometrie en smartcards. Met de opkomst van cloud computing in de jaren ’10 evolueerde IAM naar cloudgebaseerde identiteits- en toegangsbeheeroplossingen. Bedrijven zoals Amazon, Google en Microsoft bieden IAM-diensten aan voor hun cloud platforms.

Naarmate mobiele apparaten alomtegenwoordig werden, begonnen IAM-systemen mobiele authenticatiemethoden te integreren. Multi-factor authenticatie (MFA), waarbij gebruikers meerdere vormen van verificatie moeten verstrekken, werd steeds vaker toegepast voor verbeterde beveiliging. Identiteitsfederatieprotocollen zoals SAML en OAuth werden essentieel om SSO mogelijkheden te bieden voor verschillende toepassingen en diensten, zowel lokaal als in de cloud. In recente jaren heeft het Zero Trust-beveiligingsmodel aan populariteit gewonnen. Het gaat ervan uit dat niemand, zowel binnen als buiten de organisatie, standaard moet worden vertrouwd. IAM speelt een cruciale rol bij het implementeren van de principes van Zero Trust. Met Continue Authenticatie beweegt IAM naar continue authenticatiemethoden, die het gebruikersgedrag bewaken en de toegang aanpassen op basis van voortdurende risicobeoordelingen.

Hoe de overheid dit oppakt
De overheid wil aansluiten bij deze ontwikkelingen en neemt via de Wet digitale overheid (Wdo) stappen om de toegankelijkheid, betrouwbaarheid en veiligheid van digitale overheidsdiensten te waarborgen en om de interactie tussen burgers, bedrijven en de overheid te vereenvoudigen. De Wdo die per 1 juli 2023 gefaseerd in werking is gegaan, regelt de toegang van burgers, ondernemingen en rechtspersonen tot online diensten van publieke dienstverleners. Enkele belangrijke aspecten en consequenties van de Wdo zijn:

Toegankelijkheid:
De wet stelt eisen aan de toegankelijkheid van digitale overheidsdiensten. Dit betekent dat deze diensten voor iedereen, inclusief mensen met een beperking, goed bruikbaar moeten zijn.
Basisregistraties:
De Wdo voorziet in de oprichting van basisregistraties. Hierin worden gegevens opgeslagen die door de overheid gebruikt worden, zoals persoonsgegevens en bedrijfsgegevens. Het doel is om gegevens slechts één keer vast te leggen en vervolgens te delen tussen overheidsorganisaties, zodat burgers en bedrijven niet telkens dezelfde informatie hoeven te verstrekken.
DigiD:
De wet regelt het gebruik van DigiD, een inlogmiddel waarmee burgers en bedrijven zich online kunnen identificeren bij de overheid. Hierdoor kunnen ze bijvoorbeeld belastingaangifte doen of hun zorgverzekering regelen.
Veiligheid en privacy:
De Wdo bevat bepalingen die de veiligheid en privacy van digitale gegevens moeten waarborgen. Overheidsorganisaties moeten passende maatregelen nemen om persoonlijke gegevens te beschermen.
Meldplicht datalekken:
De wet verplicht overheidsorganisaties om datalekken direct te melden bij de Autoriteit Persoonsgegevens en, in sommige gevallen, bij de betrokkenen. Dit draagt bij aan transparantie en helpt bij het voorkomen van datalekken.
Digitale post:
De overheid is verplicht om bepaalde post digitaal te versturen. Dit heeft als doel om de communicatie efficiënter te maken en papiergebruik te verminderen.
Verplicht gebruik standaarden:
De Wdo schrijft voor dat overheidsorganisaties standaarden moeten gebruiken voor de uitwisseling van gegevens en informatie. Dit moet de interoperabiliteit tussen systemen verbeteren.
Strafmaatregelen:
De wet voorziet in sancties voor overheidsorganisaties die niet voldoen aan de gestelde eisen en verplichtingen.

Consequenties van de Wdo
De concrete consequenties van de Wdo kunnen variëren, afhankelijk van de specifieke situatie en de mate waarin overheidsorganisaties aan de wet voldoen. Over het algemeen beoogt de wet de digitale dienstverlening van de overheid efficiënter, toegankelijker en veiliger te maken voor burgers en bedrijven. Voor burgers en bedrijven zou de wet idealiter moeten resulteren in een verbeterde digitale ervaring bij het interageren met de overheid en in meer mogelijkheden voor digitale zelfservice. Het niet voldoen aan de wet kan leiden tot boetes en juridische consequenties voor overheidsinstanties.

Voor welke publieke dienstverleners geldt deze wet? De wet bepaalt welke publieke dienstverlener onder de reikwijdte van deze wet valt. Dat zijn:

a-bestuursorgaan
- Een a-bestuursorgaan is ingesteld op basis van publiekrecht. Het gaat om organen van de Staat, provincies en gemeenten, maar ook om onder meer DUO, de Belastingdienst en zelfstandige bestuursorganen zoals de Sociale Verzekeringsbank, de KVK, de RDW en de Huurcommissie.
Rechterlijke instanties
- Rechterlijke instanties zijn onafhankelijke en bij wet ingestelde organen die met rechtspraak zijn belast. Het gaat om rechtbanken, gerechtshoven, de Hoge Raad, de Afdeling bestuursrechtspraak van de Raad van State, het College van Beroep voor het bedrijfsleven en de Centrale Raad van Beroep.
Aangewezen organisaties
- Zorgverleners, indicatieorganen of zorgverzekeraars die op basis van de Wet aanvullende bepalingen verwerking persoonsgegevens in de zorg, burgerservicenummers (bsn’s) verwerken.
- Pensioenuitvoerders volgens artikel 1 van de Pensioenwet en artikel 1 van de Wet verplichte beroepspensioenregeling.
- Universiteiten of hbo-instellingen volgens artikel 1.1 onder g van de Wet op het hoger onderwijs en wetenschappelijk onderzoek.

De wet verplicht publieke dienstverleners om per dienst te bepalen welk betrouwbaarheidsniveau vereist is voor toegang. Zij accepteren bij diensten op betrouwbaarheidsniveau ‘substantieel’ en ‘hoog’ alle door de overheid toegelaten inlogmiddelen met een gelijk of een hoger betrouwbaarheidsniveau dan nodig is voor de dienst. De wet bevat verschillende bepalingen en verplichtingen om deze doelstellingen te bereiken. De verplichtingen rondom standaarden voor veiligheid zijn direct per 1 juli ingegaan. Zo wordt de HTTPS-standaard verplicht voor alle publiek toegankelijke overheidswebsites en webapplicaties. Deze standaard – ook wel bekend als ‘het slotje’ in de adresbalk van de url – zorgt ervoor dat de verbinding tussen de browser van de bezoeker en de website van de overheidsorganisatie goed beveiligd is. Dit voorkomt dat criminelen privégegevens van de bezoeker kunnen afluisteren of opgevraagde informatie kunnen manipuleren. In aanvulling op HTTPS moeten overheidsorganisaties ook de HSTS-standaard gebruiken. Dat zorgt ervoor dat browsers na een eerste websitebezoek direct via HTTPS met de website verbinden. Daarnaast moet de HTTPS-configuratie voldoen aan de TLS- en Webapplicatie-richtlijnen van het Nationaal Cyber Security Centrum (NCSC).

Regelhulp betrouwbaarheidsniveaus
Het ministerie van BZK ontwikkelde samen met RVO (Rijksdienst voor Ondernemend Nederland) een Regelhulp betrouwbaarheidsniveaus op basis van de conceptregeling betrouwbaarheidsniveaus. Deze regelhulp helpt publieke dienstverleners bij het kiezen van het juiste betrouwbaarheidsniveau. Na inwerkingtreding van de wet, moeten publieke dienstverleners zorgen dat burgers bij hun diensten op betrouwbaarheidsniveau substantieel en hoog in kunnen loggen met de volgende middelen:

Publieke inlogmiddelen
DigiD
Erkende private inlogmiddelen
Genotificeerde inlogmiddelen van andere EU-lidstaten

Er zijn op dit moment nog geen private inlogmiddelen erkend.
Bedrijfs- en organisatiemiddelen die gedurende een overgangsperiode van 18 maanden geacht worden erkend te zijn:

eHerkenning
Erkende bedrijfs- en organisatiemiddelen
Genotificeerde inlogmiddelen van andere EU-lidstaten

Er zijn op dit moment nog geen erkende bedrijfs- en organisatiemiddelen.

Publieke dienstverleners bepalen per online dienst op welk betrouwbaarheidsniveau gebruikers moeten inloggen, op basis van de conceptregeling betrouwbaarheidsniveaus. Daarin zijn regels en criteria opgenomen die leiden tot een keuze voor een betrouwbaarheidsniveau dat past bij de risico’s die aan de dienst zijn verbonden. Ook accepteren zij machtigingen bij deze diensten.

Nu de wet in werking is getreden moeten publieke dienstverleners machtigingen accepteren bij diensten op betrouwbaarheidsniveau substantieel en hoog. Machtigingen zijn elektronische verklaringen waaruit blijkt dat een natuurlijke persoon, onderneming of rechtspersoon gemachtigd is om namens een andere natuurlijke persoon, onderneming of rechtspersoon op te treden bij toegang tot de dienst. Het uitgangspunt is dat het betrouwbaarheidsniveau waarop de machtiging is geregistreerd tenminste gelijk is aan het betrouwbaarheidsniveau dat is vereist voor toegang tot de dienst. De Wdo vraagt van publieke dienstverleners om per dienst te herijken en te bepalen welk betrouwbaarheidsniveau vereist is voor toegang.

Nu maar afwachten hoe het met de implementatie en vooral ook de acceptatie van de in de wet vastgelegde eisen gaat. Het oogmerk van betere toegankelijkheid, betrouwbaarheid en veiligheid van digitale diensten zou elke informatieprofessional in elk geval wel moeten aanspreken.

Peter van Gorsel

De datum is geprikt

26/05/2023 / voginip / Leave a comment

Save the date: voor de volgende VOGIN-IP-lezing hebben we 18 april als datum geprikt. Dat is ongeveer een maand later dan gebruikelijk. Reden daarvoor is een verbouwing bij de OBA, waardoor we daar niet eerder terecht kunnen. Maar we gaan ervan uit dat dat u niet zal weerhouden ons weer te bezoeken. We gaan intussen hard aan de slag om u ook deze 12^de keer weer een uitdagend programma te bieden.

Vandaag hebben we ook een nieuwsbrief uitgestuurd, waarin we deze datum aankondigden. Als u die gemist hebt, kunt u hem [HIER] nog lezen. Behalve die datum, vindt u daarin ook nog een paar nagekomen nieuwtjes over het vorige evenement, die we tot dusverre verzuimd hadden hier te melden.

Deelnemers hebben gesproken

03/04/202303/04/2023 / voginip / Leave a comment

Sneller dan ooit is er gereageerd op ons verzoek de evaluatie van de VOGIN-IP-lezing in te vullen. In iets meer dan een week waren al meer dan 90 reacties binnengekomen. En kennelijk was iedereen ook zeer geïnspireerd, want op de open vragen hadden we nooit eerder zo veel en zulke uitgebreide reacties binnengekregen. Dat had als resultaat dat er uiteindelijk een rapport van 24 bladzijden ligt; een heleboel huiswerk voor het VOGIN-IP-team dat zorgvuldig moet analyseren wat volgend jaar beter kan en moet. Automatisch door het Google formulier gegenereerde grafische weergaven, zoals de rondjes hierboven, vormen nog maar een heel klein deel van die 24 bladzijden.

In de rondjes hierboven zie je antwoorden op drie van onze vragen. De derde vraag hadden we dit jaar toegevoegd, omdat we merkten dat lang niet alle deelnemers hun deelnamecertificaat meenemen. De uitkomst daarvan maakt in elk geval dat we ons nader zullen beraden of we nog met die certificaten door moeten gaan.

De cijfers die jullie voor de catering gaven – met een gemiddelde ruim boven de 8 – stemmen ons in eerste instantie redelijk tevreden. Maar als we naar de open opmerkingen bij deze vraag kijken, zien we ook wel heel uiteenlopende en soms tegengestelde meningen. Een kleine selectie:

Prima koffie en theevoorziening, goede lunch en borrel na afloop.
Thee en koffie was niet voldoende.
Ruim voldoende keuze en goede kwaliteit.
In koffiepauze waren de koeken op. Koffie was heel erg slap.
Was prima in orde.
Ook de muffin bij de thee was op toen ik arriveerde.
Was heerlijk en zag er mooi uit.
Alles was op toen we naar boven kwamen.
De lunch was overigens (zoals ieder jaar) uitstekend.
Was het in voorgaande jaren beter?
Heel goed en gevarieerd.

Heel uiteenlopend zijn ook de meningen over de ruimte in de OBA waar we het congres organiseren. Sommigen zijn louter positief, anderen ventileren bezwaren tegen de beperkte (en gehorige) ruimte buiten de theaterzaal. Jammer genoeg hebben we op dat laatste natuurlijk geen invloed, tenzij we uitwijken naar een andere zaalruimte, waar dan op andere punten misschien weer allerlei bezwaren aan kleven.

Interessanter zijn natuurlijk de oordelen die jullie over lezingen en workshops gaven. Ook dit jaar vergelijken we weer wat cijfers met die van voorgaande jaren.

De keynote van Elisabeth Bik scoorde met een gemiddelde van 8,57 maar 0,1 lager dan de hoogste ooit (de keynote van Frédérik Ruys over datavisualisatie in 2019). En het gemiddelde van beide keynotes werd ook alleen maar overtroffen door de gemiddelden van 2019 en 2017.
Het gemiddelde van de overige lezingen werd niet door andere jaren overtroffen; met 7,9 was het vrijwel gelijk aan de gemiddelden van de afgelopen twee jaar.
Het hoogst scoorde dit jaar de lezing van Miet Claes; alleen vorig jaar was er een lezing die nog wat hoger scoorde. Dat was toen overigens ook al van een Belgische spreker – Brecht Castel!

Tot slot natuurlijk ook nog iets over de workshops. Met een gemiddeld cijfer van 9,1 sprong de workshop over geolocatie van Bellingcat-docent Annique Mossou er dit jaar duidelijk uit. De enige keer dat een workshop al eens hoger gewaardeerd werd – vorig jaar – telt niet serieus mee, want dat cijfer was gebaseerd op de respons van maar twee (!) deelnemers, terwijl het cijfer van Annique een gemiddelde van twaalf respondenten was. Het is wel aardig om dit summiere overzicht nog even te besluiten met een paar van de (louter enthousiaste) opmerkingen die deelnemers over deze workshop maakten.

Geweldige docent, leuke en leerzame oefeningen.
Goed ingeperkt op één onderwerp (geolocatie) zodat dit goed uitgewerkt kon worden.
Leuke praktijkvoorbeelden om uit te proberen. De tijd vloog voorbij.
Zou dit wel als een langere workshop willen volgen
Top presentatie, lekker interactief, veel geleerd!!
Inspirerend om iemand van Bellingcat ‘in het echt’ te mogen meemaken

Hopelijk inspireren deze uitspraken nieuwe deelnemers om volgend jaar ook een workshop te komen volgen. Want bij de andere workshop waren nog wel meer toppers, waarvan er vijf maar net onder de 9 scoorden.

Elisabeth’s podcast

30/03/202331/03/2023 / voginip / Leave a comment

Op 16 maart is op een rustig plekje in de OBA ook nog een podcast met keynote spreker Elisabeth Bik opgenomen. Beluisteren van die podcast is een “must” voor wie 16 maart niet bij haar lezing kon zijn (en trouwens ook voor een ieder die daar wel bij was).
In de rubriek “de VOGIN Statafel” voerden hosts Bart van der Meij en Leon Heuts een inspirerend gesprek van ruim 40 minuten met Elisabeth Bik over haar talent om wetenschappelijke fraude op te sporen, over het belang van zuiverheid in de wetenschap en over de perverse prikkels in het wetenschappelijk bedrijf. Met tips & trucs waar je zelf op kunt letten als je een wetenschappelijke publicatie leest.

16 maart

18/03/202328/03/2023 / voginip / Leave a comment

Afgelopen donderdag waren bijna 250 vakgenoten aanwezig bij een – in onze ogen succesvolle – 11^de editie van de VOGIN-IP-lezing. Daarmee waren we weer vrijwel terug op de pre-corona aantallen van vroeger. Zoals je hierboven kunt zien, was de zaal vlak voor de plenaire opening dan ook al aardig vol gelopen.

Als organisatoren waren we zelf weer aangenaam verrast door de kwaliteit van veel lezingen. Maar over de kwaliteit van het gebodene – zowel lezingen als workshops – mogen we natuurlijk pas objectief iets zeggen als voldoende deelnemers ons evaluatieformulier hebben ingevuld. Afgaand op de reacties van bezoekers die we donderdag in de wandelgangen spraken, mogen we nu toch al voorzichtig de gemeenplaats uitspreken dat “de thuisblijvers echt wat gemist hebben”. Het organiserend en uitvoerend team op de foto hieronder, ziet er aan het eind van de dag dan ook tevreden uit.

De enige echte tegenvaller was dat onze intussen vaste factchecking workshopdocent Alexander Pleijter woensdag plotseling ziek geworden was. Op deze wel heel korte termijn hadden gezamenlijke pogingen om nog een invaller voor deze volgeboekte workshop te vinden helaas geen succes meer. We hebben de bijna 40 gedupeerde deelnemers vervolgens wel zo goed mogelijk bij andere programmaonderdelen ondergebracht. Niettemin onze (en Alexander’s) excuses voor deze tegenvaller.

De presentaties van de sprekers staan intussen al op deze website. Ook hebben we de donderdag verstuurde tweets al verzameld. Vooral twee van onze buitenlandse sprekers – Elisabeth Bik en Katariina Kari – zijn daar heel actief in geweest. Een overzicht van wat we allemaal al hebben met betrekking tot 16 maart en van wat er nog komt, verzamelen we op een terugblikpagina. Daar staan nu ook al een paar van Twitter geplukte foto’s. Maar het wachten is natuurlijk op de officiële congresfoto’s die we zo spoedig mogelijk proberen te publiceren.
[Note: de foto’s zijn intussen 28-03-2023 gepubliceerd]