25 jaar Google

16/02/202422/02/2024 / ericvogin / Leave a comment

Eind vorig jaar vierde Google zijn 25ste verjaardag. In het kader van de VOGIN-IP-lezing die immers “zoeken & vinden” als thema heeft, willen we daar graag nog even bij stilstaan. In IP hebben we dat destijds ook gedaan bij 15 jaar Google.

De traditie wil dat Google, zoals veel technologiebedrijven, in een garage is ontstaan. Toch is dat niet helemaal waar, want Larry Page en Sergey Brin hadden in 1998 hun nieuwe zoekmachine ontwikkeld als onderdeel van hun studie aan Stanford University. Het allereerste URL was dan ook google.stanford.edu.
De 'garage van Google' in Menlo Park Pas toen Google echt een product werd, kwam die garage in beeld. Toen hadden ze intussen al 25 miljoen pagina’s geïndexeerd. Dat was een eerste stapje op weg naar Google’s oorspronkelijke ambitie om alle kennis van deze wereld vindbaar te willen maken. Bij het 15-jarig bestaan in 2013 was die ambitie echter al aardig verwaterd geraakt; de zoekmachine was intussen alleen nog maar een succesvol hulpmiddel om advertenties te verkopen.

Afbeelding uit 'Search Engine Watch' 2001 Van de minstens vijftien zoekmachines waaraan IP in voorgaande jaren al aandacht had besteed, was op dat moment naast Google alleen Bing nog overgebleven.
Overigens had Google zelf pas eind 2000 de op dat moment nog aanwezige concurrentie in grootte gepasseerd. En daarna heeft het nog tot circa 2007 geduurd voordat Google de andere definitief achter zich gelaten had.
Sinds de eerste echte zoekmachine (Lycos) rond 1993 verdubbelde 15 jaar lang ongeveer ieder jaar het aantal webpagina’s in de op dat moment grootste zoekmachine.
De race wie de grootste was, verloor trouwens al steeds meer aan betekenis. Het werd moeilijker om te definiëren wat daarvoor nog als afzonderlijke webpagina’s geteld moesten worden. Is elke tweet een webpagina? Heb je te maken met een andere pagina als automatisch een iets ander sessienummer in een URL wordt verwerkt of als één van de 20 blokjes informatie op een pagina verschilt van die in een vorige versie? Zijn gepersonaliseerde pagina’s die verschillende gebruikers op dezelfde site te zien krijgen, verschillende pagina’s? Daarnaast zijn de “items” die je op internet vindt steeds onvergelijkbaarder. Tellen miljarden tweets van 140 tekens bij het vergelijken van groottes even zwaar mee als PDF’s van 140 bladzijden? Vandaar dat de grafiek hierboven in een “pluim” uitloopt, die bij 2013 zelfs helemaal ophoudt.

Waarom zocht Google zo goed?

Belangrijk voor de snelle acceptatie van Google was de goede relevantie-ordening die het geïntroduceerd had. Die ranking berustte voor een belangrijk deel op een soort citatie-algoritme, de Pagerank. Hoe meer backlinks er waren vanaf andere pagina’s, en hoe hogere Pagerank die pagina’s zelf hadden, hoe beter. Daarbij heeft de “page” in “Pagerank” niet alleen betrekking op die “pagina’s”, maar is het ook een toespeling op de achternaam van Larry Page. De Pagerank is heel lang de basis van Google’s ranking gebleven (en voor aanbieders van websites de na te streven gouden standaard om hun vindbaarheid te garanderen). Bovendien was Google groot – en dus schijnbaar volledig – en had het zo’n eenvoudig “kaal” gebruikersinterface, vergeleken met andere zoeksystemen.

Daarnaast is Google in de loop der tijd steeds meer aan vraagverbetering gaan doen. Synoniemen en spellingsvarianten van gebruikte zoektermen werden automatisch ook in zoekacties meegenomen. Dit zijn voorbeelden van de semantische zoektechnieken die Google meer en meer introduceerde. Daarbij ging het meer om de betekenis van termen dan om de precieze reeks letters die als zoekvraag was ingetikt, onder het motto ‘not STRINGS but THINGS’. Bovendien speelde de ingeschatte intentie van de zoeker een steeds belangrijker rol. Zo werd pure Pagerank allengs van minder belang voor de volgorde van presenteren van de zoekresultaten en zelfs voor wat wel of niet getoond werd. Kennis over wat een gebruiker eerder gezocht en bekeken had, werd zeker zo belangrijk als de op backlinks gebaseerde Pagerank. Voor wie wilde weten welke factoren toen allemaal meespeelden. publiceerde wijlen Bill Slawski in 2018 een uitputtend overzicht van de “Google Ranking Signals”.
Belangrijk hulpmiddel bij veel van de nieuwe technieken werd de door Google opgezette Knowledge Graph, waarin semantische relaties tussen meer dan een miljard begrippen waren vastgelegd. Op basis van zoektermen werden daaruit zogenaamde “caroussels” en “knowledge cards” met achtergrondinformatie gegenereerd, die naast of tussen de gewone zoekresultaten werden getoond. Aanvankelijk werd het aan de gebruiker overgelaten welke keuze die wilde maken uit de daarmee aangereikte begrippen om zoekacties uit te breiden of in te perken. Belangrijk hierbij was ook de toepassing van Google’s RankBrain machine learning techniek om te herkennen waar zowel zoekvragen als gevonden webpagina’s “echt” over gaan. Allengs liet Google ook steeds meer automatisch gebeuren. Al die automatische aanpassingen van zoekvragen ontlokten bij professionele zoekers soms wel de verzuchting dat Google zich niet met hun vraag moest bemoeien, want dat ze zelf het beste wisten wat ze zochten.

Veel verdergaande mogelijkheden dan alleen maar semantische functionaliteit werden mogelijk met de recente opkomst van generatieve kunstmatige intelligentie op basis van zogenaamde “Large Language Models”. Google heeft bij die ontwikkeling aangehaakt door, als concurrent voor het alom bewierookte ChatGPT, ook een eigen chatbot “Bard” te ontwikkelen. Als reactie op vragen/opdrachten geeft die niet een lijstje met “blauwe links”, maar – veel meer dan bij de eerdere semantische zoeksystemen – in keurige volzinnen geformuleerde en beargumenteerde antwoorden en eventuele aanpassingen op zoekvragen. Recent heeft Google deze chatbot de nieuwe naam “Gemini” gegeven.
In de workshop “Prompt Engineering” kunnen deelnemers op 18 april met dit systeem kennis maken en leren hoe je “prompts” (opdrachten) in een iteratief proces zodanig kunt (her)formuleren dat je betere antwoorden krijgt.
Door de hier geschetste ontwikkelingen heeft Google van een “zoekmachine” tot een “antwoordmachine” kunnen evolueren.

Nog wat extra plussen en minnen

Google biedt ook nog een heleboel tools en diensten, waarvan een deel niet rechtstreeks met zoeken en vinden te maken heeft. In de loop van de jaren zijn dat er steeds meer geworden, maar intussen zijn er ook al weer een heleboel verdwenen (waar ik straks nog op terug kom).
Een voorbeeld van een niet-zoek dienst is het “Structured data testing tool” waarmee embedded metadata in webpagina’s, zoals Schema.org markup, geanalyseerd kan worden. En een alom veel bekender voorbeeld is natuurlijk Gmail, dat Microsoft’s Hotmail al snel als favoriet gratis mailprogramma verdrongen had. Voorbeelden die wel direct met zoeken te maken hebben, zijn enerzijds functies die we verder vooral van betaalde zoeksystemen kennen, zoals het gebruik van zoekvelden (filetype:, site:, inurl:, intitle: e.d.). Anderzijds zijn er allerlei aparte zoeksystemen voor specifieke soorten materiaal, zoals wetenschappelijke publicaties (Google Scholar, dat een concurrent is voor betaalde bibliografische zoeksystemen – en waarvan het interface nogal afwijkt van Google’s andere zoekdiensten), nieuws (uit vele honderden kranten en tijdschriften wereldwijd), boeken (Google Books, met full-text doorzoekbare inhoud van gescande boeken), octrooien (Google patents), video’s (YouTube, dat elders ontwikkeld was, maar door Google is aangekocht), afbeeldingen (Google Image, dat zijn plaatjes uit webpagina’s haalt) en foto’s (Google Photos, wat vooral bedoeld is om eigen foto’s te uploaden). Al die diensten bieden hun eigen specifieke filtermogelijkheden.
Helemaal een beetje anders zijn Google Groups (waar intussen heel wat meer inzit dan alleen de klassieke nieuwsgroepdiscussies), Google Maps (dat de hele wereld in vaak hoge resolutie in kaart gebracht heeft en dat via Google streetview gecombineerd wordt met regelmatig ge-updatete foto’s vanaf “de straat”), Alerts (dat attendering op nieuw materiaal uit de meeste eerder genoemde zoeksystemen biedt), en Activity (dat de geschiedenis van je zoekactiviteiten in bijna alle Google-diensten bijhoudt, en dat de daarbij gevonden resultaten laat zien). Voor nog veel meer voorbeelden verwijs ik naar de keuzebalk die in de meeste Google-producten is op te vragen en die hier rechts naast deze tekst is afgebeeld.

En dan nog een paar van de beloofde minnen.
Ondanks de bovengenoemde extraatjes, ontbreekt toch nog veel zoekfunctionaliteit waar we in betaalde systemen wel aan gewend zijn. Zo kun je niet zoeken op metadata, kun je niet trunceren en kun je niet achteraf resultaatsets combineren. Zoeken op backlinks werkt niet meer. Zoekresultaten zijn niet reproduceerbaar en aantallen gevonden resultaten zijn niet betrouwbaar (en worden nu al helemaal niet meer getoond).
Bijzonder hinderlijk is verder nog het frequent verdwijnen van functies en diensten, zelfs als die vrij veel gebruikt werden. In de volgende paragraaf ga ik daar nog wat nader op in.

Een kerkhof van verdwenen Google-diensten

Google is altijd goed geweest in het bedenken van nieuwe functionaliteit en diensten. Alleen zijn ze vaak wat minder goed om daar voldoende publiciteit voor te maken, zodat veel ervan niet zo veel wordt gebruikt. En dat is dan weer een goede reden om een functie of dienst na een tijdje – al dan niet geruisloos – te laten verdwijnen. Zo is de afgelopen jaren een omvangrijk kerkhof met verdwenen functies, diensten en producten ontstaan. In verborgen hoekjes liggen oook nog allerlei producten die langzaam waren weggekwijnd en waarvan bijna niemand zich het bestaan meer herinnert. Maar er zijn ook volop functies en producten die door velen worden betreurd, maar die door Google meedogenloos zijn omgebracht. Een ware “graveyard of broken dreams”.
Hier een rijtje van verdwenen functies en diensten die ik zelf, soms intensief, soms incidenteel, en soms zelfs helemaal nooit gebruikt heb:
+-operator for Exact search, ~-operator for Synonym search, Translated search, Desktop search, Recipe search, Google Wave, Google Buzz, Google Reader, iGoogle, Google Directory, Google Gears, Google Notebook, Google Answers, Google Tables, Google Health, Google Toolbar, Google Pack, Google Aardvark, Google Talk, Google Labs, Google Sets, Code search, Blog search, Blogger, Sidewiki, Searchwiki, Wonderwheel, Timeline, Sites met afbeeldingen, Related Links, Knol, Image Swirl, de Google Auto, Google Glass, info-commando, (heel recent) Google Cache,…. En dan heb ik er vast nog een stel vergeten. Knap indrukwekkend. En dan somde Phil Bradley er enkele jaren geleden in zijn weblog nog tientallen meer op.

Verdwijnende zoekgoeroes

Functies en diensten zijn niet het enige dat bij Google verdwijnt. In het verleden waren er nogal wat zoekgoeroes die Google kritisch volgden, op Twitter en in hun eigen weblogs. Daar waarschuwden ze ons voor rare fouten en pitfalls die ze waren tegengekomen bij de diverse Google diensten. Maar de meeste van die goeroes doen er intussen het zwijgen toe. Gwen Harris (@websearchlady) is met pensioen en de immer kritische Phil Bradley beperkt zich tot didactische podcasts, nu ook hij met pensioen is. Greg Notess en Marydee Ojala schrijven hooguit nog wat in betaalde bladen. Henk van Ess richt zijn aandacht nu vooral op het gebruik van systemen voor generatieve AI. Van Danny Sullivan komen niet heel veel kritische geluiden meer, sinds hij, na zijn afscheid bij SearchEngineLand, bij Google zelf in dienst gekomen was. Nu pakt dat laatste soms wel goed uit, omdat zoekgebruikers via hem een laagdrempelige ingang bij Google hebben, waarlangs een overleden functie een enkele keer toch nog gereanimeerd kan worden.

Als we zien hoe Google, zelfs als we ons alleen tot zoekfuncties beperken, in 25 jaar veranderd is, dan lijkt een voorspelling hoe Google er over nog eens 25 jaar zal uitzien een kansloze uitdaging.

Eric Sieverts
Een aantal fragmenten uit deze tekst is eerder gepubliceerd in bijdragen in IP en incidenteel in andere media.

Do not use Google

24/11/201925/11/2019 / voginip / 2 Comments

In een eerdere blogpost citeerden we een blad waarin onze medeorganisator Arno Reuser geciteerd werd, dat we met Google moesten stoppen. Die opmerking van Arno was specifiek gericht op professionele zoekers. En terecht, want er is heel wat professioneel belangrijke informatie die je met Google niet kunt vinden. De meest voor de hand liggende reden daarvoor tekende het blad ook al op uit Arno’s mond: dat een heleboel serieuze informatie domweg “niet in Google zit”. Maar er is nog wel wat meer over te zeggen. Een heleboel dat wel in Google zit, vind je namelijk vaak ook niet meer. Daarbij spelen echter zaken die de gemiddelde journalistieke belangstelling wat te boven gaat. Vandaar dat ik beloofde er hier nog even op terug te komen.

Waar denk ik dan aan? De voornaamste reden is dat Google eigenlijk geen zoekmachine meer is, maar dat het een antwoordmachine is geworden. Dat houdt in dat Google probeert te begrijpen wat je eigenlijk met je zoekvraag bedoelt en daar antwoorden bij probeert te vinden. Daarbij wordt nu bijvoorbeeld BERT -Bidirectional Encoder Representations from Transformers JAWEL …..- natuurlijke taalverwerking technologie toegepast. Dat proberen te begrijpen is natuurlijk een loflijk streven, maar het betekent wel dat Google zoekvragen vaak herschrijft, waarbij met groot gemak zoekwoorden kunnen worden weggelaten of veranderd. En bij de inhoud van gevonden pagina’s wordt dat soort interpretatie ook toegepast. Zoekmachine Bing gebruikt BERT intussen trouwens ook.
Anders dan wat informatieprofessionals van zoeksystemen gewend zijn, hoeven getoonde zoekresultaten dus helemaal niet meer 1-op-1 overeen te komen met een ingetikte zoekvraag. Dat is natuurlijk prachtig voor “gewone” gebruikers, die Google als haar primaire doelgroep ziet. Die gebruikers zijn meestal alleen maar op zoek naar wat informatie over een onderwerp of een product, die nuttig en relevant is in hun eigen context en die daartoe vaak niet zulke correct geformuleerde zoekvragen formuleren. Maar voor professioneel gebruik, waar je vaak “alles” wilt hebben en waar de gebruiker al weet hoe die moet zoeken, is dat natuurlijk een ramp.

Wat dat in de praktijk inhoudt, wordt aardig geïllustreerd in een reeks tweets van @jeroenbosman eerder dit jaar. Die reeks begon met:

The @Google web search is now so limited it's useless & dangerous for serious tasks. It finds you just ~200 pages with "climate crisis": https://t.co/TSVXr7dk1g Why so few? Why these? What if one wants to check more than a few 100 pages containing a certain combination of words? pic.twitter.com/pRwBCYVHgg

— Jeroen Bosman (@jeroenbosman) July 28, 2019

Hieronder een wat geredigeerde versie van dit draadje, inclusief enkele interessante reacties daarop.

The @Google web @search is now so limited it’s useless & dangerous for serious tasks. It finds you just ~200 pages with “climate crisis”: https://www.google.com/search?q=%22climate+crisis%22 … Why so few? Why these? What if one wants to check more than a few 100 pages containing a certain combination of words?

Christian Gutknecht‏ @chgutknecht:
hm.. the results of your query looks different to me. May you have another filter still activated?

Try to view more than a few hundred… Google never showed more than 1K results but last year reduced that even further to a very problematic few hundred.
Indeed. So much for Google’s broad and deep index. Of course you can add terms and still get a few hundreds, but sometimes you do not want that. Imagine wanting to find pages mentioning Plan S | cOAlition S and open access. You will get about 25% of what’s out there…

Lena Karvovskaya‏ @LangData:
As a follow-up on Jeroen’s critical twit about relying too much upon Google searches I thought I’d share this article about the intricacies and the limits of search. https://blogs.scientificamerican.com/observations/how-to-be-a-better-web-searcher-secrets-from-google-scientists/

Thanks, useful piece. Actually I do apply those tactics, but there are cases where they cannot be used to solve your problem. Suppose you wish to find all pages/post that mention “Plan S” or “cOAlition S”. There are at least 1200 pages known to Google that contain these terms, twice even. But you can not find them in a single search. You could trace them by consecutively guessing additional words that might appear in the pages, but that will inevitably create bias and still incomplete coverage. Only current solution is the date filter.

Lena Karvovskaya‏ @LangData:
Oh I see, you want ALL the pages. That’s not what google is made to do. There are ways to get around the limits: https://developers.google.com/webmaster-tools/search-console-api-original/v3/how-tos/all-your-data people who program can probably get even more results out of it

Relatie met de VOGIN-IP-lezing? In elk geval zal Jeroen Bosman op 19 maart weer een workshop verzorgen – al zal die dan niet over Google gaan. En we proberen nog te regelen dat één van de lezingen op BERT zal ingaan.

Eric Sieverts

Arno aan het woord

10/11/201910/11/2019 / voginip / 1 Comment

“stop met Google”

Op de komende VOGIN-IP-lezing dit keer geen workshop van Arno Reuser, en hij geeft ook al geen lezing. Op 19 maart heeft hij helaas al andere verplichtingen. Dat krijg je wanneer je OSINT-goeroe wordt. Maar gelukkig draagt hij, net als voorgaande jaren, nog wel bij aan de totstandkoming van ons programma voor die dag.
Daarom besteden we in deze blog dan maar wat extra aandacht aan hem. En vooral aan de presentatie die hij 30 oktober heeft gegeven op Infosecurity.nl, een vakbeurs en congres over (o.a.) IT-security. De website van Computable besteedt uitgebreid aandacht aan die lezing. Nou klinkt het ook wel uitdagend als je beweert dat mensen beter direct kunnen stoppen met het gebruik van Google. Ook al was dat zeker niet het enige en het belangrijkste dat Arno over OSINT te berde bracht, zo’n opmerking is voor een journalist natuurlijk wel een lekkere binnenkomer. Overigens zal onderstaande quote uit het Computable-verslag voor echte informatiespecialisten en OSINT-experts (en hopelijk ook voor vaste VOGIN-IP-bezoekers) niet zo heel opzienbarend meer zijn.

“Volgens de voormalige MIVD-medewerker kunnen bedrijven en organisaties het meeste profijt hebben van hun inlichtingenwerk als ze commerciële databronnen zoals bijvoorbeeld LexisNexis (digitaal doorzoekbare mediabronnen zoals kranten en magazines) koppelen aan de info van conventionele bibliotheken en informatie die online ook buiten het world wide web beschikbaar is. ‘Dan heb je een fantastische informatiepositie.’

Maar voor een willekeurige lezer van Computable of voor bezoekers aan dat congres sloeg deze boodschap van Arno waarschijnlijk wel in. Naast de hier weergegeven overwegingen van Arno, zijn er overigens nog wel meer argumenten om niet (alleen) op Google te vertrouwen als je professioneel naar informatie op zoek bent. In een latere blogpost zullen we daar nog wel even op terugkomen.

Om de video te bekijken die Computable over Arno heeft gemaakt, hoef je overigens niet noodzakelijkerwijs via de Computable-site, want ze hebben die ook op Youtube gezet. En daardoor is hij ook hieronder rechtstreeks te bekijken en te beluisteren.

Nieuwe spreker: over Google’s spam detectie

10/02/2016 / voginip / Leave a comment

Oorspronkelijk zat in ons programma een spreker VAN Google. Altijd spannend.
Maar het was wel een marketingman, dus eigenlijk een verkoper. En kennelijk moest er elders iets verkocht worden, want hij haakte vorige week onverwacht af. Dat maakte het voor ons als organisatie nog extra spannend 😦
Maar daardoor hebben we nu eigenlijk iets veel beters weten te vinden, een spreker OVER Google, die ook nog wat van de techniek afweet.
spamdetection-2

Peter van der Graaf is gepokt en gemazeld als zoekmachine optimalisator. Hij deed dat werk al in de tijd van Lycos, AltaVista en Hotbot en kent dus alle ins en outs van hele generaties van zoekmachines. Maar, vraagt u zich misschien af, is zijn soort werk dan niet ook marketing? Zeker, maar Peter is vooral geïnteresseerd in wat Google doet om de trucs te herkennen die zijn beroepsgenoten toepassen om de webpagina’s van hun klanten kunstmatig hoog te laten scoren in Google’s ranking. Google noemt dat spam. Hoe detecteert Google nu dat soort spam. Dat te weten is uiteraard interessant voor wie aan SEO doet. Maar het is zeker zo interessant voor ons als professionele zoekers, omdat het een kijkje geeft in de ranking algoritmen die Google toepast. En dat Google tegenwoordig state-of-the-art machine learning technieken toepast om die spam te leren detecteren, maakt dat nog extra interessant. En dat is precies waar Peter van der Graaf het 3 maart over gaat hebben.