Do not use Google


In een eerdere blogpost citeerden we een blad waarin onze medeorganisator Arno Reuser geciteerd werd, dat we met Google moesten stoppen. Die opmerking van Arno was specifiek gericht op professionele zoekers. En terecht, want er is heel wat professioneel belangrijke informatie die je met Google niet kunt vinden. De meest voor de hand liggende reden daarvoor tekende het blad ook al op uit Arno’s mond: dat een heleboel serieuze informatie domweg “niet in Google zit”. Maar er is nog wel wat meer over te zeggen. Een heleboel dat wel in Google zit, vind je namelijk vaak ook niet meer. Daarbij spelen echter zaken die de gemiddelde journalistieke belangstelling wat te boven gaat. Vandaar dat ik beloofde er hier nog even op terug te komen.

Waar denk ik dan aan? De voornaamste reden is dat Google eigenlijk geen zoekmachine meer is, maar dat het een antwoordmachine is geworden. Dat houdt in dat Google probeert te begrijpen wat je eigenlijk met je zoekvraag bedoelt en daar antwoorden bij probeert te vinden. Daarbij wordt nu bijvoorbeeld BERT -Bidirectional Encoder Representations from Transformers JAWEL …..- natuurlijke taalverwerking technologie toegepast. Dat proberen te begrijpen is natuurlijk een loflijk streven, maar het betekent wel dat Google zoekvragen vaak herschrijft, waarbij met groot gemak zoekwoorden kunnen worden weggelaten of veranderd. En bij de inhoud van gevonden pagina’s wordt dat soort interpretatie ook toegepast. Zoekmachine Bing gebruikt BERT intussen trouwens ook.
Anders dan wat informatieprofessionals van zoeksystemen gewend zijn, hoeven getoonde zoekresultaten dus helemaal niet meer 1-op-1 overeen te komen met een ingetikte zoekvraag. Dat is natuurlijk prachtig voor “gewone” gebruikers, die Google als haar primaire doelgroep ziet. Die gebruikers zijn meestal alleen maar op zoek naar wat informatie over een onderwerp of een product, die nuttig en relevant is in hun eigen context en die daartoe vaak niet zulke correct geformuleerde zoekvragen formuleren. Maar voor professioneel gebruik, waar je vaak “alles” wilt hebben en waar de gebruiker al weet hoe die moet zoeken, is dat natuurlijk een ramp.

Wat dat in de praktijk inhoudt, wordt aardig geïllustreerd in een reeks tweets van @jeroenbosman eerder dit jaar. Die reeks begon met:

Hieronder een wat geredigeerde versie van dit draadje, inclusief enkele interessante reacties daarop.

The @Google web @search is now so limited it’s useless & dangerous for serious tasks. It finds you just ~200 pages with “climate crisis”: https://www.google.com/search?q=%22climate+crisis%22 … Why so few? Why these? What if one wants to check more than a few 100 pages containing a certain combination of words?

Christian Gutknecht‏ @chgutknecht:
hm.. the results of your query looks different to me. May you have another filter still activated?

Try to view more than a few hundred… Google never showed more than 1K results but last year reduced that even further to a very problematic few hundred.
Indeed. So much for Google’s broad and deep index. Of course you can add terms and still get a few hundreds, but sometimes you do not want that. Imagine wanting to find pages mentioning Plan S | cOAlition S and open access. You will get about 25% of what’s out there…

Lena Karvovskaya‏ @LangData:
As a follow-up on Jeroen’s critical twit about relying too much upon Google searches I thought I’d share this article about the intricacies and the limits of search. https://blogs.scientificamerican.com/observations/how-to-be-a-better-web-searcher-secrets-from-google-scientists/

Thanks, useful piece. Actually I do apply those tactics, but there are cases where they cannot be used to solve your problem. Suppose you wish to find all pages/post that mention “Plan S” or “cOAlition S”. There are at least 1200 pages known to Google that contain these terms, twice even. But you can not find them in a single search. You could trace them by consecutively guessing additional words that might appear in the pages, but that will inevitably create bias and still incomplete coverage. Only current solution is the date filter.

Lena Karvovskaya‏ @LangData:
Oh I see, you want ALL the pages. That’s not what google is made to do. There are ways to get around the limits: https://developers.google.com/webmaster-tools/search-console-api-original/v3/how-tos/all-your-data people who program can probably get even more results out of it

Relatie met de VOGIN-IP-lezing? In elk geval zal Jeroen Bosman op 19 maart weer een workshop verzorgen – al zal die dan niet over Google gaan. En we proberen nog te regelen dat één van de lezingen op BERT zal ingaan.

Eric Sieverts

One thought on “Do not use Google

  1. Pingback: Dawn Anderson’s keynote:     BERT, NLP, IR & SEO | vogin-ip-lezing

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.