Do not use Google


In een eerdere blogpost citeerden we een blad waarin onze medeorganisator Arno Reuser geciteerd werd, dat we met Google moesten stoppen. Die opmerking van Arno was specifiek gericht op professionele zoekers. En terecht, want er is heel wat professioneel belangrijke informatie die je met Google niet kunt vinden. De meest voor de hand liggende reden daarvoor tekende het blad ook al op uit Arno’s mond: dat een heleboel serieuze informatie domweg “niet in Google zit”. Maar er is nog wel wat meer over te zeggen. Een heleboel dat wel in Google zit, vind je namelijk vaak ook niet meer. Daarbij spelen echter zaken die de gemiddelde journalistieke belangstelling wat te boven gaat. Vandaar dat ik beloofde er hier nog even op terug te komen.

Waar denk ik dan aan? De voornaamste reden is dat Google eigenlijk geen zoekmachine meer is, maar dat het een antwoordmachine is geworden. Dat houdt in dat Google probeert te begrijpen wat je eigenlijk met je zoekvraag bedoelt en daar antwoorden bij probeert te vinden. Daarbij wordt nu bijvoorbeeld BERT -Bidirectional Encoder Representations from Transformers JAWEL …..- natuurlijke taalverwerking technologie toegepast. Dat proberen te begrijpen is natuurlijk een loflijk streven, maar het betekent wel dat Google zoekvragen vaak herschrijft, waarbij met groot gemak zoekwoorden kunnen worden weggelaten of veranderd. En bij de inhoud van gevonden pagina’s wordt dat soort interpretatie ook toegepast. Zoekmachine Bing gebruikt BERT intussen trouwens ook.
Anders dan wat informatieprofessionals van zoeksystemen gewend zijn, hoeven getoonde zoekresultaten dus helemaal niet meer 1-op-1 overeen te komen met een ingetikte zoekvraag. Dat is natuurlijk prachtig voor “gewone” gebruikers, die Google als haar primaire doelgroep ziet. Die gebruikers zijn meestal alleen maar op zoek naar wat informatie over een onderwerp of een product, die nuttig en relevant is in hun eigen context en die daartoe vaak niet zulke correct geformuleerde zoekvragen formuleren. Maar voor professioneel gebruik, waar je vaak “alles” wilt hebben en waar de gebruiker al weet hoe die moet zoeken, is dat natuurlijk een ramp.

Wat dat in de praktijk inhoudt, wordt aardig geïllustreerd in een reeks tweets van @jeroenbosman eerder dit jaar. Die reeks begon met:

Hieronder een wat geredigeerde versie van dit draadje, inclusief enkele interessante reacties daarop.

The @Google web @search is now so limited it’s useless & dangerous for serious tasks. It finds you just ~200 pages with “climate crisis”: https://www.google.com/search?q=%22climate+crisis%22 … Why so few? Why these? What if one wants to check more than a few 100 pages containing a certain combination of words?

Christian Gutknecht‏ @chgutknecht:
hm.. the results of your query looks different to me. May you have another filter still activated?

Try to view more than a few hundred… Google never showed more than 1K results but last year reduced that even further to a very problematic few hundred.
Indeed. So much for Google’s broad and deep index. Of course you can add terms and still get a few hundreds, but sometimes you do not want that. Imagine wanting to find pages mentioning Plan S | cOAlition S and open access. You will get about 25% of what’s out there…

Lena Karvovskaya‏ @LangData:
As a follow-up on Jeroen’s critical twit about relying too much upon Google searches I thought I’d share this article about the intricacies and the limits of search. https://blogs.scientificamerican.com/observations/how-to-be-a-better-web-searcher-secrets-from-google-scientists/

Thanks, useful piece. Actually I do apply those tactics, but there are cases where they cannot be used to solve your problem. Suppose you wish to find all pages/post that mention “Plan S” or “cOAlition S”. There are at least 1200 pages known to Google that contain these terms, twice even. But you can not find them in a single search. You could trace them by consecutively guessing additional words that might appear in the pages, but that will inevitably create bias and still incomplete coverage. Only current solution is the date filter.

Lena Karvovskaya‏ @LangData:
Oh I see, you want ALL the pages. That’s not what google is made to do. There are ways to get around the limits: https://developers.google.com/webmaster-tools/search-console-api-original/v3/how-tos/all-your-data people who program can probably get even more results out of it

Relatie met de VOGIN-IP-lezing? In elk geval zal Jeroen Bosman op 19 maart weer een workshop verzorgen – al zal die dan niet over Google gaan. En we proberen nog te regelen dat één van de lezingen op BERT zal ingaan.

Eric Sieverts

Arno aan het woord


“stop met Google”

Op de komende VOGIN-IP-lezing dit keer geen workshop van Arno Reuser, en hij geeft ook al geen lezing. Op 19 maart heeft hij helaas al andere verplichtingen. Dat krijg je wanneer je OSINT-goeroe wordt. Maar gelukkig draagt hij, net als voorgaande jaren, nog wel bij aan de totstandkoming van ons programma voor die dag.
Daarom besteden we in deze blog dan maar wat extra aandacht aan hem. En vooral aan de presentatie die hij 30 oktober heeft gegeven op Infosecurity.nl, een vakbeurs en congres over (o.a.) IT-security. De website van Computable besteedt uitgebreid aandacht aan die lezing. Nou klinkt het ook wel uitdagend als je beweert dat mensen beter direct kunnen stoppen met het gebruik van Google. Ook al was dat zeker niet het enige en het belangrijkste dat Arno over OSINT te berde bracht, zo’n opmerking is voor een journalist natuurlijk wel een lekkere binnenkomer. Overigens zal onderstaande quote uit het Computable-verslag voor echte informatiespecialisten en OSINT-experts (en hopelijk ook voor vaste VOGIN-IP-bezoekers) niet zo heel opzienbarend meer zijn.

“Volgens de voormalige MIVD-medewerker kunnen bedrijven en organisaties het meeste profijt hebben van hun inlichtingenwerk als ze commerciële databronnen zoals bijvoorbeeld LexisNexis (digitaal doorzoekbare mediabronnen zoals kranten en magazines) koppelen aan de info van conventionele bibliotheken en informatie die online ook buiten het world wide web beschikbaar is. ‘Dan heb je een fantastische informatiepositie.’

Maar voor een willekeurige lezer van Computable of voor bezoekers aan dat congres sloeg deze boodschap van Arno waarschijnlijk wel in. Naast de hier weergegeven overwegingen van Arno, zijn er overigens nog wel meer argumenten om niet (alleen) op Google te vertrouwen als je professioneel naar informatie op zoek bent. In een latere blogpost zullen we daar nog wel even op terugkomen.

Om de video te bekijken die Computable over Arno heeft gemaakt, hoef je overigens niet noodzakelijkerwijs via de Computable-site, want ze hebben die ook op Youtube gezet. En daardoor is hij ook hieronder rechtstreeks te bekijken en te beluisteren.

Nieuwe spreker: over Google’s spam detectie

Oorspronkelijk zat in ons programma een spreker VAN Google. Altijd spannend.
Maar het was wel een marketingman, dus eigenlijk een verkoper. En kennelijk moest er elders iets verkocht worden, want hij haakte vorige week onverwacht af. Dat maakte het voor ons als organisatie nog extra spannend 😦
Maar daardoor hebben we nu eigenlijk iets veel beters weten te vinden, een spreker OVER Google, die ook nog wat van de techniek afweet.
spamdetection-2

Peter van der Graaf is gepokt en gemazeld als zoekmachine optimalisator. Hij deed dat werk al in de tijd van Lycos, AltaVista en Hotbot en kent dus alle ins en outs van hele generaties van zoekmachines. Maar, vraagt u zich misschien af, is zijn soort werk dan niet ook marketing? Zeker, maar Peter is vooral geïnteresseerd in wat Google doet om de trucs te herkennen die zijn beroepsgenoten toepassen om de webpagina’s van hun klanten kunstmatig hoog te laten scoren in Google’s ranking. Google noemt dat spam. Hoe detecteert Google nu dat soort spam. Dat te weten is uiteraard interessant voor wie aan SEO doet. Maar het is zeker zo interessant voor ons als professionele zoekers, omdat het een kijkje geeft in de ranking algoritmen die Google toepast. En dat Google tegenwoordig state-of-the-art machine learning technieken toepast om die spam te leren detecteren, maakt dat nog extra interessant. En dat is precies waar Peter van der Graaf het 3 maart over gaat hebben.