Bellingcat in Nederland

SKUP 2015
Eliot Higgins
Foto: Marius Nyheim Kristoffersen

Als lezer van deze blog wist je natuurlijk al dat Bellingcat, in de persoon van oprichter Eliot Higgins, op 21 maart in de OBA is om daar een keynote voor de VOGIN-IP-lezing te verzorgen. Dat Bellingcat als organisatie zich bovendien in Nederland vestigt, werd hier ook al eerder gemeld. Toch komen we daar nog even op terug omdat Eliot recent een hele thread van Twitterberichten gewijd heeft aan allerlei nieuwtjes , waaronder meer duidelijkheid over wat ze in Den Haag gaan doen. Hieronder de belangrijkste punten uit die thread van 17 februari:

Hopefully by the end of Spring we’ll have the new Bellingcat office in The Hague open and operational, which will be the centre of two new major projects, focused on Yemen and local training in The Netherlands.

With The Netherlands training project we’ll be running workshops to train locals from a wide variety of backgrounds, both social and professional, to work on projects that have an impact on their own lives, building a Dutch community of open source investigators.

And on Yemen we’ve been working to develop a systematic process of investigation and archiving of open source material focused on the use of our work in courts, both local and international, but with wider applications to different fields, including advocacy and journalism.

My hope is that by the end of 2019 we’ll have a complete process for the investigation & archiving open source material up to a standard that can be used by local & international courts that can be rapidly deployed internally to new conflicts, & shared with other organisations.

While we’re aiming for a standard that can be used in justice and accountability, the evidence and analysis we gather will also be used for other areas, such as journalism and advocacy. It’s all about creating a solid base that grows a variety of projects and outcomes.

We’re also looking at producing a podcast series about our MH17 investigation ahead of the 5th anniversary, and there’s also some other big things, some more personal to me, we’ll be announcing in the coming weeks.

If everything works out we’ll be making huge advancements in how open source investigation is used, developing incredibly archiving systems to make verified conflict information available to those who need it, and spreading what we’ve learnt to other organisations.

By the start of March we’ll have 16 full time members of staff working for Bellingcat, and we’re focusing on hiring staff for our Yemen research projects and admin staff. We’ll also have a 50/50 gender split in our staff, something I hope to sustain as we grow.

Als er niet toch al aanleiding was om 21 maart Eliot in Amsterdam te komen beluisteren, dan is dat er nu dus zeker.

SEO voor IPers

CC @aaranged

Zoekmachineoptimalisatie (in het Engels SEO) wordt vaak gezien als iets voor marketingmensen. Toch was daar ook voor informatieprofessionals altijd wel al iets te halen. Zo zochten die SEO-mensen druk naar de factoren die Google gebruikt voor het ranken van zoekresultaten. En van die factoren wil je als zoekexpert ook wel graag wat weten. Bovendien zaten er omgekeerd informatieprofessionele aspecten aan het bepalen van de termen waarop je wil dat je website gevonden wordt of bij welke zoekwoorden Google jouw site als advertentie moet tonen.

De laatste jaren is die band nog veel sterker geworden. Zoekmachines, met Google voorop, zetten erop in om zo veel mogelijk al concrete antwoorden te geven op zoekvragen. Dat kan onder meer door in de zoekresultaten (in de SERP) al feitelijke gegevens uit de gevonden webpagina’s te tonen, in de vorm van zogenaamde rich results (vroeger rich snippets). Het kan ook in de vorm van “featured snippets” of “answer boxes“, aan websites ontleende blokjes tekst met uitleg of antwoord bij je zoekvraag, die Google steeds vaker boven de gewone zoekresultaten laat zien. Dus op positie 0 – helemaal het summum voor een SEOer.

Daarvoor is nodig dat Google weet wat de aard of betekenis van informatie in webpagina’s is. En daarvoor helpt als in die webpagina’s al gestructureerde informatie – “structured data” – wordt toegevoegd. In feite een variant op de metadata en ontsluiting waar informatieprofessionals zich al van oudsher mee bezig houden. Schema.org is het schema of de ontologie die daarvoor steeds meer gebruikt wordt en die – belangrijker nog – ook door zoekmachines als Google, Bing en Yandex begrepen wordt. Met entities en hun properties beschrijven ze in feite de inhoud van een webpagina in de vorm van RDF tripels. Er zijn intussen al vele miljarden pagina’s met dergelijke codering.

Een paar voorbeelden van soorten documenten en van gegevens die daarbinnen herkend worden, zijn factchecks (die Google daardoor hoger laat scoren), Q&A pagina’s, datasets, recepten, reviews en ratings, openingstijden, bedrijfsnamen, producten, personen, enz. Wie meer wil weten kan bijvoorbeeld deze gids bekijken: https://yoast.com/structured-data-schema-ultimate-guide/

OF:   je kan natuurlijk naar de workshop van Hugo Benne gaan, die op de VOGIN-IP-lezing “SEO voor IPers” behandelt.

Wat gebeurt er in maart?


Dit jaar staan er in maart wel heel veel belangrijke gebeurtenissen op de kalender:

11 maart – wereld loodgietersdag
14 maart – π-dag
15 maart – nationale onderwijsstaking
17 maart – St. Patricks Day
20 maart – verkiezingen proviciale staten
20 maart – (22.58 uur) begin van de lente
21 maart – VOGIN-IP-lezing
29 maart – Brexit

Aan u om te bepalen welke daarvan u het belangrijkst vindt.

100 jaar OBA

#VOGINIP al 5 jaar bij de OBA
OBA al 100 jaar in AMSTERDAM


In het kader van 100 jaar OBA is het vanaf 8 februari 100 dagen feest bij de OBA.
Op 21 maart, als de VOGIN-IP-lezing voor de vijfde keer naar de OBA komt, is het dus nog steeds feest. (Terwijl #voginip op zichzelf ook altijd al een feestje is …..)
Voor dat OBA-feest is ook een jubileumboek uitgekomen, “Amsterdammers en hun bibliotheek“. Als je 21 maart toch al bij de OBA bent, kun je het daar ook aanschaffen.
Die 100 dagen feest zijn trouwens niet alleen in de vestiging op het Oosterdokseiland. Voor het hele feestprogramma, ook elders in de stad, moet je verder maar op de OBA-site kijken. (Maar voor het programma van #voginip natuurlijk op deze site.)

Als opwarmertje hieronder nog een foto uit het jubileumboek.

 
[Zie recensie in NRC]

Hoezo een knowledge graph?

Dat inhoudelijke ontsluiting nuttig is om informatie makkelijker vindbaar te maken voor klanten of voor andere geïnteresseerden, dat weet elke IP’er wel. Dat je daarvoor een taxonomie of een thesaurus kunt gebruiken is niets nieuws. Met een Knowledge Graph ligt dat nog wat anders. Vaak wordt zoiets nog gezien als het speeltje van Google, waarmee ze proberen concrete antwoorden op onze zoekvragen te geven. En eigenlijk ook een beetje als een tech-hype.
Toch zijn er steeds meer organisaties die hun eigen Enterprise Knowledge Graph ontwikkelen, omdat ze daar allerlei voordelen in zien. En die voordelen variëren van betere toegankelijkheid van hun informatie tot het krijgen van beter overzicht over hun eigen producten en de onderlinge relaties daartussen. Het is dus niet voor niets dat in ons programma zowel een lezing als een workshop aan dit onderwerp gewijd zijn.

In de workshop van Joyce van Aalten en Daphne Shinn leer je niet alleen hoe een Knowledge Graph werkt, maar ook hoe je er zelf een maakt – hands-on. Heel praktisch gericht dus.
In de lezing van Paula Kassenaar gaat het er vooral om hoe bij Zalando zo’n Knowledge Graph gebruikt wordt. Zowel ten behoeve van de klanten, zodat die makkelijker de producten kunnen vinden waar ze in geïnteresseerd zijn, als ten behoeve van het bedrijf zelf, om alle informatie over haar producten bij de hand te hebben. En uiteraard komt ook aan de orde hoe ze dat bij Zalando hebben aangepakt en hoe daar de graph wordt onderhouden.
Deze twee invalshoeken kun je ook nog combineren door ‘s ochtends de lezingen te bezoeken en ‘s middags naar die workshop te gaan.

Wie was Ângelo Maria Longa?


Vorige week meldde @EvoMRI (D@niel Mietchen) op Twitter dat Wikidata intussen 7 miljard tripels bevatte en dat dezelfde dag ook het 61 miljoenste item geregistreerd was.

Dat was een mooie update op onze eerdere blogpost over het 60 miljoenste item. Deze 61 miljoenste betrof geen ingewikkeld ATP-geassocieerd proteïne, maar de “male Brazilian entrepreneur and gambler” Ângelo Maria Longa die in 1986 was overleden.
Voor wie meer wil weten over de inhoud van deze ook voor informatiespecialisten steeds belangrijker wordende gegevensbron, met gemiddeld ruim honderd gegevens per item (die 7 miljard tripels), moet 21 maart zeker naar de workshop van Maarten Dammers komen. Die gaat het niet alleen over Wikidata hebben, maar besteedt dan ook aandacht aan de SPARQL querytaal waarmee Wikidata (en andere linked data triple stores) doorzocht kunnen worden. En hij heeft dan zeker wat zinniger voorbeelden dan die welke in de tweet hierboven vermeld staat. Maar die query werkt overigens wel als je hem aanklikt.

Een rappende tekstgenerator

Gepubliceerd in IP 2019 nr. 1 [PDF]

Deze zomer deden de makers van software die automatisch rapteksten genereert, op het Lowlands-festival een soort Turing-test: herkenden bezoekers of een raptekst door een computer of een mens gemaakt was? Op de VOGIN-IP-lezing komt Folgert Karsdorp (Meertensinstituut) daarover vertellen. IP stelde hem vooraf al wat vragen.

Met wat voor kenmerkende verschillen tussen een raptekst en ‘gewonere’ teksten moet een automatische tekstgenerator rekening houden?
‘Rap onderscheidt zich in veel opzichten van gewone tekst, zowel wat betreft inhoudelijke als stilistische aspecten. De stilistische eigenschappen, zoals rijm, metrum en flow, springen wellicht nog het meest in het oog. Dit zijn allemaal kenmerken waar “gewone” tekstgenerators niet direct mee om kunnen gaan, en waar we dus nieuwe oplossingen voor hebben moeten bedenken.’

Worden dergelijke kenmerken vooraf als regels in jullie programma ingevoerd, of leert het programma het helemaal op basis van voorbeelden?
‘De meeste kenmerken worden gegenereerd op basis van machine learning. Daarbij moet wel aangetekend worden dat we niet zomaar een grote hoeveelheid teksten “voeren” aan een algoritme in de hoop dat het zelf kenmerken als rijm en ritme zal herkennen en vervolgens ook zal toepassen. We hebben speciale modules voor specifieke kenmerken gemaakt, die – bijvoorbeeld in het geval van rijm – de regel hebben dat er gerijmd moet worden, maar waarbij niet bepaald wordt op welk woord. Ons systeem past een vrij losse definitie van rijm toe, die zegt dat twee woorden rijmen als hun beklemtoonde klinkers overeenkomen.’

Begint het programma met wat willekeurige woorden, of zijn er bepaalde aangeleverde zinnen of thema’s waarop het voortborduurt?
‘We hebben een reeks verschillende systemen geïmplementeerd die op verschillende taalniveaus tekst produceren. Zo hebben we een systeem gemaakt dat op letterniveau teksten maakt, maar ook systemen die op lettergreep en woordniveau opereren. Voor elk van deze systemen geldt dat ze beginnen met het selecteren van een willekeurige letter, lettergreep, of woord, afhankelijk van het gekozen systeem. ‘

Hoeveel van de door jullie programma gegenereerde teksten werden bij het experiment tijdens Lowlands door de proefpersonen als ‘echt’ beoordeeld?
‘Gemiddeld konden de proefpersonen in zestig procent van de gevallen het onderscheid maken tussen echte en gegenereerde teksten. De deelnemers kregen ongeveer evenveel authentieke als gegenereerde teksten te zien, dus in veertig procent van de gevallen werden gegenereerde teksten “foutief” als origineel beschouwd.’

Rapper Leafs probeert het zelf

Is er van jullie teksten ooit eentje echt door een rapper uitgevoerd?
Nog niet!

Wat hebben jullie van dit experiment geleerd?
‘Allereerst hebben we geleerd dat het genereren van rapteksten een grote uitdaging is. Gegeven al de verschillende eigenschappen en kenmerken van raps, is het lang niet zo eenvoudig om overtuigende teksten te schrijven. Dat was op zichzelf opvallend, omdat in eerdere experimenten met literair materiaal relatief eenvoudige tekstgenerators vrij makkelijk overtuigende literaire zinnen konden maken. Diezelfde generators waren echter ontoereikend voor de rapteksten. Daarnaast heeft het experiment ons inzicht gegeven in de perceptie van mensen in gegenereerde teksten. Wat zijn de verwachtingen van mensen als ze een gegenereerde tekst zien? Een opvallende en leuke uitkomst was dat mensen zich blijkbaar niet kunnen voorstellen dat een automatisch systeem schuttingtaal zou gebruiken. Nou, reken maar! Tot slot, ik denk dat het belangrijk is dat er in veel verschillende domeinen (zoals literatuur, muziek, nieuws, enzovoort) geëxperimenteerd wordt met tekstgeneratiesystemen. Op die manier kunnen we beter zicht krijgen op de enorme hoeveelheid uitdagingen die tekstgeneratie nog heeft en ook op de grote complexiteit van creativiteit en taal.’

Keuzestress


Wie naar de VOGIN-IP-lezing wil komen, moet de organisatoren daarvan wel haten. Want het is nogal pervers om beoogde bezoekers zo’n dosis keuzestress te bezorgen. Eerst al de keuze tussen lezingentracks en workshops. En dan nog: welk van die 10 workshops? Want die zien er allemaal interessant uit. Maar dat was natuurlijk ook de bedoeling van die organisatoren.
Niettemin hebben we één van hen gevraagd zich eens in zo’n bezoeker te verplaatsen. Wat zou hij kiezen als hij met dat aanmeldformulier voor zich zat. Eigenlijk wilde hij daar geen antwoord op geven, want dan zou hij de suggestie wekken de ene workshop voor te trekken boven de andere. Maar na enig aandringen wilde hij toch wel zeggen welke onderwerpen hem persoonlijk het meest aanspraken, Waarbij zijn belangrijkste criterium was over welke onderwerpen hij vond dat hij meer zou moeten weten.
Dan kwam bij hem op één: de workshop over Wikidata en SPARQL.
En op twee: de workshop over het bouwen van een Knowledge Graph.
Maar ja, over die semantische zoekmachines is natuurlijk ook wel leuk, of wat meer over SEO weten, en kunnen factchecken, of ….
En als hij dan een workshop koos, dan kon hij misschien weer niet naar Karsdorp’s lezing over de rap-generator of naar die over Zalando’s Knowledge Graph.
Zelfs bij deze gefingeerde keuzesituatie sloeg bij hem de stress al onbarmhartig toe.
Op basis van deze ervaring bieden de organisatoren u dus hun nederige excuses aan voor het veroorzaken van zoveel keuzestress.

Spam clans uncovered


De Leidse nepnieuwsonderzoeker Peter Burger heeft samen met een Belgische collega, Maarten Schenk, onderzoek gedaan naar een Macedonisch nepnieuwsnetwerk. Op de eigen website Nieuwscheckers zijn de resultaten van dat onderzoek gerapporteerd, maar ook nos.nl heeft er uitgebreid aandacht aan besteed. Van Macedonische tieners was al eerder bekend dat ze tijdens de Amerikaanse presidentsverkiezingen via allerlei nepsites fakenieuwsberichten (her)verspreidden om daar door advertentie-inkomsten dik geld aan te verdienen. Ditmaal gaat het om een familie- en vriendenkring van meer middelbare leeftijd die ditzelfde verdienmodel exploiteerde. Volgens Peter Burger wordt de kern gevormd door twee mannen die een baan bij het Macedonische leger hebben (of hadden) en dit er als aardige bijverdienste bijdoen, met medewerking van wat familie en kennissen. Ook hier gaat het om berichten die van elders gekopieerd worden, zodat hun beperkte actieve kennis van het Engels geen probleem vormt. Via Facebook en Twitter hebben ze een bereik van meer dan 7 miljoen reacties, comments, shares en retweets gegenereerd. Dit ondanks de – kennelijk nog niet erg doeltreffende – maatregelen die Facebook en Twitter intussen genomen hebben om de verspreiding van nepnieuws te beperken. Op grond hiervan concludeert Peter Burger’s collega Alexander Pleijter dan ook dat de internetgiganten schromelijk tekortschieten om haatzaaiend nepnieuws te weren.

Een uitgebreid rapport van het onderzoek van Peter Burger en Maarten Schenk, met meer cijfers, is ook op Nieuwscheckers te vinden.

Peter Burger of Alexander Pleijter (ze moeten zelf nog beslissen wie van beide) zal 21 maart op de VOGIN-IP-lezing ook een workshop “Factchecking” verzorgen.

Een “Global Thinker” bij #voginip


Het Amerikaanse tijdschrift Foreign Policy maakte eerder deze week bekend wie ze tot “Global Thinkers” voor 2019 hebben uitgeroepen. In hun reeks van zwaargewichten figureert ook Eliot Higgins in de categorie “Defense & Security”.
Nog een extra reden dat we blij zijn Eliot op 21 maart als keynote spreker in de OBA bij de VOGIN-IP-lezing te mogen verwelkomen. En een extra reden om de VOGIN-IP-lezing niet te willen missen.

Toevoeging d.d. 23-01-2019: