Onderzoekstool AV Researcher XL

(door de ogen van een journalist)


Maandag 20 oktober organiseerde het Nederlands Instituut voor Beeld en Geluid in samenwerking met AVROTROS een masterclass Datagedreven Onderzoeksjournalistiek. Na een algemene inleiding en een eerste kennismaking met AV Researcher XL, gingen de deelnemers zelf aan de slag met de onlangs ontwikkelde media-analysetool.
Twaalf deelnemers kwamen op een zonnige maandagmiddag samen in een lichte studio van VondelCS, het verenigingsgebouw van AVROTROS in het Amsterdamse Vondelpark. Hun achtergrond was redelijk gevarieerd, met zowel studenten als docenten uit de journalistiek en nieuwe media, freelance journalisten en media-analisten. Over hun motivatie voor deelname bleken ze echter unaniem: “Het gaat er gewoon bij horen: Big Data.”

luisteren

De deelnemers van de masterclass luisteren aandachtig naar de voorbeelden van Dick Nieuwboer.


De rol van media


Wie onderzoek doet naar de berichtgeving rond een specifiek onderwerp, komt al snel tot dezelfde conclusie. In de archieven van het Nederlands Instituut voor Beeld en Geluid (NIBG) ligt inmiddels voor zo’n 800.000 uur aan audiovisueel materiaal opgeslagen, de Koninklijke Bibliotheek (KB) heeft vele miljoenen krantenpagina’s gedigitaliseerd en dan zijn er ook nog talloze relevante blogs en twitter-accounts. Al deze media doen niet alleen verslag van actualiteiten, ze spelen ook zélf een rol in maatschappelijke debatten. Dat maakt het archiefmateriaal behalve voor hergebruik ook erg waardevol voor wetenschappelijk onderzoek naar de rol van de media.
Eva Baaren is als coördinator Kennisfunctie bij NIBG betrokken bij de ontwikkeling van digitale tools voor de wetenschappelijke analyse van grote hoeveelheden media. Zij legt de deelnemers van de masterclass uit hoe belangrijk goede metadata zijn voor zulke tools: de beschrijvingen van de archiefitems maken het mogelijk te filteren en te selecteren uit het immense archief. Dankzij metadata kunnen trends, frequenties en contextuele informatie weergegeven worden. Toch blijven het maar cijfertjes: de ontwikkelde tools hebben slechts een exploratieve functie. Het beantwoorden van waarom-vragen blijft uiteindelijk aan de onderzoekers. Baaren is erg benieuwd hoe bruikbaar de deelnemers aan de masterclass de wetenschappelijke tools vinden voor journalistiek onderzoek.

Lopend vuur


Jasmijn van Gorp is mediawetenschapper aan de Universiteit Utrecht en een van de ontwikkelaars van AV Researcher XL, de tool die de deelnemers later die middag zullen gebruiken. Zij vertelt waarom onderzoek naar media zo belangrijk is. “Media geven een representatie van een gebeurtenis en zijn daarmee noodgedwongen selectief. Neutrale of objectieve media bestaan dus niet. Daarnaast nemen media ook veel van elkaar over, wat bepalend is voor de beeldvorming rond een onderwerp.”
Dit laatste punt illustreert Dick Nieuwboer, journalist en coördinator van de rubriek Lopend Vuur, die elke zaterdag in de Volkskrant-bijlage Vonk verschijnt. Aan de hand van verschillende edities van Lopend Vuur laat Nieuwboer zien hoe nieuws zich verspreidt en welke afwegingen journalisten maken in hun berichtgeving. Het is opvallend hoe vaak journalisten elkaar herhalen, waarbij de nuance langzaamaan verdwijnt. Het beeld dat zo over het onderwerp ontstaat blijkt hardnekkig en lastig bij te schaven.

Digitale tools


Het Nederlands Instituut voor Beeld en Geluid heeft meerdere tools ontwikkeld voor media-analyse, waaronder TROVe en AV Researcher XL. TROVe analyseert live de verspreiding van nieuws over verschillende media door de tijd heen. Jasmijn van Gorp, die ook aan deze zoekmachine meewerkt, vertelt dat dit systeem over ongeveer een jaar beschikbaar komt. Voorlopig wordt er nog hard gewerkt om het prototype gebruiksklaar te maken. Hierbij vormt juist de big data nog een probleem: de tool bevat momenteel 42 miljoen items, en dat zal alleen maar toenemen. Het is dus zaak de server waarop deze draait goed in te richten.  Daarnaast moet er goed gekeken worden naar auteursrechtelijke vraagstukken, want niet alle data zijn voor iedereen toegankelijk. TROVe zal voorlopig dan ook alleen bruikbaar zijn voor academici.

Voor AV Researcher XL geldt eenzelfde voorwaarde, maar zou eventueel kunnen worden omgebouwd tot een versie voor andere groepen gebruikers. Dit is nog toekomstmuziek, maar om het nut hiervan alvast te testen, gaan de deelnemers in vier groepjes van drie aan de slag met de tool. AV Researcher XL maakt het mogelijk om explorerend onderzoek te doen naar berichtgeving in kranten (Delpher van de KB, 1900 t/m 1994) en op radio en tv (het archief van NIBG, 1900 t/m 2013).
De resultaten worden weergegeven in een woordwolk met gerelateerde termen en een grafiek met absolute en relatieve voorkomens. De gebruiker kan vervolgens doorklikken naar artikelen in Delpher of naar programmabeschrijvingen in het AV-archief.

Een woordwolk toont welke woorden er bovengemiddeld vaak in de omgeving van het zoekwoord voorkomen.

Het islam-debat in AV Researcher XL


De groepjes van de masterclass proberen een onderzoeksvraag omtrent het islam-debat te beantwoorden met behulp van AV Researcher XL. Na anderhalf uur presenteren ze hun bevinden in een korte pitch. Het beste groepje gaat met een klein prijzenpakket naar huis.
Groep 1 komt tot de conclusie: ‘Volkert van der Graaf bestaat niet zonder proefverlof.’ De groepsleden vroegen zich af wanneer de media de moordenaar van Pim Fortuyn bij zijn volledige naam Volkert van der Graaf zijn gaan noemen. Uit de analyse blijkt dat media zijn achternaam meestal afkortten, tót in 2013 zijn proefverlof inging. Het viel groep 1 op dat er vrij veel ruis tussen de resultaten zat, zoals afleveringen met Karel van de Graaf die nieuws presenteert over Volkert van der G. Daarnaast vonden ze het een gemis dat het krantenarchief maar tot 1995 loopt.
Groep 2 onderzocht de persoonsnamen die per decennium veelvuldig genoemd werden in combinatie met ‘islam’. Aan het begin van de 20e eeuw wordt de religie nog vooral geassocieerd met ‘Duizend-en-een-nacht’: koningen uit het Oosten. Bijna honderd jaar later staat islam steeds meer voor politiek en Nederland. Vanaf 2000 domineert Geert Wilders het debat.
Uit de analyse van groep 3 blijkt dat het woord ‘mohammedanen’ rond de jaren 60 in onbruik is geraakt. Met de komst van islamitische gastarbeiders naar Nederland werd de term ‘moslims’ gebruikelijker. Hier zijn verschillende oorzaken voor te bedenken. De deelnemers doen enkele suggesties ter verbetering van de software, zoals het uitbreiden van de dataset van kranten en het aanbieden van een totaalnormalisatie in de visualisatie.
Met een tijdlijn laat groep 4 zien dat de eerste gastarbeiders afkomstig waren uit Griekenland en Turkije. Rond 1975 raakt de term ‘buitenlander’ in zwang en pas veel later ‘allochtoon’ en ‘immigrant’. Het lijkt de groepsleden goed als de woordwolk zou worden gemaakt op basis van een  alinea, in plaats van de hele tekst, zodat veel ruis buiten beschouwing wordt gelaten.

winnaars

De winnaars van de opdracht, v.l.n.r. A. Houtman, I. Lubbersen en E. Heffels.


De jury is erg lovend op de prestaties van de verschillende groepen en de suggesties die zij aandragen ter verbetering. Uiteindelijk gaat groep 3 naar huis met de prijzen, voornamelijk vanwege de interessante bevindingen en een constructieve feedback op AV Researcher XL. De tool blijkt zeker geschikt voor gebruik in de onderzoeksjournalistiek, al moet de gebruiker zich bewust zijn van de (vooralsnog) begrensde mogelijkheden.
Tijdens de afsluitende borrel blijkt dat de masterclass waardevol was voor zowel de deelnemers als de organisatie. De deelnemers zijn enthousiast over de mogelijkheden die AV Researcher NL nu al biedt en zien het potentieel voor toekomstig gebruik in de journalistiek. De organisatie is tevreden over de ontvangst van de tool en heeft voldoende handvatten aangereikt gekregen om AV Researcher XL verder te ontwikkelen.

 

Erica Renckens