Vrijdagmiddag 13 maart vond bij Beeld en Geluid in Hilversum de officiële kickoff plaats van CLARIAH: het infrastructuurprogramma voor de Geesteswetenschappen en een van de gehonoreerde projecten van de Nationale roadmap grootschalige onderzoeksfaciliteiten. Meer dan 140 gasten waren getuige van de presentatie van de plannen voor de ontwikkeling van een digitale infrastructuur voor de geesteswetenschappen.

Jan MullerJan Müller, directeur van Beeld en Geluid, opende de middag met een welkomstwoord en een mooie presentatie waarin liet hij zien hoe de plannen van CLARIAH op het gebied van mediastudies aansluiten bij de langetermijnvisie van zijn instituut. Dit zal de samenwerking de komende jaren zeker ten goede komen.

Na zijn welkom werd een leuke video afgespeeld die de toekomst van CLARIAH moest verbeelden. Tijdens de opening was het een video, maar in werkelijkheid is het een tool waarmee je zelf in de CLARIAH-sfere kunt rondlopen.

Brieven als buit

Hierna gaf dagvoorzitter Henk Wals het woord aan Lex Heerma van Voss, de hoofdaanvrager van CLARIAH. Hij toonde de potentiële mogelijkheden van CLARIAH met een voorbeeld uit zijn eigen onderzoekspraktijk.
De dataset Brieven als buit is oorspronkelijk samengesteld door taalwetenschappers die onderzoek wilden doen naar alledaags taalgebruik in de 17e en 18e eeuw. Doordat de buitgemaakte brieven uit Nederlandse schepen met hun annotaties en metadata online toegankelijk zijn gemaakt, is de dataset ook voor andere onderzoekers en andere geesteswetenschappelijke disciplines toegankelijk.
Heerma van Voss gebruikte de brieven voor een onderzoek naar vriendschap en liefde in de 17e en 18e  eeuw. Tot nu toe werd het beeld hierover bepaald door enkele dagboekjes van hoge heren die bijhielden van wie ze nog een gunst te goed hadden - vriendschappelijke en liefdesrelaties als strategische ruilhandel. Maar de brieven van de zeelieden geven een ander beeld. Onder het gewone volk was zeker sprake van eerlijke liefde en vriendschap, al was die met name in de 17e eeuw nog vooral van praktische aard.

Opzet CLARIAH

Het primaire doel van CLARIAH is om data zo in te richten dat ze ook voor andere onderzoekers bruikbaar zijn. De komende jaren zal daarom de focus liggen op de ontwikkeling van een samenhangende infrastructuur. Dit betekent dat er minder calls zullen zijn dan bij CLARIN-NL.

De drie pijlers

Hierna was het woord aan de vertegenwoordigers van de drie pijlers binnen CLARIAH: tekstuele data, audiovisuele data en gestructureerde data.

  • Hans Bennis verving Sjef Barbiers, de inhoudelijk leider van de tekstuele tak. Bennis liet zien waar CLARIAH staat in het netwerk van instituten en initiatieven in de wereld van het digitaal erfgoed, zoals onlangs gepresenteerd in de Nationale strategie digitaal erfgoed. Grote datasets maken het mogelijk om nauwkeurig antwoord te geven op specifieke vragen. Zo kan the nature of human language in kaart gebracht worden.
  • Jan Luiten van Zanden presenteerde de mogelijkheden die CLARIAH biedt voor gestructureerde data, die veel worden gebruikt in het sociaaleconomisch onderzoek. Zowel Clio Infra als de Historisch Steekproef Nederland (HSN) zijn waardevolle projecten, maar kennen ook elk hun beperkingen. Door de micro- en macrodata uit deze projecten te verbinden - zoals CLARIAH doet in het zaaiproject HSN - is het mogelijke nieuwe onderzoeksvragen te beantwoorden.
  • Julia Noordegraaf beschreef de plannen voor de audiovisuele data die met name worden gebruikt in de mediastudies. De hoeveelheid data groeit enorm, maar is vaak lastig toegankelijk voor de wetenschap vanwege de aard van het materiaal. Beeld is moeilijk doorzoekbaar, vaak liggen er auteursrechten op en het materiaal is verspreid over verschillende platforms, waardoor het moeilijk is om de onderlinge samenhang te zien. CLARIAH wil hier verandering in brengen met de ontwikkeling van verschillende tools voor (en in samenspraak met) wetenschappers.

Zaaigeldprojecten

Vlak voor de pauze lanceerde Antal van de Bosch officieel Nederlab, een NWO Groot-project dat ook een bijdrage heeft ontvangen uit het CLARIAH zaaigeld. Via Nederlab kunnen onderzoekers en studenten alle gedigitaliseerde Nederlandstalige teksten van ca. 800 tot heden gezamenlijk doorzoeken en analyseren met binnen Nederlab ontwikkelde, gebruiksvriendelijke tekstanalysesoftware. Zo biedt Nederlab een laboratorium voor onderzoek naar de veranderingspatronen in de Nederlandse taal en cultuur.

In de pauze konden de gasten de posters van deze en de overige vier zaaigeld-projecten bekijken en in gesprek gaan met de ontwikkelaars.

Keynote

Arianna BettiDe kickoff werd afgesloten met een keynote van filosofe Arianna Betti. Zij ging in op de voorwaarden voor een succesvolle revolutie in de geesteswetenschappen. De interpretatie van de data die voortkomen uit computationele methoden is nu nog geheel aan de onderzoeker. Idealiter ontwerpen we een model van het concept dat we bestuderen, zodat de computer kan bijdragen aan de interpretatie van de data.

Foto's

In de loop van deze week zullen we de foto's van de kick-off online zetten.

Presentaties

CLARIN Closing Event
CLARIAH Kick-Off
Jan Müller
Lex Heerma van Voss
Hans Bennis Jan Luiten van Zanden Julia Noordegraaf
Jan Odijk
Arianna Betti

 

(door de ogen van een journalist)


Maandag 20 oktober organiseerde het Nederlands Instituut voor Beeld en Geluid in samenwerking met AVROTROS een masterclass Datagedreven Onderzoeksjournalistiek. Na een algemene inleiding en een eerste kennismaking met AV Researcher XL, gingen de deelnemers zelf aan de slag met de onlangs ontwikkelde media-analysetool.
Twaalf deelnemers kwamen op een zonnige maandagmiddag samen in een lichte studio van VondelCS, het verenigingsgebouw van AVROTROS in het Amsterdamse Vondelpark. Hun achtergrond was redelijk gevarieerd, met zowel studenten als docenten uit de journalistiek en nieuwe media, freelance journalisten en media-analisten. Over hun motivatie voor deelname bleken ze echter unaniem: “Het gaat er gewoon bij horen: Big Data.”

luisteren

De deelnemers van de masterclass luisteren aandachtig naar de voorbeelden van Dick Nieuwboer.


De rol van media


Wie onderzoek doet naar de berichtgeving rond een specifiek onderwerp, komt al snel tot dezelfde conclusie. In de archieven van het Nederlands Instituut voor Beeld en Geluid (NIBG) ligt inmiddels voor zo’n 800.000 uur aan audiovisueel materiaal opgeslagen, de Koninklijke Bibliotheek (KB) heeft vele miljoenen krantenpagina’s gedigitaliseerd en dan zijn er ook nog talloze relevante blogs en twitter-accounts. Al deze media doen niet alleen verslag van actualiteiten, ze spelen ook zélf een rol in maatschappelijke debatten. Dat maakt het archiefmateriaal behalve voor hergebruik ook erg waardevol voor wetenschappelijk onderzoek naar de rol van de media.
Eva Baaren is als coördinator Kennisfunctie bij NIBG betrokken bij de ontwikkeling van digitale tools voor de wetenschappelijke analyse van grote hoeveelheden media. Zij legt de deelnemers van de masterclass uit hoe belangrijk goede metadata zijn voor zulke tools: de beschrijvingen van de archiefitems maken het mogelijk te filteren en te selecteren uit het immense archief. Dankzij metadata kunnen trends, frequenties en contextuele informatie weergegeven worden. Toch blijven het maar cijfertjes: de ontwikkelde tools hebben slechts een exploratieve functie. Het beantwoorden van waarom-vragen blijft uiteindelijk aan de onderzoekers. Baaren is erg benieuwd hoe bruikbaar de deelnemers aan de masterclass de wetenschappelijke tools vinden voor journalistiek onderzoek.

Lopend vuur


Jasmijn van Gorp is mediawetenschapper aan de Universiteit Utrecht en een van de ontwikkelaars van AV Researcher XL, de tool die de deelnemers later die middag zullen gebruiken. Zij vertelt waarom onderzoek naar media zo belangrijk is. “Media geven een representatie van een gebeurtenis en zijn daarmee noodgedwongen selectief. Neutrale of objectieve media bestaan dus niet. Daarnaast nemen media ook veel van elkaar over, wat bepalend is voor de beeldvorming rond een onderwerp.”
Dit laatste punt illustreert Dick Nieuwboer, journalist en coördinator van de rubriek Lopend Vuur, die elke zaterdag in de Volkskrant-bijlage Vonk verschijnt. Aan de hand van verschillende edities van Lopend Vuur laat Nieuwboer zien hoe nieuws zich verspreidt en welke afwegingen journalisten maken in hun berichtgeving. Het is opvallend hoe vaak journalisten elkaar herhalen, waarbij de nuance langzaamaan verdwijnt. Het beeld dat zo over het onderwerp ontstaat blijkt hardnekkig en lastig bij te schaven.

Digitale tools


Het Nederlands Instituut voor Beeld en Geluid heeft meerdere tools ontwikkeld voor media-analyse, waaronder TROVe en AV Researcher XL. TROVe analyseert live de verspreiding van nieuws over verschillende media door de tijd heen. Jasmijn van Gorp, die ook aan deze zoekmachine meewerkt, vertelt dat dit systeem over ongeveer een jaar beschikbaar komt. Voorlopig wordt er nog hard gewerkt om het prototype gebruiksklaar te maken. Hierbij vormt juist de big data nog een probleem: de tool bevat momenteel 42 miljoen items, en dat zal alleen maar toenemen. Het is dus zaak de server waarop deze draait goed in te richten.  Daarnaast moet er goed gekeken worden naar auteursrechtelijke vraagstukken, want niet alle data zijn voor iedereen toegankelijk. TROVe zal voorlopig dan ook alleen bruikbaar zijn voor academici.

Voor AV Researcher XL geldt eenzelfde voorwaarde, maar zou eventueel kunnen worden omgebouwd tot een versie voor andere groepen gebruikers. Dit is nog toekomstmuziek, maar om het nut hiervan alvast te testen, gaan de deelnemers in vier groepjes van drie aan de slag met de tool. AV Researcher XL maakt het mogelijk om explorerend onderzoek te doen naar berichtgeving in kranten (Delpher van de KB, 1900 t/m 1994) en op radio en tv (het archief van NIBG, 1900 t/m 2013).
De resultaten worden weergegeven in een woordwolk met gerelateerde termen en een grafiek met absolute en relatieve voorkomens. De gebruiker kan vervolgens doorklikken naar artikelen in Delpher of naar programmabeschrijvingen in het AV-archief.

Een woordwolk toont welke woorden er bovengemiddeld vaak in de omgeving van het zoekwoord voorkomen.

Het islam-debat in AV Researcher XL


De groepjes van de masterclass proberen een onderzoeksvraag omtrent het islam-debat te beantwoorden met behulp van AV Researcher XL. Na anderhalf uur presenteren ze hun bevinden in een korte pitch. Het beste groepje gaat met een klein prijzenpakket naar huis.
Groep 1 komt tot de conclusie: ‘Volkert van der Graaf bestaat niet zonder proefverlof.’ De groepsleden vroegen zich af wanneer de media de moordenaar van Pim Fortuyn bij zijn volledige naam Volkert van der Graaf zijn gaan noemen. Uit de analyse blijkt dat media zijn achternaam meestal afkortten, tót in 2013 zijn proefverlof inging. Het viel groep 1 op dat er vrij veel ruis tussen de resultaten zat, zoals afleveringen met Karel van de Graaf die nieuws presenteert over Volkert van der G. Daarnaast vonden ze het een gemis dat het krantenarchief maar tot 1995 loopt.
Groep 2 onderzocht de persoonsnamen die per decennium veelvuldig genoemd werden in combinatie met ‘islam’. Aan het begin van de 20e eeuw wordt de religie nog vooral geassocieerd met ‘Duizend-en-een-nacht’: koningen uit het Oosten. Bijna honderd jaar later staat islam steeds meer voor politiek en Nederland. Vanaf 2000 domineert Geert Wilders het debat.
Uit de analyse van groep 3 blijkt dat het woord ‘mohammedanen’ rond de jaren 60 in onbruik is geraakt. Met de komst van islamitische gastarbeiders naar Nederland werd de term ‘moslims’ gebruikelijker. Hier zijn verschillende oorzaken voor te bedenken. De deelnemers doen enkele suggesties ter verbetering van de software, zoals het uitbreiden van de dataset van kranten en het aanbieden van een totaalnormalisatie in de visualisatie.
Met een tijdlijn laat groep 4 zien dat de eerste gastarbeiders afkomstig waren uit Griekenland en Turkije. Rond 1975 raakt de term ‘buitenlander’ in zwang en pas veel later ‘allochtoon’ en ‘immigrant’. Het lijkt de groepsleden goed als de woordwolk zou worden gemaakt op basis van een  alinea, in plaats van de hele tekst, zodat veel ruis buiten beschouwing wordt gelaten.

winnaars

De winnaars van de opdracht, v.l.n.r. A. Houtman, I. Lubbersen en E. Heffels.


De jury is erg lovend op de prestaties van de verschillende groepen en de suggesties die zij aandragen ter verbetering. Uiteindelijk gaat groep 3 naar huis met de prijzen, voornamelijk vanwege de interessante bevindingen en een constructieve feedback op AV Researcher XL. De tool blijkt zeker geschikt voor gebruik in de onderzoeksjournalistiek, al moet de gebruiker zich bewust zijn van de (vooralsnog) begrensde mogelijkheden.
Tijdens de afsluitende borrel blijkt dat de masterclass waardevol was voor zowel de deelnemers als de organisatie. De deelnemers zijn enthousiast over de mogelijkheden die AV Researcher NL nu al biedt en zien het potentieel voor toekomstig gebruik in de journalistiek. De organisatie is tevreden over de ontvangst van de tool en heeft voldoende handvatten aangereikt gekregen om AV Researcher XL verder te ontwikkelen.

 

Erica Renckens

 

 

Gehonoreerd met 12 miljoen euro

CLARIAH ontvangt een NWO-subsidie van 12 M€ om de digitale infrastructuur voor de Geesteswetenschappen - waarmee in het CLARIN programma al was begonnen - verder uit te bouwen. .

In het bijzijn van vele genodigden werd op dinsdag 1 juli door de staatssecretaris van OCW, Sander Dekker, en de voorzitter van NWO, Jos Engelen, officieel bekend gemaakt welke organisaties financiering krijgen voor hun voorstel in de 2e call van de Nationale Roadmap Grootschalige Onderzoeksfaciliteiten.

CLARIAH werd gehonoreerd met 12 M€.

Van alle gehonoreerde projecten werd een filmpje gemaakt waarin in 1 minuut wordt duidelijke gemaakt wat het programma precies behelst.

Meer informatie over CLARIAH:

 

 

Op dinsdagmiddag 11 februari was het zover: een deel van de commissie "National Roadmap for Large-Scale Research Facilities" die moet besluiten over het wel/niet honoreren van de Roadmap aanvragen (waarvan de CLARIAH-aanvraag er een is) kwam "op bezoek" bij CLARIAH in het Trippenhuis in Amsterdam.

Het bezoek bestond uit 3 onderdelen:

  • Presentatie van de aanvraag door José van Dijck
  • Discussie met de delegatie en de aanvragers van CLARIAH
  • Demo's door de onderzoekers van Nederlab, TROVEe en CLIO-INFRA
De CLARIAH aanvragers zitten te wachten op de commissie.

 

De algehele indruk van alle aanwezigen is positief; er is een uitstekende site visit georganiseerd waarin het belang en de urgentie van de infrastructuur duidelijk naar voren zijn gebracht. Natuurlijk kan het altijd beter maar de commissiedelegatie leek ons in elk geval goed gezind. De moeilijkste vraag was over onze relatie met het bedrijfsleven (en vooral waarom zij niet concreet hierin investeren).

De voorzitter gaf expliciet een compliment voor de uitstekende presentatie door José van Dijck, en ook de drie demonstraties die gegeven werden, lokten veel enthousiasme uit. Henk Wals zei dat het de beste site visit was die hij ooit had meegemaakt! Nu maar hopen dat onze positieve indruk ook correct is en zich vertaalt in financiering.

Wachten op de commissie om een demonstratie te geven.

 

Werk aan de winkel

Anders dan we wellicht gedacht hadden, zijn we er nog niet van af! De commissie heeft nl. gevraagd het voorstel op te delen in twee fases, waarbij ze nu hoogstens de eerste fase zullen financieren (ze zeiden dat ze dit aan alle projecten gingen vragen die nog in de running zijn), en waarbij we voor de tweede fase later opnieuw een voorstel moeten indienen. We moeten een voorstel hiervoor indienen in de eerste week van april. De commissie heeft haar eindvergadering op 17 april, en op 2 juni neemt het algemeen bestuur van NWO het uiteindelijke besluit.

Eerder zullen we het niet weten. Duimen dus maar!

 

Jan Odijk

Afgelopen week (14-15 januari 2014) vond bij het Huygens-ING in Den Haag de THATcampDH plaats. Ongeveer 60 enthousiastelingen (onderzoekers, techneuten en anderen werkzaam in de geestes- of sociale wetenschappen) kwamen 2 dagen bijeen om samen te leren en te werken. Het vaste programma was bewust zeer summier gehouden waardoor er veel ruimte was voor spontane initiatieven: iedereen die iets wilde doen, kon dat voorstellen. Dat waren er zoveel dat al snel de twee dagen gevuld waren.

Wat is een THATcamp?

Het staat voor “The Humanities and Technology Camp.” En is een zogeheten unconference: een open, goedkope bijeenkomst waar geesteswetenschappers en technici met uiteenlopende ervaring samen leren en werken aan spontaan geopperde ideeën. Een “unconference” verhoudt zich tot een conferentie als een seminar tot een lezing, als een dweilorkest tot een symfonieorkest. Het is informeel maar vereist wel een actieve deelnamen: je kunt niet achterover leunen en maar zien wat er komt!

Na de registratie en het koffiedrinken (uit een welkomsmok met THATcamp-logo) begon de unconference met een plenaire sessie waarin de do’s en don’ts werden uitgelegd. Vervolgens kon iedereen een idee naar voren brengen en al snel waren de 2 dagen gevuld met 19 sessies. Het einde van de eerste dag was gereserveerd voor de lancering van de nieuwe website van historici.nl.

Een belangrijk deel van het Camp speelde zich online af. Al tijdens de sessies maakten de deelnemers volop gebruik van de hashtag #THATCampDH om hun indrukken, foto's en leestips te delen via Twitter. Hierdoor waren ook mensen die niet naar Den Haag konden komen, in staat om een bijdrage aan de unconference te leveren. Organisator Gerben Zaagsma heeft een zeer nuttige verzameling tweets met informatie over relevante tools en projecten samengesteld.  

Het was niet verbazingwekkend dat ongeveer de helft van de aanwezigen op de een of andere manier betrokken waren bij CLARIN-projecten en/of de nieuwe CLARIAH-aanvraag. Wat betreft de andere helft: daar kon uitstekend het evangelie aan worden gepreekt!

Aflsuiting

Woensdagavond was de afsluitende bijeenkomst: bijna iedereen moe maar voldaan. Door de mogelijkheid om direct van alles te posten en zelf op de website te plaatsen, stonden aan het einde van de conferentie van een aantal sessies de eindverslagen al online!

Een van de (weinige) kritiekpunten was dat er te weinig echte hands-on experience geweest was. Een aantal mensen had gehoopt nog meer zelf aan het programmeren te kunnen gaan. Nu was het in hun ogen te vaak luisteren, kijken en praten over nieuwe software maar nog te weinig zelf proberen. Wellicht kan daar in een volgende versie aan tegemoet gekomen worden!

Al met al: twee gave en inspirerende dagen die weer een hoop nieuwe energie geven voor de Digital Humanities.

 

Arjan en Arwin