De toenemende beschikbaarheid van grote hoeveelheden digitale gegevens is een van de belangrijkste redenen waarom een infrastructuurproject zoals CLARIAH CORE nodig is. De enorme hoeveelheden van de gegevens maken het onmogelijk om ze te onderzoeken op de traditionele manier. De onderzoeker moet digitale software gebruiken om hem / haar te helpen bij het vinden van potentieel relevante delen en het negeren van irrelevante. Verder kan er een analyse van de gegevens worden gemaakt. Het zoeken met behulp van software binnen en het analyseren van grote hoeveelheden digitale gegevens opent daadwerkelijk nieuwe mogelijkheden voor doorbraken in het alfa- onderzoek.  Resultaten worden namelijk gebaseerd op basis van veel meer gegevens dan ooit eerder mogelijk was. Daarnaast kan het gebruik van automatische analyse software in bepaalde zoek en analyse taken betrouwbaarder zijn dan handmatig (hoewel in andere gebieden mensen de software nog steeds verslaan).

Data is er in vele soorten. De belangrijkste types zijn natuurlijke geschreven teksten, audio-visuele data en gestructureerde data (databases). Alle drie soorten zijn vertegenwoordigd in CLARIAH. Hoewel alle soorten data voorkomen in alle kerndisciplines van CLARIAH, heeft elke kerndiscipline wel zijn eigen "dominante" data type:

  • Taalkunde: teksten
  • Sociaal-Economische geschiedenis: gestructureerde (vaak kwantitatieve) data
  • Media Studies: audio-visuele data

Daarnaast is er een discipline-onafhankelijk werkpakket dat zich richt op data en tools die nuttig of nodig zijn voor alle geesteswetenschappelijke disciplines.

Het gehele Engelstalige document valt hier te lezen.