Achtergrond
Met de start van CLARIAH PLUS is een nieuw werkpakket aan de CLARIAH-familie toegevoegd: werkpakket 6 "Tekst". Het werkpakket heeft als doel ondersteuning te bieden voor onderzoekers die specifiek geïnteresseerd zijn in tekst. Denk hierbij aan letterkundigen, historici, filologen, en editiewetenschappers. Deze doelgroepen hebben vaak behoefte aan ondersteuning van de gehele digitale keten: van primaire digitalisering, verrijking en publicatie van digitale bronnen, tot onderricht in het gebruik van computationele analyse-gereedschappen.
Werkpakket 6 levert een online omgeving op waarbinnen deze onderzoekers bestaande digitale tekstbestanden kunnen raadplegen en deze kunnen analyseren met diverse statistisch en machine-learning gebaseerde analyse gereedschappen. De analyse-resultaten kunnen als verrijking worden opgeslagen in de CLARIAH-service-structuur zodat een circulaire vorm van datagebruik en -verrijking ontstaat.
Werkpakket 6 leunt op CLAAS (CLARIAH As A Service), de digitale infrastructuur die in andere wekrpaketten wordt ontwikkeld en opgeleverd. Een aantal use cases naar aanleiding van concrete onderzoeksvragen worden geïmplementeerd om te inventariseren hoe componentgebaseerde workflows op deze infrastructuur gebouwd kunnen worden. De infrastructureel-technische uitdaging voor werkpakket 6 is om bestaande resources (zoals die bijvoorbeeld beschikbaar zijn via Nederlab) aan te bieden op een wijze die geschikt is voor hergebruik door arbitraire tekstanalyse gereedschappen.
De inhoudelijk-techische uitdaging voor dit werkpakket is om de bestaande (en nieuw te digitaliseren) resources geschikt te maken voor computationele analyse. Dit is met name een probleem waar het bronnen met historische teksten betreft. Gereedschappen zoals Named Entity Recognition, grammaticale parsers, event-identificatie enzovoorts, zijn vaak wel getraind en beschikbaar voor modern Nederlands, maar niet voor historisch Nederlands. Het historisch Nederlands met zijn grote semantische verschillen en veranderlijke spelling kan zonder de ontwikkeling van specialistische gereedschappen niet goed met behulp van de computer worden onderzocht. Een centrale uitdaging is dan ook degelijke parsers te ontwerpen die geschikt zijn voor deze historische tekstuele bronnen en zo de vindbaarheid en doorzoekbaarhei van die bronnen te vergroten.
Binnen het pakket is nadrukkelijk aandacht voor disseminatie door documentatie en instructie. Digitale data en gereedschappen die worden opgeleverd, worden voorzien van voldoende documentatie en opleidingsmateriaal zodat voor onderzoekers op elk niveau van 'digitale geletterdheid' trainingsmogelijkheden beschikbaar zijn. Duidelijk maken wat wel én wat niet mogelijk is met de beschikbare data en wat computergereedschappen wel én niet kunnen doen, is een derde belangrijke uitdaging voor werkpakket 6 "Tekst"