WP6: Tekst

Werkpakket 6 stelt data en tools beschikbaar voor onderzoekers uit de literatuurwetenschap, geschiedenis, filosofie, en religiestudies, en voor andere onderzoekers die tekstuele data gebruiken.

Werkpakket 6 ontwikkelt daarvoor een online omgeving waarin onderzoekers met teksten kunnen werken in alle fasen van hun onderzoek. Die omgeving biedt data, tools en handleidingen voor een breed scala aan taken, zoals:

  • handgeschreven tekstherkenning (HTR)
  • optische tekenherkenning (OCR)
  • woordsoortcodering en lemmatisering voor historisch en hedendaags Nederlands
  • automatische herkenning van eigennamen (NER, named entity recognition)
  • het maken van wetenschappelijke digitale edities van teksten
  • het annoteren van teksten
  • het analyseren van teksten met computationele stilistische tools

De technisch-infrastructurele uitdaging voor werkpakket 6 is om bestaande middelen (zoals die bijvoorbeeld beschikbaar zijn via Nederlab) interoperabel te maken met nieuwe tools en datasets voor tekstanalyse. Om dit doel te bereiken proberen we workflows enformats voor digitale tekstanalyse zo veel mogelijk te standaardiseren aan de hand van bestaande conventies.

Daarnaast is een belangrijk doel van werkpakket 6 om ons werk zo veel mogelijk bekend te maken door documentatie en instructie. Deze kennisverspreiding is erop gericht om data en tools toegankelijk te maken en om samenwerking te stimuleren. Om data en tools toegankelijk te maken voor wetenschappers op verschillende niveaus van “digitale geletterdheid” en vaardigheid, waaronder onderzoekers zonder programmeerervaring, zijn documentatie en trainingsmateriaal belangrijk.

Tot slot zet werkpakket 6 zich in om tools en data beschikbaar te stellen op duurzame en verantwoordelijke wijze, en om de bruikbaarheid en toegankelijkheid van de producten te waarborgen op de lange termijn, net als alle andere werkpakketten in CLARIAH.

Voorbeelden van onderzoek uit WP6 Tekst