Nieuws
  • 23 Februari 2023

Een interview met Jan Odijk: emeritus hoogleraar & CLARIAH directeur

Na een indrukwekkende wetenschappelijke carrière gaat Jan Odijk, CLARIAH-directeur en hoogleraar Taal- en spraaktechnologie aan de Universiteit Utrecht, met emeritaat.

Officieel heeft Jan Odijk per eind september zijn werkzaamheden neergelegd, maar in de praktijk is hij nog regelmatig actief voor CLARIAH. “Dat zijn met name projecten die al liepen, hoor. Verder ben ik vooral aan het hobbyen. Al lijkt dat eigenlijk ook veel op wat ik in mijn werk al deed, maar dan zonder de vervelende klusjes die daar soms bijkwamen,” vertelt hij vanuit zijn werkkamer thuis in Bilthoven.

Odijk kan terugkijken op een respectabele carrière, zowel in de taal- en spraaktechnologie als breder in de Digital Humanities (DH), al vindt hij die term eigenlijk maar niks. Daarover later meer, eerst een overzicht van zijn cv in vogelvlucht. Na zijn afstuderen in 1981 werkte Odijk bijna 23 jaar (1985-2008) als taaltechnoloog voor bedrijven als Philips, Lernout & Hauspie, ScanSoft en Nuance. Daarnaast promoveerde hij in 1993 in Tilburg op een formele beschrijving van grammaticale constructies voor vertaalcomputers. In 2001 werd hij aan de Universiteit Utrecht benoemd tot professor in de taal- en spraaktechnologie. Vanuit die positie was hij betrokken bij verschillende projecten die uiteindelijk mede aan de wieg van CLARIAH hebben gestaan.

Zo zat hij in de stuurgroep van het Corpus Gesproken Nederlands (CGN), een geannoteerde verzameling van 900 uur hedendaagse Nederlandse spraak, en van IMIX, een project waarin een interactieve demonstrator werd ontwikkeld die medische vragen beantwoordt. Ook was hij voorzitter van de STEVIN-programmacommissie, een stimuleringsprogramma voor de taal- en spraaktechnologie. Vanaf 2009 was Odijk programmadirecteur van CLARIN-NL, de digitale infrastructuur voor geesteswetenschappers die met talige data werken. In 2013 bundelde CLARIN-NL de krachten met DARIAH, het andere geesteswetenschappelijke infrastructuurproject op de nationale roadmap van NWO, en was CLARIAH een feit. Odijk was vanaf de start directeur.

Methodologisch

Hoewel dit allemaal taalkundige projecten zijn, betekent dit niet per se dat de taalkunde aan de basis staat van de digitale geesteswetenschappen, stelt Odijk. “Toen ik in de jaren 80 computationele taalkunde gaf, waren er ook al computationele cursussen voor andere disciplines. Die werden gevolgd door historici, letterkundigen, dus dat was toen al veel breder. Wat wel zo is: bijna iedereen in de geesteswetenschappen bestudeert tekst. En om tekst te kunnen bestuderen, moet je taalkundige dingen doen. Meestal heb je dan meer nodig dan een zoekmachine alleen. Dus in die zin speelt de taalkunde misschien meer een primaire rol dan andere vakgebieden. Maar inmiddels is de taalkunde zelfs al een minderheid binnen CLARIAH. En als CLARIAH in de toekomst in SSHOC-NL gaat samenwerken met ODISSEI, de infrastructuur voor de sociale wetenschappen, zal het aandeel nog kleiner worden.”

Maar goed, nog even terug naar die term: digitale geesteswetenschappen (of Digital Humanities). “Daar ben ik dus helemaal niet blij mee,” vertelt Odijk. “De term suggereert dat het een vakgebied is, maar dat is het niet. Je bedrijft gewoon een discipline uit de geesteswetenschappen en gebruikt daarbij indien nodig computationele technieken.” En ‘computationeel’ is dan al beter dan ‘digitaal’, want: “tegenwoordig doet iedereen alles digitaal, met computers. De term Digital Humanities is simpelweg te groot en te vaag. Maar ik heb ook geen goed alternatief hoor, en deze term heeft nu eenmaal een ingang gevonden.”

De digitale geesteswetenschappen zijn dus eerder methodologisch dan vakinhoudelijk van aard. En in die zin bestaan ze al veel langer dan de term. “Die term kwam ergens rond 2008 op, maar de activiteit zelf is al heel oud.”

Veranderingen

De laatste tien, vijftien jaar heeft hij, wellicht toch als gevolg van introductie van de term, de geesteswetenschappen zien veranderen. “Er waren altijd wel een paar voorlopers die nieuwe technieken uitprobeerden, maar het gros werkte nog op de traditionele manier. Inmiddels is het aantal mensen dat met DH werkt flink gegroeid en wordt het ook steeds normaler om de methoden in het onderwijs op te nemen, zodat studenten er ook veel vertrouwder mee zijn.”

Die verandering is niet vanzelf tot stand gekomen. “In de beginfase van CLARIN-NL is Arjan van Hessen alle universiteiten afgegaan om met geesteswetenschappers te praten over de digitale mogelijkheden. Want als je niet weet wat realistisch mogelijk is, kun je je wensen ook niet zo formuleren dat een technisch iemand er iets mee kan. Zo leerden we technici en geesteswetenschappers dezelfde taal spreken.”

Ook kunnen inmiddels steeds meer geesteswetenschappers op zijn minst een beetje programmeren. “Eigenlijk vind ik dat elke geesteswetenschapper een programmeercursus moet volgen. Niet om zelf programmeur te worden, maar het maakt het praten met technische mensen een stuk makkelijker. Welke taal je kiest maakt dan niet zoveel uit – Python en R zijn nu populair – het gaat om de manier van gestructureerd en exact denken.”

Terugkijkend is Odijk het meest trots op de samenwerking tussen alle verschillende disciplines. “Het feit dat we sinds 2009, dus nu al bijna dertien jaar, in harmonie samenwerken aan infrastructuur voor de geesteswetenschappen. Dat is natuurlijk niet alleen aan mij toe te schrijven, het is een gezamenlijk resultaat. Maar het is wel een móói resultaat.”

Toekomst

Dat neemt niet weg dat hij nog wel verbeterpunten ziet voor CLARIAH in de toekomst. “Verschillen in formaten voor data en metadata maakt combineren van functionaliteiten vaak moeilijk. Een voorbeeld: hoewel er, mede op mijn initiatief, in de laatste jaren succesvol een standaard voor parlementaire data, Parla-CLARIN, is opgesteld en toegepast, is er nog een andere standaard voor parlementaire data waarvoor het te moeilijk leek die ook te integreren”, vertelt Odijk. “Dat blijf je waarschijnlijk ook houden, want het gaat uiteindelijk niet om de formaten, maar om de onderzoeksvragen en welke data daarvoor van belang zijn. Toch moet er continu aan gewerkt worden om te kijken of die standaarden toch kunnen samenwerken.”

Ook integratie van de vele zoekmachines staat hoog op zijn wensenlijstje. “Er zijn tientallen projecten geweest waarin steeds een zoekmachine is ontwikkeld met dan nog één specifieke functie erbij. Die moeten allemaal onderhouden worden, wat natuurlijk niet gaat lukken. Het zou veel verstandiger zijn om veel minder zoekengines te hebben, die wel makkelijk uitgebreid kunnen worden met nieuwe data of met geavanceerde manieren van zoeken, zoals sentiment mining of topic search.”

Voor zo’n geavanceerde manier van zoeken hebben gebruikers soms wel wat extra begeleiding nodig. “Een gebrek aan inzicht in hoe de onderliggende data gestructureerd zijn, speelt hen al snel parten”, ziet hij. “Zeker bij complexe datastructuren, zoals treebanks of een triple store. Die zijn ook lastig uit te leggen, dus dan moet je een manier vinden om de tool toch aan te bieden zonder dat die kennis nodig is. Daarvoor bestaat helaas geen pasklare oplossing. Maar bij GrETEL, een zoekmachine voor zinsstructuren, kun je bijvoorbeeld een voorbeeldzin ingeven van de constructie waarin je bent geïnteresseerd, waarna er automatisch een query voor je wordt geformuleerd. Dat helpt gebruikers enorm.”

“De digitale geesteswetenschappen zullen sowieso nooit ‘af’ zijn, want onderzoek is nooit klaar en de digitale geesteswetenschappen leveren de tools voor het onderzoek. Er zullen steeds weer nieuwe technieken of nieuwe aanpassingen van bestaande technieken nodig zijn om nieuwe onderzoeksvragen te beantwoorden”, blikt Odijk vooruit.

Zelf richt Odijk zich de komende tijd vooral op SASTA, een project waarbij hij inmiddels al enkele jaren betrokken is. “We ontwikkelen software om het taalgebruik van kinderen of patiënten met afasie te analyseren. Dat gebeurde voorheen handmatig, maar we hebben nu met goede resultaten een deel kunnen automatiseren. Daar ga ik ook na mijn pensioen nog lekker mee door.”

Interview door Erica Renckens, wetenschapsjournalist.