In de afgelopen 15 jaar zijn er 3 grote, op Taal- en Spraaktechnologie gerichte infrastructuurprojecten geweest:
- CGN: Corpus Gesproken Nederlands
- STEVIN: Vlaams-Nederlandse TST-programma
- CLARIN: Common Language Architecture Research Infrastructure Network
CGN
In de periode 1998-2004 is in het kader van het project Corpus Gesproken Nederlandse(CGN)gewerkt aan de aanleg van een databank voor het hedendaags Nederlands zoals dat door volwassen sprekers in Nederland en Vlaanderen wordt gesproken.
Het project Corpus Gesproken Nederlands was gericht op de aanleg van een databank van het hedendaags Nederlands zoals dat wordt gesproken door volwassenen in Nederland en Vlaanderen. Bij de start van het project werd een corpus beoogd met een omvang van circa tien miljoen woorden, waarvan tweederde deel afkomstig zou zijn uit Nederland, en eenderde uit Vlaanderen. In totaal ging het daarbij om circa 1000 uur spraak. Het eindresultaat zoals beschikbaar in versie 1.0 omvat ongeveer 9 miljoen woorden: zo'n 3,3 miljoen woorden daarvan zijn afkomstig uit Vlaanderen, ruim 5,6 miljoen woorden werden opgenomen in Nederland.
Het Corpus Gesproken Nederlands wordt gevormd door een selectie van een groot aantal fragmenten van spraakopnames. Al het materiaal werd orthografisch getranscribeerd, terwijl er tevens een oplijning plaatsvond waarbij de orthografische transcriptie gekoppeld werd aan het spraaksignaal. De orthografische transcriptie vormde het uitgangspunt voor de lemmatisering en de verrijking van het materiaal met woordsoortinformatie. Verder werd er voor een selectie van één miljoen woorden een brede fonetische transcriptie vervaardigd, kwam er een geverifieerde oplijning op woordniveau beschikbaar en werd het materiaal door middel van een syntactische analyse verrijkt. Tenslotte werd een bescheiden deel van het corpus, circa 250.000 woorden, van een prosodische annotatie voorzien.
De resultaten van dit project zijn in maart 2004 beschikbaar gekomen.
STEVIN
STEVIN (Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands) is een meerjarig onderzoeks- en stimuleringsprogramma voor Nederlandstalige taal- en spraaktechnologie dat gezamenlijk door de Vlaamse en Nederlandse overheid werd gefinancierd.
STEVIN had een tweeledig doel:
- Het stimuleren van de taal- en spraaktechnologische sector in Vlaanderen en Nederland door het financieren van strategisch onderzoek, het stimuleren van de vraag naar taal- en spraaktechnologische producten en het bevorderen van netwerking en kennisoverdracht. Op die manier kan de innovatiecapaciteit van deze sector verder worden vergroot.
- Het realiseren van een adequate digitale taalinfrastructuur voor het Nederlands zodat de positie van het Nederlands in de moderne informatie- en communicatiewereld kan worden versterkt. Een digitale taalinfrastructuur is het geheel van basistaalvoorzieningen (in feite de "grondstoffen") die nodig zijn om Nederlandstalige taal- en spraaktechnologische toepassingen te kunnen ontwikkelen. Het gaat hierbij om zowel data (zoals digitale gegevensbanken, corpora van geschreven en gesproken taal, elektronische woordenboeken en computationele lexicons) als om tools (software en trainingsmateriaal voor het helpen aanmaken van de verschillende soorten verrijking van het desbetreffende taalmateriaal).
Het programma STEVIN is officieel van start gegaan op 15 september 2004 en liep tot 2013. Het totaalbudget voor dit programma bedroeg 11,4 miljoen euro en werd gezamenlijk gedragen door de Vlaamse en de Nederlandse overheden.
CLARIN
CLARIAH kan gezien worden als de opvolging (en uitbreiding) van CLARIN-NL (2009-2015): een groot nationaal project dat tot doel had een centrale rol te spelen in de Europa-brede CLARIN-infrastructuur.
Overzicht van de publicatie
Lingua Special
In 2016 komt er een (Open Access) Lingua Special Issue olv Jan Odijk (eind-redacteur) met daarin artikelen van 10 groepen linguïsten uit Nederland, Vlaanderen, Tsjechië en Duitsland. In ieder van deze artikelen zullen de auteurs een taalkundig probleem behandelen en laten zien dat de CLARIN infrastructuur hierbij een cruciale rol speelt.
Interim Evaluatie
Het CLARIN Interim Evaluation Fact Book is te vinden op de CLARIN website net als een overzicht van de verschillende evaluaties.
Nieuwe project aanvragen
Verschillende onderzoekers hebben tijdens of na afloop van hun CLARIN-project een vervolg aanvraag geschreven en bij NWO of Europa ingediend.
Project |
Voortgekomen uit |
Financiers |
Translantis | WHASP/BILAND | NWO Horizon programme |
HERA ASYMENC | WHASP/BILAND | EU |
Talk of Europe / Traveling Clarin Campus | Polimedia | NWO/CLARIN-EU |
Data, Tools, Demonstrators en Applicaties in de CLARIN infrastructuur
De in CLARIN-NL gerealiseerde resultaten staan op de volgende pagina.
Het pan-Europese CLARIN-project is een stevige samenwerkingsinspanning bedoeld om bestaande en nieuwe taal-bronnen en taal-tools op gestandaardiseerde en gebruiksvriendelijke wijze voor de Geesteswetenschappen beschikbaar te maken. CLARIN biedt daarmee de mogelijkheid de computer op grote schaal in te zetten in het onderzoek naar de verschillende rollen die taal speelt in het menselijk bestaan: onderzoek dat zowel door Geesteswetenschappen als Sociale Wetenschappers gedaan wordt. Voorbeelden van deze rollen zijn “taal als drager van culturele inhoud en kennis", "taal als instrument van communicatie", "taal als onderdeel van de menselijke identiteit" en "taal als studieobject".
Resultaten
Voor een goede ontwikkeling van (Nederlandstalige) TST (Taal- en Spraaktechnologie) zijn het CGN, STEVIN en CLARIN essentieel geweest. Veel bedrijven en universiteiten hebben het CGN en verschillende STEVIN-projecten gebruikt voor het testen en verbeteren van de spraakherkenners, voor het POS-tagging op gesproken data (itt geschreven data), voor het beter kunnen zoeken, etc.. Ook is er veel gepubliceerd: zowel wetenschappelijk als meer populair-wetenschappelijk.
![]() |
![]() |
![]() |
CGN | STEVIN | CLARIN |
|
De resultaten van het STEVIN programma staan in het STEVIN factbook (Spyns & Odijk). |
CLARIN heeft ervoor gezorgd dat een groot deel van de bestaande data en tools nu ook beschikbaar zijn/komen voor niet-taaltechnologen (TTNWW, OpenSONAR). Voor een uitgebreider overzicht van de resultaten van CLARIN zie hier. |