Bestaande Infrastructuur Taal- en Spraaktechnologie

In de afgelopen 15 jaar zijn er 3 grote, op Taal- en Spraaktechnologie gerichte infrastructuurprojecten geweest:

  • CGN: Corpus Gesproken Nederlands
  • STEVIN: Vlaams-Nederlandse TST-programma
  • CLARIN: Common Language Architecture Research Infrastructure Network

CGN

In de periode 1998-2004 is in het kader van het project Corpus Gesproken Nederlandse(CGN)gewerkt aan de aanleg van een databank voor het hedendaags Nederlands zoals dat door volwassen sprekers in Nederland en Vlaanderen wordt gesproken.

Het project Corpus Gesproken Nederlands was gericht op de aanleg van een databank van het hedendaags Nederlands zoals dat wordt gesproken door volwassenen in Nederland en Vlaanderen. Bij de start van het project werd een corpus beoogd met een omvang van circa tien miljoen woorden, waarvan tweederde deel afkomstig zou zijn uit Nederland, en eenderde uit Vlaanderen. In totaal ging het daarbij om circa 1000 uur spraak. Het eindresultaat zoals beschikbaar in versie 1.0 omvat ongeveer 9 miljoen woorden: zo'n 3,3 miljoen woorden daarvan zijn afkomstig uit Vlaanderen, ruim 5,6 miljoen woorden werden opgenomen in Nederland.

Het Corpus Gesproken Nederlands wordt gevormd door een selectie van een groot aantal fragmenten van spraakopnames. Al het materiaal werd orthografisch getranscribeerd, terwijl er tevens een oplijning plaatsvond waarbij de orthografische transcriptie gekoppeld werd aan het spraaksignaal. De orthografische transcriptie vormde het uitgangspunt voor de lemmatisering en de verrijking van het materiaal met woordsoortinformatie. Verder werd er voor een selectie van één miljoen woorden een brede fonetische transcriptie vervaardigd, kwam er een geverifieerde oplijning op woordniveau beschikbaar en werd het materiaal door middel van een syntactische analyse verrijkt. Tenslotte werd een bescheiden deel van het corpus, circa 250.000 woorden, van een prosodische annotatie voorzien.

De resultaten van dit project zijn in maart 2004 beschikbaar gekomen.

Resultaten

Voor een goede ontwikkeling van (Nederlandstalige) TST (Taal- en Spraaktechnologie) zijn het CGN, STEVIN en CLARIN-NL essentieel geweest. Veel bedrijven en universiteiten hebben het CGN en verschillende STEVIN-projecten gebruikt voor het testen en verbeteren van de spraakherkenners, voor het POS-tagging op gesproken data (itt geschreven data), voor het beter kunnen zoeken, etc.. Ook is er veel gepubliceerd: zowel wetenschappelijk als meer populair-wetenschappelijk.

 

CGN stevin CLARIN
CGN STEVIN CLARIN
  • 917 resultaten op spoken dutch corpus cgn
  • 862 resultaten op “spoken dutch corpus” (met de quotes)
De resultaten van het STEVIN programma staan in het STEVIN factbook (Spyns & Odijk).

CLARIN heeft ervoor gezorgd dat een groot deel van de bestaande data en tools nu ook beschikbaar zijn/komen voor niet-taaltechnologen (TTNWW, OpenSONAR). Voor een uitgebreider overzicht van de resultaten van CLARIN zie hier.