Lettre de liaison :

ReVOc en chiffres : plus de 200 heures alignées en occitan !

ReVOc : + 200h !

Lancé en 2019, le projet ReVOc de la première reconnaissance vocale en occitan prend de l’ampleur, et cela n’est possible que grâce à la contribution de tous les acteurs qui œuvrent pour mutualiser leurs données linguistiques autour d'un projet commun.

Le grand besoin de corpus audio et écrits alignés a engagé lo Congrès dans une dynamique de conventionnement avec tous les acteurs de l'occitan mais, en dépit des corpus ainsi obtenus, cela ne permettait pas d’atteindre le nombre d'heures nécessaire pour forger l'outil de reconnaissance vocale, à savoir 200 heures par langue (et donc par variété, dans le cas de l'occitan).

C’est ainsi que l'idée est née de créer une plateforme contributive pour toute la communauté occitanophone (celle de Mozilla, Common Voice, ne sait pas gérer la multivariété interne d'une langue). Après son lancement officiel le 8 de décembre passé, nous sommes heureux de vous annoncer que la plateforme ReVOc a, en moins d'un an, dépassé les 87 heures de contribution, dont environ 50 h en occitan gascon, 37 h en occitan languedocien, et environ une demie heure pour les autres variétés.

Si l’on ajoute cette large contribution aux corpus de tous les acteurs de l'occitan, nous en sommes aujourd'hui à environ :

  • 105 heures alignées en occitan gascon,
  • 105 de plus en occitan languedocien,
  • et environ 2 heures de plus pour toutes les autres variétés.

Si les variétés concernées par le projet (l'occitan gascon et languedocien) sont bien représentées, le Congrès voulait profiter du programme pour proposer également l'outil contributif à toutes les variétés de l'occitan, et améliorer leur présence numérique.

Les étapes suivantes consistent à présent à :

  • Développer les corpus écrits (monolingues occitans et/ou plurilingues) pour le modèle linguistique : la littérature scientifique recommande de disposer d'environ 500 millions de mots d'une langue/variété. Nous en sommes pour le moment à 6 millions en occitan dont environ 3,5 millions en occitan languedocien et 2,5 en occitan gascon.
  • Développer les partenariats avec toutes les structures qui le souhaitent pour renforcer leur présence numérique dans leur variété.

Toutes les volontés sont bienvenues, et plusieurs contacts ont déjà été engagés avec plusieurs structures en ce sens. Il y a un grand besoin de diversité, de variété (de langue, d'âge, de qualité sonore, etc.), mais surtout de quantité.

Nous tenons cependant à remercier déjà les partenaires conventionnés : maisons d’éditions, journaux, producteurs audiovisuels, radios, institutions occitanes, mais aussi associations et particuliers ont été nombreux à mettre la main à la pâte dans cette entreprise, sans qui rien ne serait possible.

Nous remercions surtout tous les particuliers qui ont contribué et qui continuent de le faire sur la plateforme de chez eux, mais aussi à l'école (avec ReVOc Classes), et nous restons à la disposition de quiconque souhaite se joindre à cette mutualisation des ressources pour bâtir les outils numériques qualitatifs de demain en occitan.