Lettre de liaison :

Sélectionnez votre langue

Actualités

LREC 2024
LREC 2024

Après le traducteur automatique occitan en 2020, le prestigieux LREC, Conférence internationale sur les Ressources langagières et l’Évaluation a de nouveau retenu un article scientifique corédigé par le Congrès (Aura Séguier, Michaël Barret et Benaset Dazéas) et son partenaire technique Elhuyar (Iñigo Morcillo, Ander Corral, Igor Leturia, Xavier Sarasola) concernant le développement de la reconnaissance vocale en occitan.

La conférence LREC 2024 (dont la nouvelle édition se déroulera à Turin du 20 au 25 mai 2024) est un évènement international majeur dédié aux ressources du langage (LR) et à l’évaluation de technologies du langage (LT). L’objectif de LREC est d’offrir un aperçu de l’état de l’art, explorer les nouvelles orientations en recherche et développement et les tendances émergentes, d’échanger des informations sur les LR et leurs applications, les méthodologies et outils d’évaluation, les activités en cours et prévues, les utilisations et besoins industriels, les exigences requises par la société de l’information, tant en termes de politique que de questions technologiques et  organisationnelles.

Le fait que cet article ait été approuvé pour être présenté à la conférence mérite d’être mentionné. L’article retenu par LREC 2024 présente la conception d’un système de reconnaissance vocale (Automatic System Recognition ou ASR) pour deux variétés de l’occitan, le gascon et le languedocien. Un ASR neuronal de dernière génération a été utilisé pour l’occitan gascon et languedocien avec un nombre modeste d’heures d’enregistrement (238 heures voix-texte alignés) et de données textuelles (avec un corpus de 10 millions de mots). L’augmentation des données grâce à un corpus synthétique (généré grâce à la traduction automatique) a également été testée.

Le jury a salué le soin porté à la constitution du corpus, permettant une bonne prise en compte de la variation linguistique, ainsi que des excellents résultats obtenus malgré des données limitées : en effet la reconnaissance vocale en occitan obtient à ce jour une qualité de l’ordre de 80% ! Elle sera à terme accessible depuis une plateforme grand public qui sera créée à l’issue du programme POCTEFA LINGUATEC-IA.

La reconnaissance vocale est une technologie  ouvrant de nouvelles perspectives pour la langue occitane. En effet la transcription automatique - associée à la traduction automatique - de vidéos œuvre en faveur de sa diffusion et d’une meilleure inclusion dans la société de communication actuelle : médias, réseaux sociaux, communication institutionnelle.

Prévu dans la feuille de route de développement numérique de l’occitan et soutenu par les régions Nouvelle-Aquitaine et Occitanie, l’Eurorégion Nouvelle-Aquitaine-Euskadi-Navarre et le département des Pyrénées-Atlantiques, le programme a été réalisé par un consortium réunissant la fondation Elhuyar (Euskadi), le Congrès (Nouvelle-Aquitaine) et Rolde de Estudios Aragoneses (Aragon, qui a développé la même technologie pour la langue aragonaise). Il a également été permis grâce à un partenariat avec près de cinquante éditeurs et producteurs de contenus en occitan pour la constitution du corpus.