Le Congrès permanent de la langue occitane a engagé un partenariat transfrontalier – LINGUATEC - dans le cadre du deuxième appel à projets du programme 2014-2020 du POCTEFA (Programme de coopération transfrontalière Espagne-France-Andorre, financé par les fonds européens FEDER).
LINGUATEC est un projet ambitieux de développement des ressources et des outils numériques des langues pyrénéennes auquel participent le Congrès permanent de la langue occitane (Nouvelle/Aquitaine), Euskaltzaindia-Real academia de la lengua vasca, la Universidad del País vasco/Euskal Herriko Unibertsitatea, la fondation Elhuyar (Euskadi), la Sociedad de gestión e de promoción del turismo aragonés – SLU (Aragon), le CNRS-Délégation régionale de Midi-Pyrénées (Occitanie). L'Office public de la langue basque, l'Office public de la langue occitane, le CIRDOC (Occitanie) sont membres associés du projet.
pour le dévelopement d'outils numériques"
L’objectif est - par la coopération transfrontalière et le transfert de technologies - de développer et diffuser de nouvelles ressources et applications linguistiques innovantes pour l’aragonais, le basque et l’occitan : traducteurs automatiques, reconnaissance vocale, synthèse vocale, correcteur orthographique, analyse syntaxique et morphosyntaxique. Ces outils numériques de grande diffusion ont pour objectif de contribuer au développement et à l’intercompréhension numérique entre les différentes langues ainsi qu’à l’amélioration de leur transmision et de leur diffusion.
Cette initiative reprend également les axes forts du diagnostic et de la feuille de route de développement numérique de l’occitan piloté par l’ADEPFO en 2014. Ce document-cadre, auquel étaient associés des représentants du ministère de la Culture et de différentes collectivités, propose un programme d’action pour développer les ressources numériques pour l’occitan. Comme le décrit l’étude européenne Meta-Net, il s’agit là d’un enjeu majeur pour l’avenir des langues- et donc des politiques linguistiques - auquel il est possible de répondre de manière efficace avec un minimum de méthodologie et de moyens.
de Développement Régional"
LINGUATEC (EFA227/16) « Développement de la coopération transfrontalière et du transfert de connaissance en technologies de la langue » est un programme retenu par le second appel à projets du Programme de Coopération Territorial Espagne-France-Andorre POCTEFA (2014-2020) qui a pour objectif le transfert de technologies et le développement de ressources et d’applications linguistiques innovantes en aragonais, basque et occitan.
Plus d'information sur le site : linguatec-poctefa.eu
La reconnaissance vocale est l'outil qui analyse la voix et qui la transcrit sous la forme d'un texte écrit. Elle fait partie des technologies de traitement de la parole qui permettent aux humains d'échanger oralement avec les machines, grâce aux interfaces vocales.
La reconnaissance vocale est indispensable pour réaliser des outils comme le sous-titrage automatique de vidéos, les applications de dictée vocale ou les assistants personnels intelligents.
de reconnaissance vocale"
Le Congrès permanent de la langue occitane participe à un programme transfrontalier triennal avec l'objectif de doter l'occitan (pour ses variétés gasconne et languedocienne) de cette technologie.
Il travaille en partenariat avec la Rolde de Estudios Aragoneses (qui développe la même technologie pour la langue aragonaise), la fondation basque Elhuyar (en charge de la partie technique du programme) et plusieurs structures qui produisent des contenus multimédias en occitan.
Pourquoi la reconnaissance vocale en occitan ?
Les technologies de la langue – reconnaissance vocale, synthèse vocale, traduction automatique ou encore analyse sémantique – sont un enjeu vital pour les langues minorisées. Pour se projeter vers une société de plus en plus numérisée, elles doivent disposer des ressources et des outils nécessaires pour que les locuteurs échangent dans leur propre langue à travers des interfaces. Plusieurs programmes ont été réalisés en ce sens pour la langue occitane : Linguatec (traduction automatique et synthèse vocale), BaTelOc (base textuelle occitane), ROLF (claviers prédictifs).
permet la transcription de la voix en texte"
La reconnaissance vocale permet la transcription de la voix en texte, une technologie qui est aujourd'hui largement diffusée dans des applications grand public, notamment par les assistants personnels (Siri d'Apple, Google Home ou encore Alexa d'Amazon pour les plus connus) et pour le sous-titrage automatique de vidéos.
Exemples d'utilisation de la reconnaissance vocale
Assistants personnels
« Òc ben, Google ! » Le développement de la reconnaissance vocale permettra de passer les assistants personnels en occitan !
Sous-titrage de vidéos
Un programme de reconnaissance vocale permettra le sous-titrage automatique de vidéos dans plusieurs langues.
Transcription automatique
Un module de transcription automatique basé sur la reconnaissance vocale aidera le travail des linguistes.
Démonstration
Démonstrations de la reconnaissance vocale basque et espagnole d'Elhuyar
La plateforme de contribution
Pour récolter une grande quantité d'enregistrement transcrits, et qui soient représentatifs de la diversité des locuteurs de l'occitan, Le Congrès a développé un outil de contribution pour la communauté. Sur cette plateforme, chacun peut enregistrer des phrases qui seront ajoutées au corpus construit avec les partenaires.
La reconnaissance vocale, comment ça marche ?
La reconnaissance vocale utilise l'intelligence artificielle (les réseaux neuronaux) pour transcrire automatiquement la voix en texte écrit.
Avant de pouvoir le faire, il faut entraîner l'IA avec des phrases audios déjà transcrites. Il y a donc besoin d'un grand corpus audio transcrit, c'est à dire une grande quantité de texte avec les enregistrements audios correspondants.
Il faut également « nourrir » la machine avec de grands corpus de texte seul. Ainsi, elle peut apprendre quelles formes sont fréquentes, quel mot apparaît souvent à côté de tel autre...
Enfin, il faut développer des programmes :
- Un pour passer en lettres les nombres, les symboles, les abréviations, les unités de mesure... avant de donner un texte à la machine.
- Un « abréviateur » qui fait l'inverse, pour rendre plus lisibles les textes proposés aux utilisateurs.
- Un phonétiseur pour obtenir la prononciation en alphabet phonétique international d'un mot.
- Un programme pour avoir tous les mots qui correspondent à une prononciation.
Les étapes de l'entraînement et de la transcription
Le calendrier
2020 : Définition des exigences, spécifications fonctionnelles et constitution du corpus
Une première étape consistera à décrire les exigences techniques, ainsi que les spécifications fonctionnelles.
D'un point de vue technique, les développements pour l'occitan seront réalisés dans l'état de l'art, à savoir par l'utilisation de réseaux neuronaux (Intelligence Artificielle). Mais cette technologie de pointe nécessite un nombre très important de données. Seul un corpus riche, volumineux et varié garantira un résultat de qualité en fin de chaîne.
Pour ce faire, le Congrès a engagé un partenariat avec plusieurs producteurs de contenus textuels multimédias en occitan : institutions, médias, éditeurs, producteurs de contenus audiovisuels...
C'est pour cela que cette première phase sera essentiellement consacrée à un travail de collecte, de traitement (alignement texte/son) et de stockage de corpus textuels et audios pour l'occitan. On estime à 200 heures environ le besoin de transcriptions et à 500 millions de mots le corpus textuel pour chaque variété. L'occitan étant une langue encore trop peu dotée, nous compenserons par l'utilisation de corpus géants du français et de l'espagnol en obtenant, grâce à la traduction automatique, des corpus textuels occitans importants.
2021 : Finalisation et développement technologique
Une grande partie du projet sera réalisée pendant cette phase : terminer la collecte des données nécessaires, réaliser trois des quatre lots de travail plus techniques pour arriver à une version avancée du développement. Concrètement, nous prévoyons au moins une mise en oeuvre avancée des modules suivants :
- Création du modèle linguistique.
- Création du modèle acoustique.
- Développement du transcripteur.
2022 : Développement final et validation
Dans la première partie de cette dernière phase, tous les développements technologiques du projet seront terminés. La phase de construction des transcripteurs sera également finie. Une fois intégrées toutes les composantes technologiques, elles seront soumises à une série de tests intensifs d'évaluation.
Les acteurs
Membres et soutiens
ReVOc est un nouveau programme de développement de la reconnaissance vocale en occitan (variétés gasconne et languedocienne) engagé par le Congrès permanent de la langue occitane. Ce programme triennal (2020-2022) se déroule dans le cadre d'un partenariat transfrontalier qui associe l'institution aragonaise Rolde de Estudios Aragoneses (qui développera la même technologie pour la langue aragonaise) et la fondation basque Elhuyar (en charge de la partie technique du programme). Il est soutenu financièrement par la Région Nouvelle-Aquitaine, la Région Occitanie et le Département des Pyrénées-Atlantiques (appels à projets transfrontaliers).
Le partenariat pour la constitution des corpus
Pour entraîner l'intelligence artificielle, il faut de grandes quantités de données. L'occitan, langue dite « peu dotée », n'a généralement pas ces grands ensembles de données. Pour constituer le corpus audio et le corpus textuel nécessaires au développement de la reconnaissance vocale, Le Congrès ne pouvait pas œuvrer seul.
Un partenariat, d'une envergure inédite en ce qui concerne l'occitan, a donc été construit pour constituer une base audio et textuelle à laquelle plusieurs structures sont venues apporter leur contribution.
Et aussi
- Miquèu Baris
- Bernat Bergé
- Danís Chapduèlh
- David Escarpit
- David Grosclaude
- Gérard Sabadel
- Lo Blòg Hadiu
Dans le cadre de l’appel à projets 2021 de l’Eurorégion Nouvelle-Aquitaine/Euskadi/Navarre, le Congrès a été retenu avec deux partenaires basques, les fondations basques Elhuyar et Euskokultur, pour un programme triennal de développement de transcripteur automatique de vidéo entre les langues occitane, basque, française et espagnole. Il s’agit de développer un transcripteur automatique de la parole en occitan et pour les différentes langues parlées en Navarre (basque et espagnol). Concrètement, la technologie permettra, à partir d’une vidéo enregistrée, d’extraire et de transcrire la voix, de la traduire (en fonction des paires de langues disponibles), puis de générer et d’intégrer automatiquement des sous-titres dans la vidéo. A la sortie, on obtiendra automatiquement une vidéo avec le son original et une traduction en sous-titres.
Partenaires techniques
Partenaire financier
Le Congrès permanent de la langue occitane et le laboratoire CLLE-ERSS (CNRS / Université Toulouse-Jean-Jaurés) ont initié un partenariat visant à la création d'un lexique ouvert des formes fléchies de l'occitan (LOFlOc).
Cette initiative se fait dans le cadre de Restaure (RESsources informatisées et Traitement AUtomatique pour les langues Régionales), un projet ANR (Agence nationale de la recherche) qui voit s'associer CLLE-ERSS (université de Toulouse), LESCALP (université d'Amiens) et LILPA (Université de Strasbourg) autour du développement des ressources informatiques et des outils de traitement automatique pour trois langues régionales de France : alsacien, occitan et picard.
Dans la lignée du Morphalou pour le français ou du Lexic Obert Flexionat de Català, Lofloc sera un lexique des formes fléchies d'un lemme, à savoir une base lexicale monolingue comprenant une liste de mots occitans avec la catégorie grammaticale (type, genre, nombre, etc.), les formes fléchies (féminin, pluriel, conjugaison, etc.) et la variété.
Inscrit parmi les développements prioritaires de la feuille de route de développement numérique de l'occitan, Lofloc est une ressource indispensable à l'annotation des corpus textuels, mais également à la création d'applications numériques telles que la saisie prédictive et la correction orthographique.
Le projet Lexics a pour but de formater en XML (selon la norme TEI) tous les dictionnaires, lexiques spécialisés, bases toponymiques, lexiques flexionnels du Congrès et de ses partenaires. Ces lexiques formatés peuvent ensuite être intégrés dans des outils de TAL (correcteur orthographique, traducteur automatique, clavier prédictif) ou utilisés pour générer automatiquement ou semi-automatiquement d'autres ressources (dictionnaires de synonymes, dictionnaires de rimes, dictionnaires de locutions...).
La rédaction de la feuille de route de développement numérique de l'occitan, en 2014, a souligné le besoin pour les acteurs du TAL occitan de disposer de données standardisables et interopérables. Le Congrès a donc lancé ce projet qui a pour but de rendre ses lexiques croisables avec ses autres ressources (comme ses lexiques, qui sont eux aussi formatés en XML-TEI) et celles de ses partenaires.
toutes ses ressources au format TEI"
Ce formatage rend également les ressources lisibles par les machines. La norme TEI (Text encoding initiative) est un format de balisage pour le langage XML (Extensible Markup Language). Il permet, grâce à des balises, d'indiquer la nature de chaque élément d'un texte (mot, phrase, morphème...). Ainsi, les machines peuvent connaître la nature de chaque élément d'une entrée. Par exemple, elles savent quel est le mot-vedette, quelle est sa traduction, quelle est la catégorie grammaticale de sa traduction... Cela permet de générer automatiquement de nouvelles ressources en extrayant seulement ce dont il y a besoin, par exemple un mot et son féminin pour construire un lexique de formes fléchies, un mot et sa traduction pour construire un lexique pour un traducteur automatique...
de nouvelles ressources"
Le projet Lexics a permis de développer des ressources pour plusieurs outils du Congrès :
- Le traducteur automatique Revirada
- Le phonétiseur utilisé par la synthèse vocale Votz
- Les claviers prédictifs et correcteurs orthographiques Dicodòc
- Certains dictionnaires du Dicodòc : locutions, synonymes
- Laboratòri, l'outil de consultation avancée de lexiques occitans
Le projet Còrpus du Congrès a pour objectif la constitution d'un ensemble de corpus pour le développement d'outils de traitement automatique du langage. Il a un double objectif de quantité (pour pouvoir entraîner des intelligences artificielles) et de représentativité de la diversité de l'espace linguistique occitan. Ses textes sont formatés selon les standards du Congrès pour la norme TEI.
Plus de 60 partenaires ont fourni des données pour construire cette imposante ressource. Des médias, des éditeurs, des organismes de formation, des institutions, des particuliers, des associations culturelles... ont donné au Congrès des contenus aussi variés que des livres, des émissions de radio et de télévision, des vidéos sous-titrées, des articles de presse, des contenus de sites web, des compte-rendus ou documents de communication... S'y sont ajoutés plusieurs contenus libres de droits (Wikipédia, traductions de logiciels libres...). Les données viennent de tout le territoire et sont aussi bien écrites qu'orales.
ont fourni des données"
À l'heure actuelle, la base du projet Còrpus contient :
- Un corpus monolingue de plus de 8,5 millions de mots
- Un corpus parallèle occitan-français de plus d'un million de mots
- De petits corpus parallèles de l'occitan vers d'autres langues, pour un total de plus de 300 000 mots
- Un corpus audio aligné de plus de 250 heures pour presque 1,5 million de mots
Les corpus audio et écrits servent à entraîner l'intelligence artificielle du futur outil de reconnaissance vocale dans le cadre du projet ReVoc. Des sous-corpus ont également été utilisés pour tester le traducteur automatique Revirada et sélectionner des phrases à enregistrer pour la synthèse vocale Votz.
ROLF est un partenariat entre le Congrès permanent de la langue occitane, CLLE-ERSS (CNRS/Université Toulouse Jean-Jaurès), Habiter le monde (Université d’Amiens) et LiLPa (Université de Strasbourg) soutenu dans le cadre de l’appel à projets « Langues et numérique » de la Délégation générale à la langue française et aux langues de France-ministère de la Culture et la Communication.
pour les trois langues du projet"
Ce projet s’inscrit dans la continuité du projet ANR RESTAURE (RESsources informatisées et Traitement AUtomatique pour les langues REgionales) dans le cadre duquel plusieurs ressources et outils de TAL (Traitement automatique du langage) sont développées pour trois langues de France : alsacien, occitan et picard. Les réalisations des objectifs de RESTAURE sont en bonne voie. Cela étant, les développements ont été réalisés de manière concertée mais indépendante pour les trois langues. L’idée qui sous-tend la présente proposition est de définir pour les ressources lexicales un format unique qui permettrait de créer le même type de ressource pour les trois langues, de proposer des ressources dont le format et les annotations seraient identiques (avec par exemple les mêmes jeux d’étiquettes pour les catégories similaires dans les différentes langues), et d’avoir des outils d’aide à la création de ces ressources qui seraient partagés pour les trois langues.
pour mutualiser les développements"
Les développements ont été réalisés de manière concertée mais indépendante pour les trois langues avec l’objectif de la création d’un lexique de formes fléchies pour chacune d’entre elles. L’idée qui sous-tend la présente proposition est de relier les lexiques de chacune des trois langues entre eux en utilisant le français comme langue pivot et de développer des formats communs pour le développement mutualisé de ressources et d’outils.
Grâce au développement concerté pour ces trois langues, il a été également possible de proposer au grand public une première version en occitan du clavier prédictif (prévue par la Feuille de route de développement numérique de l’occitan pilotée par le Congrès), mais également en alsacien et en picard.
Le Congrès permanent de la langue occitane est porteur d’un programme d’action dans le cadre du CPER 2021-2027 pour les régions Nouvelle-Aquitaine et Occitanie : il s’agit d’un projet d’infrastructure numérique dédiée à la langue occitane, permettant de créer, structurer et relier différentes ressources lexicographiques, textuelles et toponymiques autour d’une interface de consultation publique, d’un niveau d’excellence comparable à celui du Centre national des ressources textuelles et lexicales pour la langue française (https://www.cnrtl.fr). Le programme prévoit différents travaux, dont la rédaction du dictionnaire général informatisé de la langue occitane, la restauration de la toponymie occitane (en partenariat avec l’IGN) sur les deux régions et le traitement massif des données au standard TAL (traitement automatique des langues).
Le programme a pour objectif de produire des outils numériques, d'utilisation gratuite et libre via ordinateurs et appareils connectés mobiles, visant à diffuser la transmission et l'usage d'une langue occitane de qualité.
Acquérir des ressources linguistiques permettant la diffusion et l’étude d'une langue de qualité
- la réalisation d'un dictionnaire général informatisé de la langue occitane. Comme pour ses langues voisines catalane et basque, l’occitan sera ainsi doté d’un dictionnaire descriptif complet, embrassant toutes les variétés de l’occitan, avec description phonologique, exemples, dictons, proverbes, citations littéraires. Il s’agit d’un travail de plusieurs années, nécessitant une équipe fournie dans le domaine de la lexicographie, qui aura une édition numérique qui permettra sa plus large diffusion grâce aux standards d’interopérabilité. Une édition papier en plusieurs volumes pourra être ultérieurement envisagée. Cette oeuvre académique de prestige est indispensable à la connaissance et à la diffusion de la langue. Depuis le Trésor du Félibrige de Frédéric Mistral, aucune oeuvre lexicographique panoccitane de ce niveau scientifique et de cette envergure n’a été produite à ce jour.
- l'augmentation de la base du multidictionnaire « dicod'Òc » notamment par les dictionnaires suivants : le Vayssier, le Mouly et l'Alibert et leur formatage, en TEI afin de permettre (ultérieurement), le développement de nombreuses applications linguistiques (dictionnaire des expressions, ...)
- Augmentation des bases textuelles occitanes annotées (données morphosyntaxiques) et couvrant la diversité de la langue (en variété et en genre littéraire) avec interface de consultation. En fonction des partenariats établis, cette opération sera éventuellement totalement ou partiellement fusionnée avec le programme BaTelÒc et ParcoLaf du laboratoire CLLE-ERSS (CNRS/Université Toulouse 2).
Objectifs : 10-25 millions de mots pour le corpus monolingue, 2-5 millions pour le corpus bilingue.
Restaurer, décrire et diffuser la toponymie occitane en Régions Nouvelle-Aquitaine et Occitanie (en partenariat avec l’IGN) :
Une convention a été signée entre le Congrès permanent de la langue occitane et l’IGN (Institut Géographique National). Le Congrès est désormais le référent de l’IGN pour l’occitan sur l’harmonisation des formes graphiques sur les 32 départements occitanophones. Après le Pays Basque, et la Catalogne, l'Occitanie bénéficiera ainsi d’une mise en valeur, tant au niveau national que local à travers ce projet d’envergure. Pour des contraintes de temps et d’espace, les travaux engagés n’auront pas le niveau de précision de ses prédécesseurs basque et catalan.
- Enquêtes de terrain : collectage oral auprès de locuteurs de langue maternelle occitane et un enquête écrite qui consiste à relever un minimum de formes anciennes dans les cartes (IGN, cadastre, canton, etc.) et dans les sources anciennes (livres terriers, bulletins paroissiaux, etc.).
- création d’un modèle de fiche d’identification nécessaire à la description précise (coordonnées géographiques, typologie, date et lieu du collectage, sources relevées, formes historiques, etc.) de chaque toponyme occitan.
- Constitution d’une base de données toponymiques avec une API (Application programming interface) permettant une exploitation via une recherche multicritère, accès via cartographie, etc.
Créer une plateforme numérique universelle et multivariétés
Elle sera dédiée aux données lexicographiques, textuelles et toponymiques occitanes, équivalent occitan du portail lexical français du Centre national de ressources textuelles (www.cnrtl.fr). Développé en lien avec La Farga, future plateforme collaborative d’accès, de valorisation, de développement et d’échange des ressources TAL (traitement automatique de langue) et informatique en occitan, le portail sera évolutif et développé selon les derniers standards en termes de formatage, d’accès et d’interopérabilité :
- Barre de recherche unique, en occitan ou en français, permettant une consultation des ressources locongres.org et CLLE-ERSS : flexions, synonymie, illustration sonore, traduction, définition, conjugaisons, citations en contexte, rimes, contexte dans les dictionnaires historiques (grâce à un adaptateur de graphie), toponymes (description et cartographie).
- Ensemble des données formatées en TEI, permettant l’interopérabilité des ressources et une ergonomie optimale avec accès instantané (chaque mot sera “cliquable”). Des API permettront un accès à distance de ces données pour d’autres plateformes ou applications.
- Interrogations de données externes via les API : IGN (cartographie), Wikipédia (encyclopédie), Occitanica (documentation), etc.
- Interface multiplateformes « responsive », avec un soin particulier pour un accès via les terminaux mobiles.
Une première édition publique de la plateforme, avec les variétés languedocienne et gasconne, est envisagée courant 2024, la version complète sera éditée en fin de programme.