La production de normes et œuvres normatives
La production de normes et œuvres normatives, dans différents domaines de la langue, suivant le principe majeur du renforcement de l'unité profonde de la langue et du respect de sa diversité, est une des missions qui lui ont été confiées : normes graphiques et linguistiques, lexicographie, lexicologie, terminologie, néologie, phonologie, graphie, grammaire, toponymie, etc…
Ces missions sont issues d'un processus collectif et démocratique qui rassemble les collectivités, les institutions et les fédérations historiques occitanes, et qui a mené à l'installation officielle du Congrès à l’hôtel de Région d'Aquitaine à Bordeaux, le 18 décembre 2011.
et sur le Conseil des usagers, l’autre conseil assesseur du Congrès."
Fort de la reconnaissance publique et sociale, Lo Congrès s’appuie sur son Conseil linguistique, une équipe de linguistes représentatifs de l'ensemble de l'espace occitan. Ce Conseil garantit l'excellence scientifique et académique des productions de notre institution. Le Conseil des usagers, l’autre conseil assesseur du Congrès, rassemble des représentants des secteurs de la transmission et de la diffusion de la langue, ce qui permet d'associer et de prendre en compte la demande sociale.
Le portail internet locongres.org, qui a d'abord répondu aux besoins prioritaires des usagers, notamment pour la lexicographie en ligne, propose à présent un espace dédié aux normes et œuvres normatives, qui sera progressivement agrandi et enrichi.
À travers des services de traduction et de soutien à la mise en place de contenus bilingues, par des travaux autour des toponymes occitans ou via des actions de socialisation et de sensibilisation, le pôle Lenga & Societat du Congrès accompagne les collectivités, les entreprises, les institutions, les associations dans leurs actions de construction d'une société où la langue occitane est présente dans tous les moments de la vie quotidienne.
Domaines d'activité
Traduction
Le pôle Lenga & Societat du Congrès se charge de traductions émanant de commandes de collectivités territoriales, mais également d’associations, d’entreprises ou encore de particuliers.
Toponymie
La toponymie occitane est importante pour la compréhension du lieu où l'on vit. Elle permet de restituer le sens du paysage à travers le patrimoine linguistique. En même temps, elle permet une meilleure visibilité de la langue dans l'espace public.
Terminologie
La terminologie est l'étude des termes propres à un domaine, à une activité. Le pôle Lenga & Societat mène des études terminologiques dans le but de constituer des lexiques spécialisés sur une thématique.
Socialisation
La socialisation de la langue est primordiale pour que celle-ci ne soit pas marginalisée, pour qu'elle soit visible dans l'espace public, dans l'espace social. C'est ça qui lui confère une certaine normalité.
Sensibilisation
Informer les collectivités et leurs élus permet de les « aculturer », de leur faire prendre conscience de la richesse que la langue et la culture représentent pour leur territoire.
Services
Traduction de contenu
Faites traduire vos documents, sites web, outils de communication... en occitan par des professionnels.
Traduction conseil
Où et comment intégrer la langue dans votre structure, dans vos locaux, sur votre territoire, dans votre communication ?
Traduction simultanée
Traduction simultanée de l'occitan au français ou du français à l'occitan pour vos événements multilingues.
Études toponymiques
Restitution ou validation des noms de communes, de rues... en occitan ; accompagnement signalétique bilingue.
Lexiques thématiques
Prestations en terminologie : Recherche du vocabulaire thématique adapté aux besoins de votre secteur.
Conseil toponymie
Pourquoi mettre en place une signalétique bilingue ? Quel intérêt pour le territoire ?
Politique linguistique
Intégrer et valoriser la langue occitane ? Sensibilisation et accompagnement auprès d'élus, de collectivités...
Fort de ses missions statutaires, l'équipe du Congrès a développé trois domaines de compétences :
- les normes linguistiques occitanes, réalisées avec l'appui des Conseillers scientifiques du Congrès et diffusées auprès du public à travers différentes oeuvres ou supports de référence : dictionnaires, bases lexicales et toponymiques, tableaux normés, etc.
- le Traitement Automatique des Langues (TAL) est un domaine de compétence pour lequel le Congrès, avec l'appui de ses partenaires scientifiques et techniques, est désormais reconnu comme référent pour la langue occitane. C'est dans ce cadre que le Congrès conduit plusieurs programmes opérationnels et développe différents outils et ressources pour les technologies langagières : traduction automatique, technologies de la parole, analyse sémantique, etc.
- Le Congrès dispose en son sein d'un pôle dédié à la diffusion de la langue dans la société (auprès des particuliers, entreprises, collectivités). Le pôle Langue et Société (Lenga et societat) propose plusieurs services en socialisation linguistique, dans les domaines de la traduction, de la terminologie, de la toponymie et de la sensibilisation linguistique.
Grâce à différentes initiatives, ces dernières années ont vu apparaître des ressources et des outils numériques fort utiles pour l’occitan et ce dans plusieurs domaines : patrimoine, contenus encyclopédiques et lexicaux, travaux universitaires, audiovisuel, etc.
autour de la question du numérique occitan."
Malgré tout, on constate que la langue souffre encore d'importants retards : logiciels pour le grand public, réseaux sociaux, jeux vidéos ou encore téléphones intelligents sont autant d'enjeux cruciaux pour la transmission de la langue – surtout pour les nouvelles générations ; le chantier est immense.
C'est pourquoi le Congrès, avec le soutien de l'ADEPFO (Association de développement des Pyrénées par la formation) a décidé de conduire une démarche inédite autour de la question du numérique occitan.
sont autant d'enjeux cruciaux pour la transmission de la langue."
Ainsi une vingtaine de personnes représentatives de l'usage social de la langue (enseignement, formation, institutions, Université) ont réalisé une étude de huit mois avec l'aide de deux organismes d'Euskadi : la société de formation Media.kom et la fondation Elhuyar. Ils ont également rencontré des spécialistes des technologies du langage pour les langues basque, catalane, bretonne et galloise.
a conduit à une liste des besoins en outils et ressources."
L'objectif en était la production d'un document-cadre qui est à présent proposé aux collectivités partenaires afin qu'il soit intégré et mis en œuvre dans le cadre des politiques linguistiques publiques. Ce document fait d'abord un diagnostic du numérique occitan avec un inventaire de l'existant (dictionnaires en ligne, correcteurs orthographiques, etc.) et établit ensuite une liste des besoins en outils et ressources : traducteurs automatiques, claviers prédictifs pour les téléphones intelligents, etc.
Dans le cadre du déploiement de la Feuille de route de développement numérique de l'occitan, le Congrès a engagé plusieurs programmes opérationnels :
- LINGUATEC, un programme européen (fonds FEDER) de développement et de diffusion de nouvelles ressources, outils et applications linguistiques innovantes pour l'aragonais, le basque et l’occitan.
- ReVOc, un programme dédié de la technologie de reconnaissance vocale.
- Le transcripteur automatique, un outil permettant le sous-titrage automatique de vidéos.
- Le lexique ouvert des formes fléchies de l'occitan (LOFlOc), une ressource TAL de base nécessaire à de nombreux développements.
- Le formatage TEI (Text Encodage Information) de l'ensemble des lexiques et des corpus du Congrès, afin de le rendre interopérable, de développer de nouveaux outils et de nouvelles ressources.
- ROLF (Ressources outillage langues de France), un programme de développement de clavier prédictif Android pour l'alsacien, l'occitan et le picard.
- Le Congrès a engagé un partenariat avec le C.N.R.S. pour l'interconnexion de ses données lexicographiques avec le Thesoc.
- La future plateforme lexicale, textuelle et toponymique permettra de proposer aux usagers une infrastructure numérique de pointe.
Le numérique occitan s’est développé d’une façon générale ces dernières années : contenus encyclopédiques (Wikipèdia), patrimoine (Occitanica), médias (OCtele), réseaux sociaux sont autant de secteurs désormais investis. Toutefois la langue occitane pâtit toujours d’un important retard numérique avec, pour conséquence, une absence quasi totale dans des outils désormais courants (bureautique, téléphonie mobile, etc.). La prégnance croissante de ces technologies dans la vie quotidienne (travail, déplacements, consommation, éducation, vie sociale) font des technologies du langage un facteur supplémentaire de marginalisation pour une langue déjà minorisée.
des technologies langagières pour l’occitan."
Ce phénomène est décrit et analysé dans une étude réalisée par META-NET, un réseau de recherche rassemblant différentes institutions, universités et centres de recherche et dont la mission principale est la mise en place de fondations technologiques solides pour une Europe multilingue. Son Livre blanc fait un état actuel des ressources et technologies du langage pour trente langues européennes dans six domaines (la traduction automatique, la synthèse et la reconnaissance vocales, la correction orthographique, l’analyse sémantique, l’analyse grammaticale et la génération automatique de texte) et propose également une grille commune de classification et d’évaluation des ressources et outils numériques. Les résultats de l’étude sont particulièrement alarmants : les éditeurs soulignent l’écart croissant entre les « grandes » et les « petites » langues, il est indispensable d’équiper toutes les langues (y compris les plus petites et les moins dotées) des technologies de base nécessaires, sans quoi ces langues sont condamnées à « l’extinction numérique ».
synthèse vocale, reconnaissance vocale, etc.)."
Pour ce faire, l’étude préconise la création massive de données, la mutualisation au niveau européen, le transfert technologique entre les langues, l’interopérabilité des ressources, des outils et des services.
Dans ce cadre le Congrès, avec l’ensemble de ses partenaires scientifiques et institutionnels, a engagé plusieurs programmes de développement des technologies langagières pour l’occitan : en 2014 est rédigée la Feuille de route de développement numérique l’occitan, un document cadre pluriannuel de planification des travaux, elle sera suivi de plusieurs programmes opérationnels (traducteur automatique, synthèse vocale, reconnaissance vocale, clavier prédictif, corpus, etc.).
La Farga est le portail collaboratif TAL (traitement automatique de la langue) pour l’occitan. Vous y accéderez à l’ensemble des ressources existantes grâce à l’inventaire des ressources, pourrez télécharger des outils (modules/plug-in), entrer en contact avec la communauté et faire connaître vos projets.
Le Congrès permanent de la langue occitane a engagé un partenariat transfrontalier – LINGUATEC - dans le cadre du deuxième appel à projets du programme 2014-2020 du POCTEFA (Programme de coopération transfrontalière Espagne-France-Andorre, financé par les fonds européens FEDER).
LINGUATEC est un projet ambitieux de développement des ressources et des outils numériques des langues pyrénéennes auquel participent le Congrès permanent de la langue occitane (Nouvelle/Aquitaine), Euskaltzaindia-Real academia de la lengua vasca, la Universidad del País vasco/Euskal Herriko Unibertsitatea, la fondation Elhuyar (Euskadi), la Sociedad de gestión e de promoción del turismo aragonés – SLU (Aragon), le CNRS-Délégation régionale de Midi-Pyrénées (Occitanie). L'Office public de la langue basque, l'Office public de la langue occitane, le CIRDOC (Occitanie) sont membres associés du projet.
pour le dévelopement d'outils numériques"
L’objectif est - par la coopération transfrontalière et le transfert de technologies - de développer et diffuser de nouvelles ressources et applications linguistiques innovantes pour l’aragonais, le basque et l’occitan : traducteurs automatiques, reconnaissance vocale, synthèse vocale, correcteur orthographique, analyse syntaxique et morphosyntaxique. Ces outils numériques de grande diffusion ont pour objectif de contribuer au développement et à l’intercompréhension numérique entre les différentes langues ainsi qu’à l’amélioration de leur transmision et de leur diffusion.
Cette initiative reprend également les axes forts du diagnostic et de la feuille de route de développement numérique de l’occitan piloté par l’ADEPFO en 2014. Ce document-cadre, auquel étaient associés des représentants du ministère de la Culture et de différentes collectivités, propose un programme d’action pour développer les ressources numériques pour l’occitan. Comme le décrit l’étude européenne Meta-Net, il s’agit là d’un enjeu majeur pour l’avenir des langues- et donc des politiques linguistiques - auquel il est possible de répondre de manière efficace avec un minimum de méthodologie et de moyens.
de Développement Régional"
LINGUATEC (EFA227/16) « Développement de la coopération transfrontalière et du transfert de connaissance en technologies de la langue » est un programme retenu par le second appel à projets du Programme de Coopération Territorial Espagne-France-Andorre POCTEFA (2014-2020) qui a pour objectif le transfert de technologies et le développement de ressources et d’applications linguistiques innovantes en aragonais, basque et occitan.
Plus d'information sur le site : linguatec-poctefa.eu
La reconnaissance vocale est l'outil qui analyse la voix et qui la transcrit sous la forme d'un texte écrit. Elle fait partie des technologies de traitement de la parole qui permettent aux humains d'échanger oralement avec les machines, grâce aux interfaces vocales.
La reconnaissance vocale est indispensable pour réaliser des outils comme le sous-titrage automatique de vidéos, les applications de dictée vocale ou les assistants personnels intelligents.
de reconnaissance vocale"
Le Congrès permanent de la langue occitane participe à un programme transfrontalier triennal avec l'objectif de doter l'occitan (pour ses variétés gasconne et languedocienne) de cette technologie.
Il travaille en partenariat avec la Rolde de Estudios Aragoneses (qui développe la même technologie pour la langue aragonaise), la fondation basque Elhuyar (en charge de la partie technique du programme) et plusieurs structures qui produisent des contenus multimédias en occitan.
Pourquoi la reconnaissance vocale en occitan ?
Les technologies de la langue – reconnaissance vocale, synthèse vocale, traduction automatique ou encore analyse sémantique – sont un enjeu vital pour les langues minorisées. Pour se projeter vers une société de plus en plus numérisée, elles doivent disposer des ressources et des outils nécessaires pour que les locuteurs échangent dans leur propre langue à travers des interfaces. Plusieurs programmes ont été réalisés en ce sens pour la langue occitane : Linguatec (traduction automatique et synthèse vocale), BaTelOc (base textuelle occitane), ROLF (claviers prédictifs).
permet la transcription de la voix en texte"
La reconnaissance vocale permet la transcription de la voix en texte, une technologie qui est aujourd'hui largement diffusée dans des applications grand public, notamment par les assistants personnels (Siri d'Apple, Google Home ou encore Alexa d'Amazon pour les plus connus) et pour le sous-titrage automatique de vidéos.
Exemples d'utilisation de la reconnaissance vocale
Assistants personnels
« Òc ben, Google ! » Le développement de la reconnaissance vocale permettra de passer les assistants personnels en occitan !
Sous-titrage de vidéos
Un programme de reconnaissance vocale permettra le sous-titrage automatique de vidéos dans plusieurs langues.
Transcription automatique
Un module de transcription automatique basé sur la reconnaissance vocale aidera le travail des linguistes.
Démonstration
Démonstrations de la reconnaissance vocale basque et espagnole d'Elhuyar
La plateforme de contribution
Pour récolter une grande quantité d'enregistrement transcrits, et qui soient représentatifs de la diversité des locuteurs de l'occitan, Le Congrès a développé un outil de contribution pour la communauté. Sur cette plateforme, chacun peut enregistrer des phrases qui seront ajoutées au corpus construit avec les partenaires.
La reconnaissance vocale, comment ça marche ?
La reconnaissance vocale utilise l'intelligence artificielle (les réseaux neuronaux) pour transcrire automatiquement la voix en texte écrit.
Avant de pouvoir le faire, il faut entraîner l'IA avec des phrases audios déjà transcrites. Il y a donc besoin d'un grand corpus audio transcrit, c'est à dire une grande quantité de texte avec les enregistrements audios correspondants.
Il faut également « nourrir » la machine avec de grands corpus de texte seul. Ainsi, elle peut apprendre quelles formes sont fréquentes, quel mot apparaît souvent à côté de tel autre...
Enfin, il faut développer des programmes :
- Un pour passer en lettres les nombres, les symboles, les abréviations, les unités de mesure... avant de donner un texte à la machine.
- Un « abréviateur » qui fait l'inverse, pour rendre plus lisibles les textes proposés aux utilisateurs.
- Un phonétiseur pour obtenir la prononciation en alphabet phonétique international d'un mot.
- Un programme pour avoir tous les mots qui correspondent à une prononciation.
Les étapes de l'entraînement et de la transcription
Le calendrier
2020 : Définition des exigences, spécifications fonctionnelles et constitution du corpus
Une première étape consistera à décrire les exigences techniques, ainsi que les spécifications fonctionnelles.
D'un point de vue technique, les développements pour l'occitan seront réalisés dans l'état de l'art, à savoir par l'utilisation de réseaux neuronaux (Intelligence Artificielle). Mais cette technologie de pointe nécessite un nombre très important de données. Seul un corpus riche, volumineux et varié garantira un résultat de qualité en fin de chaîne.
Pour ce faire, le Congrès a engagé un partenariat avec plusieurs producteurs de contenus textuels multimédias en occitan : institutions, médias, éditeurs, producteurs de contenus audiovisuels...
C'est pour cela que cette première phase sera essentiellement consacrée à un travail de collecte, de traitement (alignement texte/son) et de stockage de corpus textuels et audios pour l'occitan. On estime à 200 heures environ le besoin de transcriptions et à 500 millions de mots le corpus textuel pour chaque variété. L'occitan étant une langue encore trop peu dotée, nous compenserons par l'utilisation de corpus géants du français et de l'espagnol en obtenant, grâce à la traduction automatique, des corpus textuels occitans importants.
2021 : Finalisation et développement technologique
Une grande partie du projet sera réalisée pendant cette phase : terminer la collecte des données nécessaires, réaliser trois des quatre lots de travail plus techniques pour arriver à une version avancée du développement. Concrètement, nous prévoyons au moins une mise en oeuvre avancée des modules suivants :
- Création du modèle linguistique.
- Création du modèle acoustique.
- Développement du transcripteur.
2022 : Développement final et validation
Dans la première partie de cette dernière phase, tous les développements technologiques du projet seront terminés. La phase de construction des transcripteurs sera également finie. Une fois intégrées toutes les composantes technologiques, elles seront soumises à une série de tests intensifs d'évaluation.
Les acteurs
Membres et soutiens
ReVOc est un nouveau programme de développement de la reconnaissance vocale en occitan (variétés gasconne et languedocienne) engagé par le Congrès permanent de la langue occitane. Ce programme triennal (2020-2022) se déroule dans le cadre d'un partenariat transfrontalier qui associe l'institution aragonaise Rolde de Estudios Aragoneses (qui développera la même technologie pour la langue aragonaise) et la fondation basque Elhuyar (en charge de la partie technique du programme). Il est soutenu financièrement par la Région Nouvelle-Aquitaine, la Région Occitanie et le Département des Pyrénées-Atlantiques (appels à projets transfrontaliers).
Le partenariat pour la constitution des corpus
Pour entraîner l'intelligence artificielle, il faut de grandes quantités de données. L'occitan, langue dite « peu dotée », n'a généralement pas ces grands ensembles de données. Pour constituer le corpus audio et le corpus textuel nécessaires au développement de la reconnaissance vocale, Le Congrès ne pouvait pas œuvrer seul.
Un partenariat, d'une envergure inédite en ce qui concerne l'occitan, a donc été construit pour constituer une base audio et textuelle à laquelle plusieurs structures sont venues apporter leur contribution.
Et aussi
- Miquèu Baris
- Bernat Bergé
- Danís Chapduèlh
- David Escarpit
- David Grosclaude
- Gérard Sabadel
- Lo Blòg Hadiu
Dans le cadre de l’appel à projets 2021 de l’Eurorégion Nouvelle-Aquitaine/Euskadi/Navarre, le Congrès a été retenu avec deux partenaires basques, les fondations basques Elhuyar et Euskokultur, pour un programme triennal de développement de transcripteur automatique de vidéo entre les langues occitane, basque, française et espagnole. Il s’agit de développer un transcripteur automatique de la parole en occitan et pour les différentes langues parlées en Navarre (basque et espagnol). Concrètement, la technologie permettra, à partir d’une vidéo enregistrée, d’extraire et de transcrire la voix, de la traduire (en fonction des paires de langues disponibles), puis de générer et d’intégrer automatiquement des sous-titres dans la vidéo. A la sortie, on obtiendra automatiquement une vidéo avec le son original et une traduction en sous-titres.
Partenaires techniques
Partenaire financier
Le Congrès permanent de la langue occitane et le laboratoire CLLE-ERSS (CNRS / Université Toulouse-Jean-Jaurés) ont initié un partenariat visant à la création d'un lexique ouvert des formes fléchies de l'occitan (LOFlOc).
Cette initiative se fait dans le cadre de Restaure (RESsources informatisées et Traitement AUtomatique pour les langues Régionales), un projet ANR (Agence nationale de la recherche) qui voit s'associer CLLE-ERSS (université de Toulouse), LESCALP (université d'Amiens) et LILPA (Université de Strasbourg) autour du développement des ressources informatiques et des outils de traitement automatique pour trois langues régionales de France : alsacien, occitan et picard.
Dans la lignée du Morphalou pour le français ou du Lexic Obert Flexionat de Català, Lofloc sera un lexique des formes fléchies d'un lemme, à savoir une base lexicale monolingue comprenant une liste de mots occitans avec la catégorie grammaticale (type, genre, nombre, etc.), les formes fléchies (féminin, pluriel, conjugaison, etc.) et la variété.
Inscrit parmi les développements prioritaires de la feuille de route de développement numérique de l'occitan, Lofloc est une ressource indispensable à l'annotation des corpus textuels, mais également à la création d'applications numériques telles que la saisie prédictive et la correction orthographique.