TAL

Le congrès permanent de la langue occitane - feuille de route pour le développement numérique de l'occitan — Feuille de route pour le développement numérique de l'occitan

Grâce à différentes initiatives, ces dernières années ont vu apparaître des ressources et des outils numériques fort utiles pour l’occitan et ce dans plusieurs domaines : patrimoine, contenus encyclopédiques et lexicaux, travaux universitaires, audiovisuel, etc.

"une démarche inédite
autour de la question du numérique occitan."

Malgré tout, on constate que la langue souffre encore d'importants retards : logiciels pour le grand public, réseaux sociaux, jeux vidéos ou encore téléphones intelligents sont autant d'enjeux cruciaux pour la transmission de la langue – surtout pour les nouvelles générations ; le chantier est immense.

C'est pourquoi le Congrès, avec le soutien de l'ADEPFO (Association de développement des Pyrénées par la formation) a décidé de conduire une démarche inédite autour de la question du numérique occitan.

"logiciels pour le grand public, réseaux sociaux, jeux vidéos
sont autant d'enjeux cruciaux pour la transmission de la langue."

Ainsi une vingtaine de personnes représentatives de l'usage social de la langue (enseignement, formation, institutions, Université) ont réalisé une étude de huit mois avec l'aide de deux organismes d'Euskadi : la société de formation Media.kom et la fondation Elhuyar. Ils ont également rencontré des spécialistes des technologies du langage pour les langues basque, catalane, bretonne et galloise.

"un diagnostic du numérique occitan avec un inventaire de l'existant,
a conduit à une liste des besoins en outils et ressources."

L'objectif en était la production d'un document-cadre qui est à présent proposé aux collectivités partenaires afin qu'il soit intégré et mis en œuvre dans le cadre des politiques linguistiques publiques. Ce document fait d'abord un diagnostic du numérique occitan avec un inventaire de l'existant (dictionnaires en ligne, correcteurs orthographiques, etc.) et établit ensuite une liste des besoins en outils et ressources : traducteurs automatiques, claviers prédictifs pour les téléphones intelligents, etc.

Les travaux en cours du Congrès permanent de la langue occitane

Dans le cadre du déploiement de la Feuille de route de développement numérique de l'occitan, le Congrès a engagé plusieurs programmes opérationnels :

LINGUATEC, un programme européen (fonds FEDER) de développement et de diffusion de nouvelles ressources, outils et applications linguistiques innovantes pour l'aragonais, le basque et l’occitan.
ReVOc, un programme dédié de la technologie de reconnaissance vocale.
Le transcripteur automatique, un outil permettant le sous-titrage automatique de vidéos.
Le lexique ouvert des formes fléchies de l'occitan (LOFlOc), une ressource TAL de base nécessaire à de nombreux développements.
Le formatage TEI (Text Encodage Information) de l'ensemble des lexiques et des corpus du Congrès, afin de le rendre interopérable, de développer de nouveaux outils et de nouvelles ressources.
ROLF (Ressources outillage langues de France), un programme de développement de clavier prédictif Android pour l'alsacien, l'occitan et le picard.
Le Congrès a engagé un partenariat avec le C.N.R.S. pour l'interconnexion de ses données lexicographiques avec le Thesoc.
La future plateforme lexicale, textuelle et toponymique permettra de proposer aux usagers une infrastructure numérique de pointe.

Le numérique occitan s’est développé d’une façon générale ces dernières années : contenus encyclopédiques (Wikipèdia), patrimoine (Occitanica), médias (OCtele), réseaux sociaux sont autant de secteurs désormais investis. Toutefois la langue occitane pâtit toujours d’un important retard numérique avec, pour conséquence, une absence quasi totale dans des outils désormais courants (bureautique, téléphonie mobile, etc.). La prégnance croissante de ces technologies dans la vie quotidienne (travail, déplacements, consommation, éducation, vie sociale) font des technologies du langage un facteur supplémentaire de marginalisation pour une langue déjà minorisée.

"Le Congrès est engagé dans plusieurs programmes de développement
des technologies langagières pour l’occitan."

Ce phénomène est décrit et analysé dans une étude réalisée par META-NET, un réseau de recherche rassemblant différentes institutions, universités et centres de recherche et dont la mission principale est la mise en place de fondations technologiques solides pour une Europe multilingue. Son Livre blanc fait un état actuel des ressources et technologies du langage pour trente langues européennes dans six domaines (la traduction automatique, la synthèse et la reconnaissance vocales, la correction orthographique, l’analyse sémantique, l’analyse grammaticale et la génération automatique de texte) et propose également une grille commune de classification et d’évaluation des ressources et outils numériques. Les résultats de l’étude sont particulièrement alarmants : les éditeurs soulignent l’écart croissant entre les « grandes » et les « petites » langues, il est indispensable d’équiper toutes les langues (y compris les plus petites et les moins dotées) des technologies de base nécessaires, sans quoi ces langues sont condamnées à « l’extinction numérique ».

"plusieurs programmes opérationnels (traducteur automatique,
synthèse vocale, reconnaissance vocale, etc.)."

Pour ce faire, l’étude préconise la création massive de données, la mutualisation au niveau européen, le transfert technologique entre les langues, l’interopérabilité des ressources, des outils et des services.
Dans ce cadre le Congrès, avec l’ensemble de ses partenaires scientifiques et institutionnels, a engagé plusieurs programmes de développement des technologies langagières pour l’occitan : en 2014 est rédigée la Feuille de route de développement numérique l’occitan, un document cadre pluriannuel de planification des travaux, elle sera suivi de plusieurs programmes opérationnels (traducteur automatique, synthèse vocale, reconnaissance vocale, clavier prédictif, corpus, etc.).

La Farga est le portail collaboratif TAL (traitement automatique de la langue) pour l’occitan. Vous y accéderez à l’ensemble des ressources existantes grâce à l’inventaire des ressources, pourrez télécharger des outils (modules/plug-in), entrer en contact avec la communauté et faire connaître vos projets.

Interreg - Poctefa - Linguatec — Site internet deu programa : https://linguatec-poctefa.eu/

Le Congrès permanent de la langue occitane a engagé un partenariat transfrontalier – LINGUATEC - dans le cadre du deuxième appel à projets du programme 2014-2020 du POCTEFA (Programme de coopération transfrontalière Espagne-France-Andorre, financé par les fonds européens FEDER).

LINGUATEC est un projet ambitieux de développement des ressources et des outils numériques des langues pyrénéennes auquel participent le Congrès permanent de la langue occitane (Nouvelle/Aquitaine), Euskaltzaindia-Real academia de la lengua vasca, la Universidad del País vasco/Euskal Herriko Unibertsitatea, la fondation Elhuyar (Euskadi), la Sociedad de gestión e de promoción del turismo aragonés – SLU (Aragon), le CNRS-Délégation régionale de Midi-Pyrénées (Occitanie). L'Office public de la langue basque, l'Office public de la langue occitane, le CIRDOC (Occitanie) sont membres associés du projet.

"Un projet transfrontalier
pour le dévelopement d'outils numériques"

L’objectif est - par la coopération transfrontalière et le transfert de technologies - de développer et diffuser de nouvelles ressources et applications linguistiques innovantes pour l’aragonais, le basque et l’occitan : traducteurs automatiques, reconnaissance vocale, synthèse vocale, correcteur orthographique, analyse syntaxique et morphosyntaxique. Ces outils numériques de grande diffusion ont pour objectif de contribuer au développement et à l’intercompréhension numérique entre les différentes langues ainsi qu’à l’amélioration de leur transmision et de leur diffusion.

Cette initiative reprend également les axes forts du diagnostic et de la feuille de route de développement numérique de l’occitan piloté par l’ADEPFO en 2014. Ce document-cadre, auquel étaient associés des représentants du ministère de la Culture et de différentes collectivités, propose un programme d’action pour développer les ressources numériques pour l’occitan. Comme le décrit l’étude européenne Meta-Net, il s’agit là d’un enjeu majeur pour l’avenir des langues- et donc des politiques linguistiques - auquel il est possible de répondre de manière efficace avec un minimum de méthodologie et de moyens.

"Un programme financé par le Fonds Européen
de Développement Régional"

LINGUATEC (EFA227/16) « Développement de la coopération transfrontalière et du transfert de connaissance en technologies de la langue » est un programme retenu par le second appel à projets du Programme de Coopération Territorial Espagne-France-Andorre POCTEFA (2014-2020) qui a pour objectif le transfert de technologies et le développement de ressources et d’applications linguistiques innovantes en aragonais, basque et occitan.

Plus d'information sur le site : linguatec-poctefa.eu

La reconnaissance vocale est l'outil qui analyse la voix et qui la transcrit sous la forme d'un texte écrit. Elle fait partie des technologies de traitement de la parole qui permettent aux humains d'échanger oralement avec les machines, grâce aux interfaces vocales.

La reconnaissance vocale est indispensable pour réaliser des outils comme le sous-titrage automatique de vidéos, les applications de dictée vocale ou les assistants personnels intelligents.

"Doter l'occitan d'un outil
de reconnaissance vocale"

Le Congrès permanent de la langue occitane participe à un programme transfrontalier triennal avec l'objectif de doter l'occitan (pour ses variétés gasconne et languedocienne) de cette technologie.

Il travaille en partenariat avec la Rolde de Estudios Aragoneses (qui développe la même technologie pour la langue aragonaise), la fondation basque Elhuyar (en charge de la partie technique du programme) et plusieurs structures qui produisent des contenus multimédias en occitan.

Pourquoi la reconnaissance vocale en occitan ?

Les technologies de la langue – reconnaissance vocale, synthèse vocale, traduction automatique ou encore analyse sémantique – sont un enjeu vital pour les langues minorisées. Pour se projeter vers une société de plus en plus numérisée, elles doivent disposer des ressources et des outils nécessaires pour que les locuteurs échangent dans leur propre langue à travers des interfaces. Plusieurs programmes ont été réalisés en ce sens pour la langue occitane : Linguatec (traduction automatique et synthèse vocale), BaTelOc (base textuelle occitane), ROLF (claviers prédictifs).

"La reconnaissance vocale
permet la transcription de la voix en texte"

La reconnaissance vocale permet la transcription de la voix en texte, une technologie qui est aujourd'hui largement diffusée dans des applications grand public, notamment par les assistants personnels (Siri d'Apple, Google Home ou encore Alexa d'Amazon pour les plus connus) et pour le sous-titrage automatique de vidéos.

Exemples d'utilisation de la reconnaissance vocale

Assistants personnels

« Òc ben, Google ! » Le développement de la reconnaissance vocale permettra de passer les assistants personnels en occitan !

Sous-titrage de vidéos

Un programme de reconnaissance vocale permettra le sous-titrage automatique de vidéos dans plusieurs langues.

Transcription automatique

Un module de transcription automatique basé sur la reconnaissance vocale aidera le travail des linguistes.

Démonstration

Démonstrations de la reconnaissance vocale basque et espagnole d'Elhuyar

Voir la démonstration

La plateforme de contribution

Pour récolter une grande quantité d'enregistrement transcrits, et qui soient représentatifs de la diversité des locuteurs de l'occitan, Le Congrès a développé un outil de contribution pour la communauté. Sur cette plateforme, chacun peut enregistrer des phrases qui seront ajoutées au corpus construit avec les partenaires.

ReVOc

La plateforme de collecte du Congrès

Aller à la plateforme

La reconnaissance vocale, comment ça marche ?

La reconnaissance vocale utilise l'intelligence artificielle (les réseaux neuronaux) pour transcrire automatiquement la voix en texte écrit.

Avant de pouvoir le faire, il faut entraîner l'IA avec des phrases audios déjà transcrites. Il y a donc besoin d'un grand corpus audio transcrit, c'est à dire une grande quantité de texte avec les enregistrements audios correspondants.

Il faut également « nourrir » la machine avec de grands corpus de texte seul. Ainsi, elle peut apprendre quelles formes sont fréquentes, quel mot apparaît souvent à côté de tel autre...

Enfin, il faut développer des programmes :

Un pour passer en lettres les nombres, les symboles, les abréviations, les unités de mesure... avant de donner un texte à la machine.
Un « abréviateur » qui fait l'inverse, pour rendre plus lisibles les textes proposés aux utilisateurs.
Un phonétiseur pour obtenir la prononciation en alphabet phonétique international d'un mot.
Un programme pour avoir tous les mots qui correspondent à une prononciation.

Les étapes de l'entraînement et de la transcription

Le calendrier

2020 : Définition des exigences, spécifications fonctionnelles et constitution du corpus

Une première étape consistera à décrire les exigences techniques, ainsi que les spécifications fonctionnelles.

D'un point de vue technique, les développements pour l'occitan seront réalisés dans l'état de l'art, à savoir par l'utilisation de réseaux neuronaux (Intelligence Artificielle). Mais cette technologie de pointe nécessite un nombre très important de données. Seul un corpus riche, volumineux et varié garantira un résultat de qualité en fin de chaîne.

Pour ce faire, le Congrès a engagé un partenariat avec plusieurs producteurs de contenus textuels multimédias en occitan : institutions, médias, éditeurs, producteurs de contenus audiovisuels...

C'est pour cela que cette première phase sera essentiellement consacrée à un travail de collecte, de traitement (alignement texte/son) et de stockage de corpus textuels et audios pour l'occitan. On estime à 200 heures environ le besoin de transcriptions et à 500 millions de mots le corpus textuel pour chaque variété. L'occitan étant une langue encore trop peu dotée, nous compenserons par l'utilisation de corpus géants du français et de l'espagnol en obtenant, grâce à la traduction automatique, des corpus textuels occitans importants.

2021 : Finalisation et développement technologique

Une grande partie du projet sera réalisée pendant cette phase : terminer la collecte des données nécessaires, réaliser trois des quatre lots de travail plus techniques pour arriver à une version avancée du développement. Concrètement, nous prévoyons au moins une mise en oeuvre avancée des modules suivants :

Création du modèle linguistique.
Création du modèle acoustique.
Développement du transcripteur.

2022 : Développement final et validation

Dans la première partie de cette dernière phase, tous les développements technologiques du projet seront terminés. La phase de construction des transcripteurs sera également finie. Une fois intégrées toutes les composantes technologiques, elles seront soumises à une série de tests intensifs d'évaluation.

Les acteurs

Membres et soutiens

ReVOc est un nouveau programme de développement de la reconnaissance vocale en occitan (variétés gasconne et languedocienne) engagé par le Congrès permanent de la langue occitane. Ce programme triennal (2020-2022) se déroule dans le cadre d'un partenariat transfrontalier qui associe l'institution aragonaise Rolde de Estudios Aragoneses (qui développera la même technologie pour la langue aragonaise) et la fondation basque Elhuyar (en charge de la partie technique du programme). Il est soutenu financièrement par la Région Nouvelle-Aquitaine, la Région Occitanie et le Département des Pyrénées-Atlantiques (appels à projets transfrontaliers).

Le partenariat pour la constitution des corpus

Pour entraîner l'intelligence artificielle, il faut de grandes quantités de données. L'occitan, langue dite « peu dotée », n'a généralement pas ces grands ensembles de données. Pour constituer le corpus audio et le corpus textuel nécessaires au développement de la reconnaissance vocale, Le Congrès ne pouvait pas œuvrer seul.

Un partenariat, d'une envergure inédite en ce qui concerne l'occitan, a donc été construit pour constituer une base audio et textuelle à laquelle plusieurs structures sont venues apporter leur contribution.

Et aussi

Miquèu Baris
Bernat Bergé
Danís Chapduèlh
David Escarpit
David Grosclaude
Gérard Sabadel
Lo Blòg Hadiu

Lo-Congrès-sous-titrage-automatique-des-vidéos

"Une technologie permettant de traduire et de sous-titrer automatiquement une vidéo"

Dans le cadre de l’appel à projets 2021 de l’Eurorégion Nouvelle-Aquitaine/Euskadi/Navarre, le Congrès a été retenu avec deux partenaires basques, les fondations basques Elhuyar et Euskokultur, pour un programme triennal de développement de transcripteur automatique de vidéo entre les langues occitane, basque, française et espagnole. Il s’agit de développer un transcripteur automatique de la parole en occitan et pour les différentes langues parlées en Navarre (basque et espagnol). Concrètement, la technologie permettra, à partir d’une vidéo enregistrée, d’extraire et de transcrire la voix, de la traduire (en fonction des paires de langues disponibles), puis de générer et d’intégrer automatiquement des sous-titres dans la vidéo. A la sortie, on obtiendra automatiquement une vidéo avec le son original et une traduction en sous-titres.

Partenaires techniques

Partenaire financier

Lexique ouvert des formes fléchies de l'occitan

Le Congrès permanent de la langue occitane et le laboratoire CLLE-ERSS (CNRS / Université Toulouse-Jean-Jaurés) ont initié un partenariat visant à la création d'un lexique ouvert des formes fléchies de l'occitan (LOFlOc).

Cette initiative se fait dans le cadre de Restaure (RESsources informatisées et Traitement AUtomatique pour les langues Régionales), un projet ANR (Agence nationale de la recherche) qui voit s'associer CLLE-ERSS (université de Toulouse), LESCALP (université d'Amiens) et LILPA (Université de Strasbourg) autour du développement des ressources informatiques et des outils de traitement automatique pour trois langues régionales de France : alsacien, occitan et picard.

"Une ressource de base pour la création d'outils numériques : correcteur orthographique, clavier prédictif, traducteur automatique, etc."

Dans la lignée du Morphalou pour le français ou du Lexic Obert Flexionat de Català, Lofloc sera un lexique des formes fléchies d'un lemme, à savoir une base lexicale monolingue comprenant une liste de mots occitans avec la catégorie grammaticale (type, genre, nombre, etc.), les formes fléchies (féminin, pluriel, conjugaison, etc.) et la variété.

Inscrit parmi les développements prioritaires de la feuille de route de développement numérique de l'occitan, Lofloc est une ressource indispensable à l'annotation des corpus textuels, mais également à la création d'applications numériques telles que la saisie prédictive et la correction orthographique.

Le projet Lexics a pour but de formater en XML (selon la norme TEI) tous les dictionnaires, lexiques spécialisés, bases toponymiques, lexiques flexionnels du Congrès et de ses partenaires. Ces lexiques formatés peuvent ensuite être intégrés dans des outils de TAL (correcteur orthographique, traducteur automatique, clavier prédictif) ou utilisés pour générer automatiquement ou semi-automatiquement d'autres ressources (dictionnaires de synonymes, dictionnaires de rimes, dictionnaires de locutions...).

La rédaction de la feuille de route de développement numérique de l'occitan, en 2014, a souligné le besoin pour les acteurs du TAL occitan de disposer de données standardisables et interopérables. Le Congrès a donc lancé ce projet qui a pour but de rendre ses lexiques croisables avec ses autres ressources (comme ses lexiques, qui sont eux aussi formatés en XML-TEI) et celles de ses partenaires.

"le Congrès convertit
toutes ses ressources au format TEI"

Ce formatage rend également les ressources lisibles par les machines. La norme TEI (Text encoding initiative) est un format de balisage pour le langage XML (Extensible Markup Language). Il permet, grâce à des balises, d'indiquer la nature de chaque élément d'un texte (mot, phrase, morphème...). Ainsi, les machines peuvent connaître la nature de chaque élément d'une entrée. Par exemple, elles savent quel est le mot-vedette, quelle est sa traduction, quelle est la catégorie grammaticale de sa traduction... Cela permet de générer automatiquement de nouvelles ressources en extrayant seulement ce dont il y a besoin, par exemple un mot et son féminin pour construire un lexique de formes fléchies, un mot et sa traduction pour construire un lexique pour un traducteur automatique...

"cela permet de générer automatiquement
de nouvelles ressources"

Le projet Lexics a permis de développer des ressources pour plusieurs outils du Congrès :

Le traducteur automatique Revirada
Le phonétiseur utilisé par la synthèse vocale Votz
Les claviers prédictifs et correcteurs orthographiques Dicodòc
Certains dictionnaires du Dicodòc : locutions, synonymes
Laboratòri, l'outil de consultation avancée de lexiques occitans

En savoir plus sur la norme TEI utilisée par le Congrès.

Le projet Còrpus du Congrès a pour objectif la constitution d'un ensemble de corpus pour le développement d'outils de traitement automatique du langage. Il a un double objectif de quantité (pour pouvoir entraîner des intelligences artificielles) et de représentativité de la diversité de l'espace linguistique occitan. Ses textes sont formatés selon les standards du Congrès pour la norme TEI.

Plus de 60 partenaires ont fourni des données pour construire cette imposante ressource. Des médias, des éditeurs, des organismes de formation, des institutions, des particuliers, des associations culturelles... ont donné au Congrès des contenus aussi variés que des livres, des émissions de radio et de télévision, des vidéos sous-titrées, des articles de presse, des contenus de sites web, des compte-rendus ou documents de communication... S'y sont ajoutés plusieurs contenus libres de droits (Wikipédia, traductions de logiciels libres...). Les données viennent de tout le territoire et sont aussi bien écrites qu'orales.

"plus de 60 partenaires
ont fourni des données"

À l'heure actuelle, la base du projet Còrpus contient :

Un corpus monolingue de plus de 8,5 millions de mots
Un corpus parallèle occitan-français de plus d'un million de mots
De petits corpus parallèles de l'occitan vers d'autres langues, pour un total de plus de 300 000 mots
Un corpus audio aligné de plus de 250 heures pour presque 1,5 million de mots

Les corpus audio et écrits servent à entraîner l'intelligence artificielle du futur outil de reconnaissance vocale dans le cadre du projet ReVoc. Des sous-corpus ont également été utilisés pour tester le traducteur automatique Revirada et sélectionner des phrases à enregistrer pour la synthèse vocale Votz.

ROLF est un partenariat entre le Congrès permanent de la langue occitane, CLLE-ERSS (CNRS/Université Toulouse Jean-Jaurès), Habiter le monde (Université d’Amiens) et LiLPa (Université de Strasbourg) soutenu dans le cadre de l’appel à projets « Langues et numérique » de la Délégation générale à la langue française et aux langues de France-ministère de la Culture et la Communication.

"des outils partagés
pour les trois langues du projet"

Ce projet s’inscrit dans la continuité du projet ANR RESTAURE (RESsources informatisées et Traitement AUtomatique pour les langues REgionales) dans le cadre duquel plusieurs ressources et outils de TAL (Traitement automatique du langage) sont développées pour trois langues de France : alsacien, occitan et picard. Les réalisations des objectifs de RESTAURE sont en bonne voie. Cela étant, les développements ont été réalisés de manière concertée mais indépendante pour les trois langues. L’idée qui sous-tend la présente proposition est de définir pour les ressources lexicales un format unique qui permettrait de créer le même type de ressource pour les trois langues, de proposer des ressources dont le format et les annotations seraient identiques (avec par exemple les mêmes jeux d’étiquettes pour les catégories similaires dans les différentes langues), et d’avoir des outils d’aide à la création de ces ressources qui seraient partagés pour les trois langues.

"des formats communs
pour mutualiser les développements"

Les développements ont été réalisés de manière concertée mais indépendante pour les trois langues avec l’objectif de la création d’un lexique de formes fléchies pour chacune d’entre elles. L’idée qui sous-tend la présente proposition est de relier les lexiques de chacune des trois langues entre eux en utilisant le français comme langue pivot et de développer des formats communs pour le développement mutualisé de ressources et d’outils.

Grâce au développement concerté pour ces trois langues, il a été également possible de proposer au grand public une première version en occitan du clavier prédictif (prévue par la Feuille de route de développement numérique de l’occitanpilotée par le Congrès), mais également en alsacien et en picard.

Sous-catégories

Les chantiers

Feuille de route

Page 1 sur 2

COMPÉTENCES

TAL

Socialisation linguistique

Normes et normalisation

SERVICES

Grand public

Professionnels de la langue

Collectivités et entreprises

Enseignants et formateurs

Webmasters & développeurs

Malvoyants

ACTUALITÉS

Avec vous nous irons plus loin !

Reconnaissance vocale en occitan

Contribuez à la collecte de ressources vocales

Collecte de données

Participez à la collecte de données.

Soutenez le Congrès

Aidez la création d'applications occitanes.