TAL

Plateforme lexicale, textuelle et toponymique

"Une infrastructure numérique d'excellence pour la langue occitane"

Le Congrès permanent de la langue occitane est porteur d’un programme d’action dans le cadre du CPER 2021-2027 pour les régions Nouvelle-Aquitaine et Occitanie : il s’agit d’un projet d’infrastructure numérique dédiée à la langue occitane, permettant de créer, structurer et relier différentes ressources lexicographiques, textuelles et toponymiques autour d’une interface de consultation publique, d’un niveau d’excellence comparable à celui du Centre national des ressources textuelles et lexicales pour la langue française (https://www.cnrtl.fr). Le programme prévoit différents travaux, dont la rédaction du dictionnaire général informatisé de la langue occitane, la restauration de la toponymie occitane (en partenariat avec l’IGN) sur les deux régions et le traitement massif des données au standard TAL (traitement automatique des langues).

Le programme a pour objectif de produire des outils numériques, d'utilisation gratuite et libre via ordinateurs et appareils connectés mobiles, visant à diffuser la transmission et l'usage d'une langue occitane de qualité.

Acquérir des ressources linguistiques permettant la diffusion et l’étude d'une langue de qualité

"Un chantier historique"

la réalisation d'un dictionnaire général informatisé de la langue occitane. Comme pour ses langues voisines catalane et basque, l’occitan sera ainsi doté d’un dictionnaire descriptif complet, embrassant toutes les variétés de l’occitan, avec description phonologique, exemples, dictons, proverbes, citations littéraires. Il s’agit d’un travail de plusieurs années, nécessitant une équipe fournie dans le domaine de la lexicographie, qui aura une édition numérique qui permettra sa plus large diffusion grâce aux standards d’interopérabilité. Une édition papier en plusieurs volumes pourra être ultérieurement envisagée. Cette oeuvre académique de prestige est indispensable à la connaissance et à la diffusion de la langue. Depuis le Trésor du Félibrige de Frédéric Mistral, aucune oeuvre lexicographique panoccitane de ce niveau scientifique et de cette envergure n’a été produite à ce jour.

Extrait du Tresor dóu Felibritge de Frederic Mistral, dictionnaire descriptif de la langue d’oc, édité en 1886.

l'augmentation de la base du multidictionnaire « dicod'Òc » notamment par les dictionnaires suivants : le Vayssier, le Mouly et l'Alibert et leur formatage, en TEI afin de permettre (ultérieurement), le développement de nombreuses applications linguistiques (dictionnaire des expressions, ...)
Augmentation des bases textuelles occitanes annotées (données morphosyntaxiques) et couvrant la diversité de la langue (en variété et en genre littéraire) avec interface de consultation. En fonction des partenariats établis, cette opération sera éventuellement totalement ou partiellement fusionnée avec le programme BaTelÒc et ParcoLaf du laboratoire CLLE-ERSS (CNRS/Université Toulouse 2).

Objectifs : 10-25 millions de mots pour le corpus monolingue, 2-5 millions pour le corpus bilingue.

Restaurer, décrire et diffuser la toponymie occitane en Régions Nouvelle-Aquitaine et Occitanie (en partenariat avec l’IGN) :

Une convention a été signée entre le Congrès permanent de la langue occitane et l’IGN (Institut Géographique National). Le Congrès est désormais le référent de l’IGN pour l’occitan sur l’harmonisation des formes graphiques sur les 32 départements occitanophones. Après le Pays Basque, et la Catalogne, l'Occitanie bénéficiera ainsi d’une mise en valeur, tant au niveau national que local à travers ce projet d’envergure. Pour des contraintes de temps et d’espace, les travaux engagés n’auront pas le niveau de précision de ses prédécesseurs basque et catalan.

"Un programme ambitieux de restauration de la toponymie occitane"

Hôtel de Région à Toulouse le 28 novembre 2019, signature de la Convention entre Philippe Abbadie (IGN) et Gilbert Mercadier (Congrès permanent de la langue occitane) en présence de Mme Carole Delga, Présidente de la Région Occitanie.

Enquêtes de terrain : collectage oral auprès de locuteurs de langue maternelle occitane et un enquête écrite qui consiste à relever un minimum de formes anciennes dans les cartes (IGN, cadastre, canton, etc.) et dans les sources anciennes (livres terriers, bulletins paroissiaux, etc.).
création d’un modèle de fiche d’identification nécessaire à la description précise (coordonnées géographiques, typologie, date et lieu du collectage, sources relevées, formes historiques, etc.) de chaque toponyme occitan.
Constitution d’une base de données toponymiques avec une API (Application programming interface) permettant une exploitation via une recherche multicritère, accès via cartographie, etc.

Openstreetmap est devenu un standard cartographique. Ici la version occitane dont les noms de commune augmente régulièrement.

Créer une plateforme numérique universelle et multivariétés

Elle sera dédiée aux données lexicographiques, textuelles et toponymiques occitanes, équivalent occitan du portail lexical français du Centre national de ressources textuelles (www.cnrtl.fr). Développé en lien avec La Farga, future plateforme collaborative d’accès, de valorisation, de développement et d’échange des ressources TAL (traitement automatique de langue) et informatique en occitan, le portail sera évolutif et développé selon les derniers standards en termes de formatage, d’accès et d’interopérabilité :

"Une interface moderne impulsée par des technologies de pointe"

Prototype de la plateforme linguistique occitane : un accès unique à toutes les ressources : dictionnaires, lexiques spécialisés, conjugaisons, corpus textuels, toponymie, etc. (ici avec l’exemple du mot “marcha”).

Barre de recherche unique, en occitan ou en français, permettant une consultation des ressources locongres.org et CLLE-ERSS : flexions, synonymie, illustration sonore, traduction, définition, conjugaisons, citations en contexte, rimes, contexte dans les dictionnaires historiques (grâce à un adaptateur de graphie), toponymes (description et cartographie).
Ensemble des données formatées en TEI, permettant l’interopérabilité des ressources et une ergonomie optimale avec accès instantané (chaque mot sera “cliquable”). Des API permettront un accès à distance de ces données pour d’autres plateformes ou applications.
Interrogations de données externes via les API : IGN (cartographie), Wikipédia (encyclopédie), Occitanica (documentation), etc.
Interface multiplateformes « responsive », avec un soin particulier pour un accès via les terminaux mobiles.

Une première édition publique de la plateforme, avec les variétés languedocienne et gasconne, est envisagée courant 2024, la version complète sera éditée en fin de programme.

Soutiens financiers

Interreg - Poctefa - Linguatec — Site internet deu programa : https://linguatec-poctefa.eu/

Le Congrès permanent de la langue occitane participe à un programme transfrontalier visant à faire progresser la numérisation de l'aragonais, du catalan, du basque et de l'occitan, grâce à l'intelligence artificielle

Objectif

L'objectif du projet est de développer des connaissances en intelligence artificielle (IA) sur de nouveaux modèles de langues neuronales applicables aux langues avec peu de ressources, d'avancer dans la numérisation des langues du territoire POCTEFA (aragonais, catalan, basque et occitan) et dans la construction d'une infrastructure linguistique et transfrontalière intelligente facilitant la communication entre les locuteurs des différentes langues ainsi que l'accès multilingue à l'information.

Le projet vise à :
- Construire de nouveaux algorithmes et architectures neuronaux pour générer
des modèles de langage neuronal adaptés aux régimes de calcul et aux ressources linguistiques limitées.
- Améliorer les systèmes de transcription, de traduction automatique neuronale et de synthèse vocale pour le basque, le catalan, l'occitan, l'aragonais et leurs variantes dialectales, en combinant le français et l'espagnol.
- Développer une plateforme linguistique multilingue pour le sous-titrage et le doublage automatiques.
- Créer une plateforme ou un référentiel en ligne de ressources, de technologies et d'applications pour les langues des Pyrénées
- Consolider le « Réseau transfrontalier d'excellence en technologies linguistiques ».

Le projet européen EFA 104/01-LINGUATEC AI (Intelligence Artificielle) est cofinancé par le Fonds Européen de Développement Régional (FEDER) à travers le 1er appel INTERREG POCTEFA 2021-2027. Cette subvention soutiendra l'innovation, en misant sur la recherche appliquée en intelligence artificielle dans le traitement du langage naturel (NLP). Elle contribuera également à l'articulation sociale et culturelle du territoire transfrontalier en renforçant un élément clé de la culture locale, les langues.

Délai d'exécution

Début : 2024/01/01

Fin : 2026/12/31

Composition du consortium

Elhuyar (par le biais de son hub Orai)
Lo Congrés Permanent de la Lenga Occitana
HITZ zentroa (UPV/EHU)
Université Jean-Jaurès de Toulouse
Université de Perpignan
IKER-CNRS de Baiona
Gouvernement d'Aragon
Université de Lleida

Budget

Budget total: 1.545.953,42 €
Budget FEDER: 1.004.867,00 €

Le projet LINGUATEC-IA est financé à 65% par l'Union européenne à travers le programme Interreg VI-A Espagne-France-Andorre (POCTEFA 2021-2027). Le POCTEFA a pour objectif de renforcer l'intégration économique et sociale de la zone frontalière Espagne-France-Andorre.

Plus d'information sur le site : linguatec-poctefa.eu

Le congrès permanent de la langue occitane - feuille de route pour le développement numérique de l'occitan — Feuille de route pour le développement numérique de l'occitan

La feuille de route pour le développement numérique de l'occitan utilise la méthode de l'étude de MetaNet (site internet), un réseau européen d'excellence dédié à la promotion des fondations technologiques d'une société multilingue de l'information en Europe. Réalisée par plus de 200 experts internationaux, cette étude fait l'état actuel des ressources et technologies du langage pour 30 langues européennes dans 6 domaines : la traduction automatique, la synthèse et la reconnaissance vocales, la correction orthographique, l'analyse sémantique, l'analyse grammaticale et la génération automatique de texte.

"feuille de route pour le développement numérique de l'occitan,
la méthode de MetaNet a été utilisée"

Diagnostic et feuille de route

Diagnostic et feuille de route pour le développement numérique de la langue occitane

Voir le document

Elle propose également une grille commune de classification et d'évaluation des ressources et outils numériques. Le diagnostic de soutien technologique de la langue occitane nous a permis de recueillir des données objectives concernant la situation numérique de l'occitan (inventaire), et, après échanges avec des experts internationaux (langues basque, bretonne, catalane et galloise), d'identifier les besoins. Pour ces dernières, la feuille de route ci-dessous propose une projection de développement 2015-2019.

Résultat synthétique et projection sur les actions à réaliser

Un état des lieux actualisé de l'ensemble du TAL occitan est disponible sur le site de La Farga.

Définition des besoins prioritaires

Avant de préciser l'étape des objectifs, nous avons déterminé les besoins prioritaires pour la langue occitane, qui découlent de l'analyse de l'inventaire et des expériences d'autres langues.

Type de ressource : Corpus
Ressource à créer : Corpus textuels

Type de ressource : Ressources lexicales
Ressource à créer : Base lexicale monolingue et base lexicale bilingue

Type de ressource : Grammaires
Ressource à créer : Base grammaticale / Syntaxique

En prenant cet ensemble de priorités comme point de départ, le groupe de travail a dû préciser les objectifs stratégiques du développement des technologies langagières pour l'occitan. Nous détaillons ces objectifs dans la section suivante.

Définition des objectifs

Corpus

Type de ressource : Corpus
Ressource à créer : Corpus textuels

Objectifs

Trois types de corpus spécialisés :

- Corpus de textes validés, à partir de documents originellement imprimés ; objectif : 10 à 25 millions de mots
- Corpus web : corpus construit automatiquement en utilisant des documents publiés sur Internet ; objectif : 5 millions de mots
- Corpus parallèle français-occitan ; objectif : 2 à 5 millions

Caractérisation de textes inclus : variantes, genre, domaine de connaissances,périodes, qualité linguistique (à définir).
Niveau d'analyse linguistique : catégorie, puis lemme ; analyse syntaxique (dépendances).

Réalisé

Projet « Còrpus » du Congrès : réalisation d’un corpus multivariété et multimodal (monolingue, bilingue aligné, audio aligné) : https://dicodoc.eu/oc/corpus

En août 2022 :

- Corpus monolingue : 8,5 millions de mots
- Corpus bilingue : 1 million de mots occitans alignés avec le français, 9 000 mots occitans alignés avec une autre langue
- Corpus audio : 1,5 million de mots, 250 heures

Et aussi :

BaTelÒc, Basa Textuala per la lenga d’Òc de CLLE-ERSS : corpus monolingue de 3,3 millions de mots : http://redac.univ-tlse2.fr/bateloc/
Linguatec Tolosa Treebank de CLLE-ERSS : corpus monolingue de 14 000 mots annotés syntaxiquement : https://zenodo.org/record/3708268
Mémoires de traduction de mejans.fr : corpus bilingue anglais-occitan languedocien de 150 000 phrases : https://www.mejans.fr/article/memoria-de-traduccion.html
OcWikiDisc : Corpus TAL généré à partir des pages de discussion de la Wikipèdia en occitan (430 000 mots).
Oscar : Corpus TAL moissonné sur le web pour de nombreuses langues, dont l'occitan (34 000 mots pour l'occitan)
Còrpus parallèle Softcatalà : Corpus d'entraînement du système de traduction neuronal de Softcatala, avec des textes alignés du catalan vers plusieurs langues dont l'occitan languedocien (46 millions de mots).
ParCoLaF : Corpus de textes alignés en occitan, français et anglais, à consulter en ligne : http://parcolab.univ-tlse2.fr/parcolaf/
Annotated Corpus for Occitan : Corpus de plus de 12 000 tokens annotés avec les catégories grammaticales et les lemmes.
OcWikiAnnot : Corpus tiré de Wikipèdia, annoté en POS et lemmatisé (2 millions de mots).
Mozilla Common Voice, corpus aligné de phrases audio avec leur transcription (10 000 mots, 1h45) : https://commonvoice.mozilla.org/fr
ReVOc, corpus aligné aligné de phrase audio avec leur transcription 136 heures pour le gascon et 126 heures pour le languedocien : https://contribuir.locongres.com/revoc

Objectifs

Caractérisation de textes inclus : variétés, genre, domaine de connaissances, périodes, qualité linguistique (à définir).

Réalisé

Variétés et graphies étiquetées dans le projet Còrpus : https://corpus.locongres.com
Variétés, graphies et genre étiquetés dans BaTelÒc (Qualité linguistique élevée) : http://redac.univ-tlse2.fr/bateloc/

Objectifs

Niveau d'analyse linguistique : catégorie, puis lemme ; analyse syntaxique (dépendances).

Réalisé

Tolosa Linguatec Treebank de CLLE-ERSS annoté syntaxiquement : https://zenodo.org/record/3708268

Ressources lexicales

Type de ressource : Ressources lexicales - lexiques / Bases terminologiques
Ressource à créer : Base lexicale monolingue

Objectif

Base de données lexicale pour l'occitan : a) entre 500 000 et un million d'entrées à terme (y compris les formes fléchies) ; b) information sur chaque entrée : entrée, lemme, catégorie grammaticale, informations morphosyntaxiques, variante, usage (hyperonymie, domaine, registre, géographique…) lien entre variantes.

Réalisé

Dictionnaire monolingue d'Apertium et Revirada : Liste de 220 000 lemmes avec leurs catégories grammaticales et paradigmes de conjugaisons/déclinaisons.
Bases de formes fléchies du Congrès (lemme, catégorie grammaticale, flexion, variante) : languedocien (900 000 formes) et gascon (1,3 millions de formes).
Lexique languedocien-gascon de 50 000 entrées pour le lien entre variantes.
Dictionnaire Hunspell de Tot en Òc : 87 000 lemmes : https://gitlab.com/taissou/hunspell-files-for-occitan-lengadocian/-/tree/master/Files
Liste de mots occitans de mejans.fr (occitan lengadocian); 2 millions de formes sans information morphosyntaxique : https://www.mejans.fr/article/corpus-e-listas-de-mots.html
Dictionnaire des synonymes du Congrès de 500 000 mots.

Type de ressource : Ressources lexicales - lexiques
Ressource à créer : Base lexicale bilingue

Réalisé

Dictionnaire occitan-catalan du traducteur automatique Apertium : 24 500 paires de traductions libres de droits.
Dictionnaire occitan-espagnol du traducteur automatique Apertium : 18 700 paires de traductions libres de droits.

Type de ressource : Ressources lexicales - lexiques
Ressource à créer : Base lexicale bilingue

Objectif

Base terminologique : le travail terminologique se fait en fonction des demandes liées aux politiques régionales ; les objectifs dans ce champ doivent également tenir compte des demandes du conseil des usagers du Congrès.

Type de ressource : Bases terminologiques
Ressource à créer : Base lexicale bilingue

Réalisé

tèrm’Òc, base terminologique du Congrès de 60 000 termes (variété étiquetée).
Création d’une plateforme terminologique pour faciliter la création de lexiques spécialisés, en permettant une meilleure communication entre usagers et linguistes/lexicographes : https://www.termoc.eu

Objectif

Base de données lexicale bilingue :

- Priorité français-occitan
- Catalan-occitan
- Mêmes champs que la base lexicale monolingue
- Orientée vers la traduction automatique

Réalisé

Dictionnaire du traducteur automatique Revirada du Congrès : 170 000 paires de traductions occitan-français et français-occitan vérifiées (gascon et languedocien)
Dictionnaire du traducteur automatique Apertium, enrichi par le Congrès dans le cadre de la construction de Revirada, libre de droits : 100 000 paires de traductions occitan-français et français-occitan vérifiées (gascon, languedocien et aranais) : https://github.com/apertium/apertium-oci-fra/blob/master/apertium-oci-fra.oci-fra.dix
Base de donnée brute de 500 000 paires de traductions occitan-français et français-occitan, extraite des dictionnaires bilingues (gascons et languedociens) du dicodòc.

Grammaires

Type de ressource : Grammaires
Ressource à créer : Base grammaticale / syntaxique

Objectifs

Grammaire descriptive de l'occitan et de ses différentes variantes, conçue comme un ensemble de règles pour son utilisation ultérieure en informatique (analyseurs morphologiques et syntaxiques automatiques).

Réalisé

Fichier de règles (environ 2000) pour l’analyse morphosyntaxique du traducteur automatique Revirada du Congrès.

Traitement de la parole

Type de ressource : Traitement de la parole
Ressource à créer : Reconnaissance de la parole

Objectifs

Créer un véritable outil de reconnaissance de la parole en commençant par identifier et créer les ressources nécessaires à son développement technologique. L'intérêt particulier de cet outil serait son utilisation pour le sous-titrage automatique.

Réalisé

Projet ReVoc du Congrès (gascon et languedocien) : constitution d’un corpus audio et d’un corpus textuel dans le cadre du projet Còrpus en vue d’entraîner une intelligence artificielle : https://contribuir.locongres.com/revoc
Projet Araina de Col·lectivaT (occitan aranais) : constitution d'un corpus audio via Mozilla Common Voice dans l'objectif d'entraîner une intelligence artificielle : https://www.projecte-araina.org/
Fairseq MMS – ASR : Modèle de reconnaissance vocale développé par Facebook pour 1 100 langues, incluant des langues peu dotées dont l'occitan.

Type d'outil linguistique : Traitement de la parole
Outil à créer : Synthèse vocale

Objectifs

Outil de synthèse vocale (TTS) :

- Pour toutes les variantes principales
- Deux locuteurs minimum, avec parité.

Réalisé

Votz, synthèse vocale du Congrès pour l’occitan gascon (une locutrice) et l’occitan languedocien (un locuteur) : https://votz.eu/

Détection automatique de la langue

Type d'outil linguistique : Détection automatique de la langue
Outil à créer : Détecteur de l'occitan

Objectifs

Développement d'un détecteur de textes écrits en occitan, à partir des travaux faits jusqu'à présent.

Réalisé

Rédaction d’une notice pour le programme LangId, qui permet de détecter l’occitan parmi un grand nombre d’autres langues : https://pypi.org/project/langid/
De nombreux détecteurs de langues (open source, disponibles via des API ou privés) incluent l'occitan, dont deux logiciels de détection de langue parlée. Voir la liste dans l'inventaire de La Farga.

Type d'outil linguistique : Détection automatique de la langue
Outil à créer : Détecteur des variantes de l'occitan

Objectifs

Développement d'un détecteur des variantes écrites de l'occitan (pour toutes les variantes).

Réalisé

Développement d’un premier détecteur par Eve Séguier.
Constitution d’un corpus textuel multivariétés dans le cadre du projet Còrpus du Congrès en vue d’améliorer le détecteur grâce à l’intelligence artificielle

Analyse orthographique et grammaticale

Type d'outil linguistique : Analyse orthographique et grammaticale
Outil à créer : Correcteurs orthographiques

Objectifs

Correcteur orthographique polyvalent :

- Qui permette à l'utilisateur de choisir une ou plusieurs variantes comme référence pour la correction
- Pour toute plateforme, avec priorité aux logiciels libres, mais également aux logiciels les plus utilisés :
  - Open Office, Libre Office, Microsoft Office
  - Modules pour navigateurs
  - Suite Adobe, PAO

Clavier prédictif et autocorrection pour toutes les variantes et pour les téléphones portables les plus utilisés (Android, iPhone, Windows, Blackberry... ou ceux à venir). Basé sur les fréquences des mots dans des corpus.

Réalisé

Correcteur orthographique dicodòc du Congrès (occitan gascon et occitan languedocien) pour Chrome, Firefox, Thunderbird, LibreOffice : 1,6 million de mots et 7,2 millions de combinaisons de mots (tirets et apostrophes) : https://abrac.at/corrector
Dictionnaire Hunspell (LibreOffice, OpenOffice, Firefox, Thunderbird) pour correcteur orthographique (occitan languedocien), créé par Tot en Òc, 87 000 lemmes et 800 règles de flexion : https://gitlab.com/taissou/hunspell-files-for-occitan-lengadocian/-/tree/master/Files
- Avec une extension pour Firefox : https://addons.mozilla.org/fr/firefox/addon/diccionari-occitan-lengadocian/
- Et le projet contributif Dicollecte pour l’enrichir : 87 000 entrées : https://grammalecte.net/home.php?prj=oc
Correcteur orthographique (occitan gascon) pour OpenOffice et Thunderbird de Per Noste : https://www.pernoste.com/telechargement/corrector-ortografic
Claviers dicodòc du Congrès pour Android (occitan gascon et languedocien) : 1,6 million de mots et 7,2 millions de combinaisons de mots (tirets et apostrophes) : https://abrac.at/clavier
Clavier SwiftKey pour Android et IOS :

https://play.google.com/store/apps/details?id=com.touchtype.swiftkey&referrer=utm_source%3Dwebsite%26utm_medium%3Dsk%26utm_campaign%3Dfooter-menu

Type d'outil linguistique : Analyse orthographique et grammaticale
Outil à créer : Analyseurs morphologique et syntaxique

Objectifs

Développement d'un analyseur morphologique (tagger) robuste à partir des travaux faits jusqu'à présent.

Réalisé

Analyseur morphologique du traducteur Revirada et du traducteur Apertium (occitan gascon, languedocien et aranais) réalisé par Lo Congrès et Apertium : https://github.com/apertium/apertium-oci
Analyseur syntaxique Talismane : Analyseur morphosyntaxique et syntaxique développé par Assaf Urieli dans le cadre de sa thèse au sein du laboratoire CLLE-ERSS. Marianne Vergez-Couret l'a entraîné pour l'occitan. : http://redac.univ-tlse2.fr/applications/talismane/talismane_en.html

Analyse sémantique

Type d'outil linguistique : Analyse sémantique
Outil à créer : Base de connaissance lexicale

Objectifs

Développement d'un outil d'analyse syntaxique superficielle/profonde.
Construction de la première version de base de connaissance lexicale pour l'occitan (15 000 concepts), en utilisant les entrées de la base de données lexicale comme source d'information pour les variantes de l'occitan.

Réalisé

Préparation d’une base lexicale et d’un bot pour la verser dans Wikidata Lexèmes. Développement d’un serious game pour que la communauté relie les lexèmes à l’item Wikidata correspondant à leur sens : https://github.com/aitalvivem

Traduction automatique

Type d'outil linguistique : Traduction automatique
Outil à créer : Traducteurs automatiques

Objectifs

Développement, en réutilisant les travaux existants, des outils pour la traduction automatique :

- En priorité, sens occitan → français (toutes les variantes)
- Français → occitan (le système permettra à l'utilisateur de choisir une ou plusieurs variantes comme référence(s) pour la traduction ; utiliser le transcripteur de variantes au besoin)
- Besoin des outils basiques pour la paire occitan-anglais.

Réalisé

Traducteur automatique Revirada occitan<->français du Congrès (occitan gascon et languedocien) : https://revirada.eu/
Traducteur automatique Apertium : français<->occitan (gascon et languedocien), catalan<->occitan (aranais et languedocien), espagnol <-> occitan (aranais et languedocien).: https://apertium.org
Traducteur automatique Softcatalà occitan (aranais) <-> catalan : https://www.softcatala.org/traductor/
Les traducteurs automatiques de la Generalitat de Catalunya et d'Opentrad intègrent le traducteur Apertium pour les paires de langue occitan <-> catalan et occitan <-> espagnol (occitan aranais et languedocien) : https://traductor.gencat.cat/
Des modèles ou des scripts pour entraîner des traducteurs automatiques basés sur l'intelligence artificielle ont été publiés par Softcatalà et Facebook (Fairseq Flores101).

Type d'outil linguistique : Traduction automatique
Outil à créer : Transcripteur automatique entre variantes

Objectifs

Développement d'un convertisseur automatique entre variantes, qui travaille non seulement au niveau du lexique mais aussi sur la syntaxe. Il permettra entre autres de réaliser certains outils pour une seule variante, et de pouvoir ensuite les utiliser avec toutes (ex : [traducteur français → occitan languedocien] + [transcripteur languedocien → gascon] = [traducteur français → occitan gascon]).

Réalisé

Possibilité d’utiliser le traducteur automatique Revirada avec le français comme langue pivot pour passer de l’occitan gascon à l’occitan languedocien, sans trop de perte de qualité.

Logiciels disponibles en occitan

Autres outils - logiciels : Logiciels disponibles en occitan
Outil à créer : OS + Applications principales

Objectifs

Traduction des logiciels les plus utilisés et des logiciels libres (bureautique, navigateurs, mails, réseaux sociaux...).

Réalisé

Voir la liste actualisée des logiciels traduits sur le site de La Farga.

Feuille de route

Lors de la configuration d'une feuille de route pour la réalisation des objectifs ci-dessus, nous devons considérer qu'il existe des dépendances entre eux. Ci-dessous, nous décrivons les dépendances plus significatives.

Objectif : Corpus monolingue
Ressources / outils nécessaires : Numérisation, OCR et conversion de texte à un format standard traitable par un analyseur

Objectif : Corpus web
Ressources / outils nécessaires : Détecteur de l'occitan - Détecteur des variantes de l'occitan

Objectif : Corpus parallèle
Ressources / outils nécessaires : Collection de documents bilingues - Mémoires de traduction (TMX)

Objectif : Base lexicale monolingue
Ressources / outils nécessaires : Dictionnaires monolingues au format électronique (MRD)

Objectif : Base lexicale bilingue
Ressources / outils nécessaires : Dictionnaires bilingues au format électronique (MRD)

Objectif : Correcteurs orthographiques
Ressources / outils nécessaires : Base lexicale monolingue

Objectif : Analyseur morphologique (PoS-tagger, lemmatiseur)
Ressources / outils nécessaires : Base lexicale monolingue - Base grammaticale

Objectif : Analyseur syntaxique
Ressources / outils nécessaires : Analyseur morphologique - Base grammaticale/syntaxique

Objectif : Base de connaissance lexicale
Ressources / outils nécessaires : Base lexicale monolingue

Objectif : Traducteurs automatiques oc → fr (toutes les variantes)
Ressources / outils nécessaires : Base lexicale bilingue - Base grammaticale/syntaxique

Objectif : Transcripteur automatique entre variantes
Ressources / outils nécessaires : Base lexicale monolingue - Base grammaticale/syntaxique

Objectifs et interdépendances

Le diagramme ci-dessous reprend les éléments en séparant les objectifs en trois sections (ressources, outils intermédiaires, outils finaux) et en montrant les interdépendances entre les « blocs » : par exemple il est nécessaire pour un traducteur automatique d'avoir un analyseur morphosyntaxique, lui-même ayant besoin en amont d'une base lexicale monolingue et de modèles grammaticaux. Un corpus parallèle peut également aider à le perfectionner. Cette lecture permet une vision structurée des travaux et d'envisager la planification des programmes opérationnels.

Glossaire

Modèles grammaticaux et modèles de langage : grammaire descriptive de l'occitan organisée comme un ensemble de règles pour une utilisation informatique (surtout pour ce qui concerne les analyseurs morphologiques et syntaxique) avec lexiques et corpus annotés.

Base lexicale monolingue : base d'une grande partie des autres ressources et des outils développés, la base lexicale monolingue comprend une liste de mots occitans, avec la catégorie grammaticale (type, genre, nombre, etc.), les formes fléchies (féminin, pluriel, conjugaisons, etc.), la variante et éventuellement des informations concernant l'usage (domaine, registre, etc.). ll y aura également le lien entre deux mêmes mots pour plusieurs variantes.

Base lexicale bilingue : base principale pour la traduction automatique. Elle contient des entrées en occitan ayant les mêmes champs que la base lexicale monolingue, mais également sa (ses) traduction(s) en français (on peut envisager à terme l'équivalent en catalan).

Base de connaissance lexicale : il s'agit d'une base de connaissance liant les mots ou les concepts entre eux, avec des relations de catégorie (une pomme est un fruit), de champ lexical (pain et couteau), de dérivation (passé et passation), etc. WordNet, par exemple, est une base de connaissance lexicale.

Corpus : un corpus est un ensemble de documents rassemblés dans un but précis. Dans le domaine des TAL (Traitement automatique du langage), les corpus textuels sont très utiles pour perfectionner les outils grâce à des statistiques sur les mots et la langue. Par exemple, pour un traducteur automatique, le corpus parallèle français-occitan permettra de savoir que, statistiquement, le nom français « son » est plus souvent traduit par « son » que par « bren ».

Corpus monolingue spécialisé : ce type de corpus rassemble une masse de textes en occitan qui attestent d'un usage référentiel de la langue dans différents domaines (littérature, presse, recherche). Ils sont indispensables à la création des outils et des autres ressources.

Corpus monolingue web : collection de textes en occitan présents sur Internet, sans sélection en terme de qualité linguistique. Il servira surtout aux statistiques afin de perfectionner les outils.

Corpus parallèle : corpus qui rassemble des textes ayant au moins deux versions correspondant à deux langues différentes. Le corpus parallèle occitan sera un corpus occitan-français (sites web institutionnels, mémoires, etc.).

Ressources pour la reconnaissance de la parole : selon la feuille de route, il est impossible de créer un véritable outil de reconnaissance de la parole (création d'écrit à partir d'un document oral) avant 2019. Il faut commencer par identifier et créer les ressources nécessaires à une telle technologie. Elle pourra être utilisée, par exemple, pour faire du sous-titrage automatique.

Détecteur de l'occitan : il s'agit d'un outil permettant de détecter automatiquement si un texte est en occitan.

Détecteur des variantes de l'occitan : il s'agit d'un outil permettant de détecter automatiquement la variante occitane d'un texte.

Analyseur morphologique (lemmatiseur) : un lemmatiseur est un outil d'analyse morphosyntaxique du contenu d'un texte. Il associe chaque mot à sa forme « canonique » (infinitif pour les verbes, masculin singulier pour les adjectifs, etc.), la catégorie grammaticale ou partie d'un discours, le genre, le nombre, le temps et le mode, la personne (ex : je parle → première personne/singulier, indicatif présent du verbe parler). Il contient également des informations sémantiques et référentielles (définitude, quantification, animé/non animé, humain/non humain, etc.).

Analyseur syntaxique (parser) : met en évidence la structure d'une phrase. L'analyse donne la façon dont les mots sont combinés dans un texte. Il permet de connaître les relations de dépendance des syntagmes (groupes de mots ayant une fonction particulière dans la phrase, par exemple le sujet).

Traducteurs automatiques : ils permettront, à partir d'un texte en occitan, d'obtenir automatiquement une traduction en français, et inversement. Grâce au transcripteur de variantes, il sera possible d'obtenir la traduction den français depuis et en n'importe quelle variante.

Transcripteur automatique entre variantes : il fonctionne selon le même principe qu'un traducteur automatique. Il permettra, à partir d'un texte dans une variante de l'occitan, d'obtenir automatiquement une version dans une autre variante.

Correcteur orthographique polyvalent : afin de montrer l'unité de la langue dans le respect de sa diversité, l'idée est d'avoir un seul correcteur orthographique qui propose une correction dans toutes les variantes. L'utilisateur pourra choisir la ou les variante(s) qu'il souhaite pour la correction. Le correcteur sera sur les logiciels les plus utilisés avec une priorité aux formats libres, sans pour autant écarter les commerciaux (LibreOffice, OpenOffice, Microsoft Office, navigateurs, logiciels clients pour courriel, suite Adobe, etc.).

Clavier prédictif et autocorrection : cet outil servira pour les téléphones mobiles, par exemple pour suggérer ou corriger des mots dans les SMS. Il permettra de choisir sa variante et pourra s'installer sur les systèmes d'exploitations les plus courants.

Synthèse vocale : elle consiste à la création de documents oraux à partir de documents écrits. Elle est par exemple utilisée pour lire les noms de rue dans les GPS, pour les logiciels d'assistance aux mal-voyants...

OS et applications principales : l'idée est de proposer pour les ordinateurs un système d'exploitation entièrement en occitan, avec les logiciels les plus courants également traduits (bureautique, navigateurs, clients de courriel, etc.).

o congrès de la langue occitane - développement numérique de l'occitan

La première étape de l'étude consistait à réaliser un diagnostic de l'état du numérique occitan. Ce dernier a servi de base à la définition et à la priorisation des besoins pour le calendrier de réalisation.

Inventaire des ressources et des outils numériques occitans

Voici la liste des ressources recensées lors de l'étude, leurs nombres et le nombre de celles utilisables en informatique.

Ressources linguistiques

Corpus monolingues de textes
- Recensées : 27
- Utilisables : 2
Corpus monolingues de la parole
- Recensées : 28
- Utilisables : 0
Corpus parallèles
- Recensées : 1
- Utilisables : 1
Corpus multimédias e multimodaux
- Recensées : 24
- Utilisables : 0
Lexiques
- Recensées : 73
- Utilisables : 8
Bases terminologiques
- Recensées : 21
- Utilisables : 2
Tesauri, Wordnets, ontologies
- Recensées : 1
- Utilisables : 1
Toponymie
- Recensées : 3
- Utilisables : 3
Grammaires, modèles de langage
- Recensées : 30
- Utilisables : 0

Outils de technologie du langage

Reconnaissance de l'écriture
- Recensés : 0
Reconnaissance de la parole
- Recensés : 0
Synthèse vocale
- Recensés : 0
Analyse grammaticale
- Recensés : 6
Analyse sémantique
- Recensés : 0
Génération de texte
- Recensés : 0
Traduction automatique
- Recensées : 2
Recherche et extraction d'information
- Recensés : 0

Autres outils

Logiciels disponibles en occitan
- Recensés: 6
Outils numériques pour apprendre l'occitan
- Recensés: 4

* Les ressources linguistiques ont été séparées en deux catégories : celles qui sont utilisables directement pour un usage informatique et celles qui nécessitent un traitement plus ou moins lourd pour pouvoir être utilisées pour créer des outils.

Conclusions

Il existe peu d'outils de technologie de la langue. Les ressources recensées sont plus nombreuses, mais peu réutilisables (corpus oraux non transcrits, dictionnaires souvent anciens ou pas OCRisés, grammaires destinées à une utilisation pédagogique et pas informatique, question de la validité et de la qualité linguistique pour plusieurs documents...). Il faudrait donc créer les ressources linguistiques de base avant de pouvoir développer des outils.

Expériences pour les autres langues

Dans le cadre de l'étude, quatre experts internationaux ont partagé leur expérience :

Langue basque : Xavier Artola (Ixa, Université du Pays Basque) ;
Langue bretonne : Olier Ar Mogn (Office public de la langue bretonne) ;
Langue catalane : Asunción Moreno (TALP, Université Polytechnique de Catalogne) ;
Langue galloise : Francis M. Tyers (Norgga Árktalaš Universitehta).

Pour la langue occitane, les intervenants en ont tiré quatre lignes directrices :

Importance de bien planifier et de faire les choses dans l'ordre ;
Il faut développer aussi bien les ressources que les outils ;
Intérêt de la coopération pour améliorer l'efficacité ;
Importance des licences libres pour pouvoir partager les développements.

Gilbert Mercadier - président du congrès permanent de la langue occitane (© Octele)

Diagnostic et feuille de route pour le développement numérique de l'occitan

Le Congrès permanent de la langue occitane est heureux de vous présenter la restitution du projet « Diagnostic et feuille de route pour le développement numérique de la langue occitane 2015-2019 ».

"des outils numériques fort utiles pour l'occitan
et ce dans plusieurs domaines."

Grâce à différentes initiatives, ces dernières années ont vu apparaître des ressources et des outils numériques fort utiles pour l'occitan et ce dans plusieurs domaines. Nous pouvons mentionner, par exemple, pour le patrimoine, l'information, la documentation, les productions de qualité en ligne du CIRDOC et de l'InOc Aquitaine, tous deux membres du Congrès, pour les contenus encyclopédiques et lexicaux Wikipèdia où l'occitan est de plus en plus présent, des travaux universitaires en cours comme le Thesòc ou BaTeLòc, pour l'audiovisuel la jeune OCtele, etc.

L'étude de la DGLFLF - Ministère de la Culture et de la Communication¹ sur la place des langues de France sur Internet parle pour l'occitan « d'une remarquable effervescence associative » qu'il n'est pas aisé de mesurer et suggère avec raison que les nouvelles initiatives se fassent « en collaboration entre les secteurs ».

"offrir aux usagers, sous forme numérique,
des outils linguistiques de référence."

Pour sa part, le Congrès s'est consacré dès sa création à offrir aux usagers, sous forme numérique, des outils linguistiques de référence : multidictionnaire, conjugueur, base terminologique, base toponimique, normes et oeuvres normatives.

Nous savons cependant que l'occitan pâtit d'un grand retard dans le domaine du numérique, surtout dans les technologies avancées du langage qui sont désormais importantes pour le statut, l'utilisation et l'avenir d'une langue. Cette absence des technologies avancées du langage pour l'occitan, des études le montrent bien, est un facteur supplémentaire de marginalisation pour notre langue.

C'est pourquoi le Congrès a décidé de proposer une méthode et un cadre opérationnel pour traiter ce domaine de haute technologie et l'a intégré dans son programme.

"mettre en place un dispositif institutionnel collégial associant les décideurs publics
et les opérateurs de recherche, de transmission et de diffusion de la langue."

Dans l'esprit qui a prévalu à la création du Congrès, il a été décidé de mettre en place un dispositif institutionnel collégial associant à la fois les décideurs publics² et les opérateurs de recherche, de transmission et de diffusion de la langue³. Par ce partenariat, les organisateurs ont souhaité garantir la meilleure qualité possible aux travaux ainsi que leur plus grande appropriation et diffusion par les différents acteurs.

Ces travaux ont été réalisés dans le cadre d'une recherche-action, c'est-à-dire que les stagiaires ont été acteurs de leur propre formation. Pendant plusieurs mois, ils ont été confrontés à la technicité de ces questions du numérique et des technologies avancées du langage.

Ils ont rencontré des experts internationaux, utilisé des nouvelles méthodes d'investigation, réalisé un diagnostic et des préconisations techniques : cette méthode contribuera, il faut l'espérer, à une prise de conscience collective des enjeux et de leur technicité, et à la création d'une culture commune visant à améliorer notre expertise et les pratiques dans ce domaine.

"cette production peut encore être enrichie,
toutes les contributions complémentaires sont les bienvenues."

Je souhaite également préciser que cette production peut encore être amendée, enrichie et améliorée pour devenir une base d'action commune. Toutes les contributions complémentaires seront les bienvenues, sachant qu'il nous faudra peut-être définir des priorités.

Je remercie l'ADEPFO (Association de Développement des Pyrénées par la Formation) et les membres du Comité de pilotage de nous avoir soutenu dans cette initiative que nous n'aurions pu conduire sans eux.

Je remercie la fondation basque Elhuyar et la société Media.kom qui ont organisé et encadré ces travaux et nous ont fait profiter de leur grande expérience dans ces domaines.

Je remercie également Benaset Dazéas, directeur du Congrès et Aure Séguier, webmaster du Congrès, d'avoir préparé et coordonné cette recherche-action et réussi à la mener à bon terme dans les délais prévus. Je remercie tous ceux qui ont participé au projet.

"une feuille de route contenant
des propositions de développement pour les années à venir."

Nous nous retrouvons désormais avec une feuille de route contenant des propositions de développement pour les années à venir : derrière une terminologie pouvant parfois faire peur, il est question au final de corpus linguistiques de qualité pour réaliser des dictionnaires, de traducteur automatique, de correcteur orthographique, ou encore de clavier prédictif, de toutes ces applications désormais indispensables dans notre quotidien.

Ce document est une première pour l'occitan, mais ne nous leurrons pas, car tout comme « la fe sens òbras mòrta es », « la fe sens mejans mòrta es ». Nous ne laisserons pas ce rapport dans un tiroir. Gageons qu'il soit la source d'une véritable entreprise collective, avec à la clé une programmation budgétaire à la hauteur des enjeux.

Plusieurs projets sont d'ores et déjà lancés, mais il est indispensable pour son succès de voir s'associer les différents acteurs concernés, de la recherche universitaire aux entreprises, en passant par les institutions qui soutiennent le Congrès. Il est indispensable de trouver des crédits de recherche, des crédits issus des politiques linguistiques de l'État et des collectivités territoriales, de l'Europe et de la coopération transfrontalière.

Nous avons bien là tout un programme.

Gilbert Mercadier
Président du Congrès permanent de la lenga occitana

¹ Inventaire des ressources linguistiques des langues de France, réalisé en partenariat avec ELDA, 2014. Etude complète téléchargeable sur le site de la DGLFLF.

² Ministère de la Culture et de la Communication, DRAC Aquitaine, Régions Aquitaine, Midi-Pyrénées, Languedoc-Roussillon, Département des Pyrénées-Atlantiques, Département des Hautes-Pyrénées, Ville de Toulouse

³ Université Toulouse-Jean Jaurès, Lo Congrès permanent de la lenga occitana, CFPÒc Aquitaine, CFPO Midi-Pyrénées, CIRDOC, Capòc, Editions Reclams, FIMOC, OCtele, Ràdio País, Vistedit, collectifÇa-i

Sous-catégories

Les chantiers

Feuille de route

Page 2 sur 2

COMPÉTENCES

TAL

Socialisation linguistique

Normes et normalisation

SERVICES

Grand public

Professionnels de la langue

Collectivités et entreprises

Enseignants et formateurs

Webmasters & développeurs

Malvoyants

ACTUALITÉS

Avec vous nous irons plus loin !

Reconnaissance vocale en occitan

Contribuez à la collecte de ressources vocales

Collecte de données

Participez à la collecte de données.

Soutenez le Congrès

Aidez la création d'applications occitanes.

Plateforme lexicale, textuelle et toponymique

Acquérir des ressources linguistiques permettant la diffusion et l’étude d'une langue de qualité

Restaurer, décrire et diffuser la toponymie occitane en Régions Nouvelle-Aquitaine et Occitanie (en partenariat avec l’IGN) :

Créer une plateforme numérique universelle et multivariétés

Soutiens financiers

LINGUATEC-IA

Objectif

Délai d'exécution

Composition du consortium

Budget

Feuille de route du développement numérique de l'occitan

Diagnostic et feuille de route

Résultat synthétique et projection sur les actions à réaliser

Définition des besoins prioritaires

Définition des objectifs

Corpus

Type de ressource : CorpusRessource à créer : Corpus textuels

Objectifs

Réalisé

Objectifs

Réalisé

Objectifs

Réalisé

Ressources lexicales

Type de ressource : Ressources lexicales - lexiques / Bases terminologiquesRessource à créer : Base lexicale monolingue

Objectif

Réalisé

Type de ressource : Ressources lexicales - lexiquesRessource à créer : Base lexicale bilingue

Réalisé

Type de ressource : Ressources lexicales - lexiquesRessource à créer : Base lexicale bilingue

Objectif

Réalisé

Objectif

Réalisé

Grammaires

Type de ressource : GrammairesRessource à créer : Base grammaticale / syntaxique

Objectifs

Réalisé

Traitement de la parole

Type de ressource : Traitement de la paroleRessource à créer : Reconnaissance de la parole

Objectifs

Réalisé

Type d'outil linguistique : Traitement de la paroleOutil à créer : Synthèse vocale

Objectifs

Réalisé

Détection automatique de la langue

Type d'outil linguistique : Détection automatique de la langueOutil à créer : Détecteur de l'occitan

Objectifs

Réalisé

Type d'outil linguistique : Détection automatique de la langueOutil à créer : Détecteur des variantes de l'occitan

Objectifs

Réalisé

Analyse orthographique et grammaticale

Type d'outil linguistique : Analyse orthographique et grammaticaleOutil à créer : Correcteurs orthographiques

Objectifs

Réalisé

Type d'outil linguistique : Analyse orthographique et grammaticaleOutil à créer : Analyseurs morphologique et syntaxique

Objectifs

Réalisé

Analyse sémantique

Type d'outil linguistique : Analyse sémantiqueOutil à créer : Base de connaissance lexicale

Type de ressource : Corpus
Ressource à créer : Corpus textuels

Type de ressource : Ressources lexicales - lexiques / Bases terminologiques
Ressource à créer : Base lexicale monolingue

Type de ressource : Ressources lexicales - lexiques
Ressource à créer : Base lexicale bilingue

Type de ressource : Ressources lexicales - lexiques
Ressource à créer : Base lexicale bilingue

Type de ressource : Grammaires
Ressource à créer : Base grammaticale / syntaxique

Type de ressource : Traitement de la parole
Ressource à créer : Reconnaissance de la parole

Type d'outil linguistique : Traitement de la parole
Outil à créer : Synthèse vocale

Type d'outil linguistique : Détection automatique de la langue
Outil à créer : Détecteur de l'occitan

Type d'outil linguistique : Détection automatique de la langue
Outil à créer : Détecteur des variantes de l'occitan

Type d'outil linguistique : Analyse orthographique et grammaticale
Outil à créer : Correcteurs orthographiques

Type d'outil linguistique : Analyse orthographique et grammaticale
Outil à créer : Analyseurs morphologique et syntaxique

Type d'outil linguistique : Analyse sémantique
Outil à créer : Base de connaissance lexicale

Type d'outil linguistique : Traduction automatique
Outil à créer : Traducteurs automatiques

Type d'outil linguistique : Traduction automatique
Outil à créer : Transcripteur automatique entre variantes

Autres outils - logiciels : Logiciels disponibles en occitan
Outil à créer : OS + Applications principales