Feuille de route du développement numérique de l'occitan

Le congrès permanent de la langue occitane - feuille de route pour le développement numérique de l'occitan — Feuille de route pour le développement numérique de l'occitan

La feuille de route pour le développement numérique de l'occitan utilise la méthode de l'étude de MetaNet (site internet), un réseau européen d'excellence dédié à la promotion des fondations technologiques d'une société multilingue de l'information en Europe. Réalisée par plus de 200 experts internationaux, cette étude fait l'état actuel des ressources et technologies du langage pour 30 langues européennes dans 6 domaines : la traduction automatique, la synthèse et la reconnaissance vocales, la correction orthographique, l'analyse sémantique, l'analyse grammaticale et la génération automatique de texte.

"feuille de route pour le développement numérique de l'occitan,
la méthode de MetaNet a été utilisée"

Diagnostic et feuille de route

Diagnostic et feuille de route pour le développement numérique de la langue occitane

Voir le document

Elle propose également une grille commune de classification et d'évaluation des ressources et outils numériques. Le diagnostic de soutien technologique de la langue occitane nous a permis de recueillir des données objectives concernant la situation numérique de l'occitan (inventaire), et, après échanges avec des experts internationaux (langues basque, bretonne, catalane et galloise), d'identifier les besoins. Pour ces dernières, la feuille de route ci-dessous propose une projection de développement 2015-2019.

Résultat synthétique et projection sur les actions à réaliser

Un état des lieux actualisé de l'ensemble du TAL occitan est disponible sur le site de La Farga.

Définition des besoins prioritaires

Avant de préciser l'étape des objectifs, nous avons déterminé les besoins prioritaires pour la langue occitane, qui découlent de l'analyse de l'inventaire et des expériences d'autres langues.

Type de ressource : Corpus
Ressource à créer : Corpus textuels

Type de ressource : Ressources lexicales
Ressource à créer : Base lexicale monolingue et base lexicale bilingue

Type de ressource : Grammaires
Ressource à créer : Base grammaticale / Syntaxique

En prenant cet ensemble de priorités comme point de départ, le groupe de travail a dû préciser les objectifs stratégiques du développement des technologies langagières pour l'occitan. Nous détaillons ces objectifs dans la section suivante.

Définition des objectifs

Corpus

Type de ressource : Corpus
Ressource à créer : Corpus textuels

Objectifs

Trois types de corpus spécialisés :

- Corpus de textes validés, à partir de documents originellement imprimés ; objectif : 10 à 25 millions de mots
- Corpus web : corpus construit automatiquement en utilisant des documents publiés sur Internet ; objectif : 5 millions de mots
- Corpus parallèle français-occitan ; objectif : 2 à 5 millions

Caractérisation de textes inclus : variantes, genre, domaine de connaissances,périodes, qualité linguistique (à définir).
Niveau d'analyse linguistique : catégorie, puis lemme ; analyse syntaxique (dépendances).

Réalisé

Projet « Còrpus » du Congrès : réalisation d’un corpus multivariété et multimodal (monolingue, bilingue aligné, audio aligné) : https://dicodoc.eu/oc/corpus

En août 2022 :

- Corpus monolingue : 8,5 millions de mots
- Corpus bilingue : 1 million de mots occitans alignés avec le français, 9 000 mots occitans alignés avec une autre langue
- Corpus audio : 1,5 million de mots, 250 heures

Et aussi :

BaTelÒc, Basa Textuala per la lenga d’Òc de CLLE-ERSS : corpus monolingue de 3,3 millions de mots : http://redac.univ-tlse2.fr/bateloc/
Linguatec Tolosa Treebank de CLLE-ERSS : corpus monolingue de 14 000 mots annotés syntaxiquement : https://zenodo.org/record/3708268
Mémoires de traduction de mejans.fr : corpus bilingue anglais-occitan languedocien de 150 000 phrases : https://www.mejans.fr/article/memoria-de-traduccion.html
OcWikiDisc : Corpus TAL généré à partir des pages de discussion de la Wikipèdia en occitan (430 000 mots).
Oscar : Corpus TAL moissonné sur le web pour de nombreuses langues, dont l'occitan (34 000 mots pour l'occitan)
Còrpus parallèle Softcatalà : Corpus d'entraînement du système de traduction neuronal de Softcatala, avec des textes alignés du catalan vers plusieurs langues dont l'occitan languedocien (46 millions de mots).
ParCoLaF : Corpus de textes alignés en occitan, français et anglais, à consulter en ligne : http://parcolab.univ-tlse2.fr/parcolaf/
Annotated Corpus for Occitan : Corpus de plus de 12 000 tokens annotés avec les catégories grammaticales et les lemmes.
OcWikiAnnot : Corpus tiré de Wikipèdia, annoté en POS et lemmatisé (2 millions de mots).
Mozilla Common Voice, corpus aligné de phrases audio avec leur transcription (10 000 mots, 1h45) : https://commonvoice.mozilla.org/fr
ReVOc, corpus aligné aligné de phrase audio avec leur transcription 136 heures pour le gascon et 126 heures pour le languedocien : https://contribuir.locongres.com/revoc

Objectifs

Caractérisation de textes inclus : variétés, genre, domaine de connaissances, périodes, qualité linguistique (à définir).

Réalisé

Variétés et graphies étiquetées dans le projet Còrpus : https://corpus.locongres.com
Variétés, graphies et genre étiquetés dans BaTelÒc (Qualité linguistique élevée) : http://redac.univ-tlse2.fr/bateloc/

Objectifs

Niveau d'analyse linguistique : catégorie, puis lemme ; analyse syntaxique (dépendances).

Réalisé

Tolosa Linguatec Treebank de CLLE-ERSS annoté syntaxiquement : https://zenodo.org/record/3708268

Ressources lexicales

Type de ressource : Ressources lexicales - lexiques / Bases terminologiques
Ressource à créer : Base lexicale monolingue

Objectif

Base de données lexicale pour l'occitan : a) entre 500 000 et un million d'entrées à terme (y compris les formes fléchies) ; b) information sur chaque entrée : entrée, lemme, catégorie grammaticale, informations morphosyntaxiques, variante, usage (hyperonymie, domaine, registre, géographique…) lien entre variantes.

Réalisé

Dictionnaire monolingue d'Apertium et Revirada : Liste de 220 000 lemmes avec leurs catégories grammaticales et paradigmes de conjugaisons/déclinaisons.
Bases de formes fléchies du Congrès (lemme, catégorie grammaticale, flexion, variante) : languedocien (900 000 formes) et gascon (1,3 millions de formes).
Lexique languedocien-gascon de 50 000 entrées pour le lien entre variantes.
Dictionnaire Hunspell de Tot en Òc : 87 000 lemmes : https://gitlab.com/taissou/hunspell-files-for-occitan-lengadocian/-/tree/master/Files
Liste de mots occitans de mejans.fr (occitan lengadocian); 2 millions de formes sans information morphosyntaxique : https://www.mejans.fr/article/corpus-e-listas-de-mots.html
Dictionnaire des synonymes du Congrès de 500 000 mots.

Type de ressource : Ressources lexicales - lexiques
Ressource à créer : Base lexicale bilingue

Réalisé

Dictionnaire occitan-catalan du traducteur automatique Apertium : 24 500 paires de traductions libres de droits.
Dictionnaire occitan-espagnol du traducteur automatique Apertium : 18 700 paires de traductions libres de droits.

Type de ressource : Ressources lexicales - lexiques
Ressource à créer : Base lexicale bilingue

Objectif

Base terminologique : le travail terminologique se fait en fonction des demandes liées aux politiques régionales ; les objectifs dans ce champ doivent également tenir compte des demandes du conseil des usagers du Congrès.

Type de ressource : Bases terminologiques
Ressource à créer : Base lexicale bilingue

Réalisé

tèrm’Òc, base terminologique du Congrès de 60 000 termes (variété étiquetée).
Création d’une plateforme terminologique pour faciliter la création de lexiques spécialisés, en permettant une meilleure communication entre usagers et linguistes/lexicographes : https://www.termoc.eu

Objectif

Base de données lexicale bilingue :

- Priorité français-occitan
- Catalan-occitan
- Mêmes champs que la base lexicale monolingue
- Orientée vers la traduction automatique

Réalisé

Dictionnaire du traducteur automatique Revirada du Congrès : 170 000 paires de traductions occitan-français et français-occitan vérifiées (gascon et languedocien)
Dictionnaire du traducteur automatique Apertium, enrichi par le Congrès dans le cadre de la construction de Revirada, libre de droits : 100 000 paires de traductions occitan-français et français-occitan vérifiées (gascon, languedocien et aranais) : https://github.com/apertium/apertium-oci-fra/blob/master/apertium-oci-fra.oci-fra.dix
Base de donnée brute de 500 000 paires de traductions occitan-français et français-occitan, extraite des dictionnaires bilingues (gascons et languedociens) du dicodòc.

Grammaires

Type de ressource : Grammaires
Ressource à créer : Base grammaticale / syntaxique

Objectifs

Grammaire descriptive de l'occitan et de ses différentes variantes, conçue comme un ensemble de règles pour son utilisation ultérieure en informatique (analyseurs morphologiques et syntaxiques automatiques).

Réalisé

Fichier de règles (environ 2000) pour l’analyse morphosyntaxique du traducteur automatique Revirada du Congrès.

Traitement de la parole

Type de ressource : Traitement de la parole
Ressource à créer : Reconnaissance de la parole

Objectifs

Créer un véritable outil de reconnaissance de la parole en commençant par identifier et créer les ressources nécessaires à son développement technologique. L'intérêt particulier de cet outil serait son utilisation pour le sous-titrage automatique.

Réalisé

Projet ReVoc du Congrès (gascon et languedocien) : constitution d’un corpus audio et d’un corpus textuel dans le cadre du projet Còrpus en vue d’entraîner une intelligence artificielle : https://contribuir.locongres.com/revoc
Projet Araina de Col·lectivaT (occitan aranais) : constitution d'un corpus audio via Mozilla Common Voice dans l'objectif d'entraîner une intelligence artificielle : https://www.projecte-araina.org/
Fairseq MMS – ASR : Modèle de reconnaissance vocale développé par Facebook pour 1 100 langues, incluant des langues peu dotées dont l'occitan.

Type d'outil linguistique : Traitement de la parole
Outil à créer : Synthèse vocale

Objectifs

Outil de synthèse vocale (TTS) :

- Pour toutes les variantes principales
- Deux locuteurs minimum, avec parité.

Réalisé

Votz, synthèse vocale du Congrès pour l’occitan gascon (une locutrice) et l’occitan languedocien (un locuteur) : https://votz.eu/

Détection automatique de la langue

Type d'outil linguistique : Détection automatique de la langue
Outil à créer : Détecteur de l'occitan

Objectifs

Développement d'un détecteur de textes écrits en occitan, à partir des travaux faits jusqu'à présent.

Réalisé

Rédaction d’une notice pour le programme LangId, qui permet de détecter l’occitan parmi un grand nombre d’autres langues : https://pypi.org/project/langid/
De nombreux détecteurs de langues (open source, disponibles via des API ou privés) incluent l'occitan, dont deux logiciels de détection de langue parlée. Voir la liste dans l'inventaire de La Farga.

Type d'outil linguistique : Détection automatique de la langue
Outil à créer : Détecteur des variantes de l'occitan

Objectifs

Développement d'un détecteur des variantes écrites de l'occitan (pour toutes les variantes).

Réalisé

Développement d’un premier détecteur par Eve Séguier.
Constitution d’un corpus textuel multivariétés dans le cadre du projet Còrpus du Congrès en vue d’améliorer le détecteur grâce à l’intelligence artificielle

Analyse orthographique et grammaticale

Type d'outil linguistique : Analyse orthographique et grammaticale
Outil à créer : Correcteurs orthographiques

Objectifs

Correcteur orthographique polyvalent :

- Qui permette à l'utilisateur de choisir une ou plusieurs variantes comme référence pour la correction
- Pour toute plateforme, avec priorité aux logiciels libres, mais également aux logiciels les plus utilisés :
  - Open Office, Libre Office, Microsoft Office
  - Modules pour navigateurs
  - Suite Adobe, PAO

Clavier prédictif et autocorrection pour toutes les variantes et pour les téléphones portables les plus utilisés (Android, iPhone, Windows, Blackberry... ou ceux à venir). Basé sur les fréquences des mots dans des corpus.

Réalisé

Correcteur orthographique dicodòc du Congrès (occitan gascon et occitan languedocien) pour Chrome, Firefox, Thunderbird, LibreOffice : 1,6 million de mots et 7,2 millions de combinaisons de mots (tirets et apostrophes) : https://abrac.at/corrector
Dictionnaire Hunspell (LibreOffice, OpenOffice, Firefox, Thunderbird) pour correcteur orthographique (occitan languedocien), créé par Tot en Òc, 87 000 lemmes et 800 règles de flexion : https://gitlab.com/taissou/hunspell-files-for-occitan-lengadocian/-/tree/master/Files
- Avec une extension pour Firefox : https://addons.mozilla.org/fr/firefox/addon/diccionari-occitan-lengadocian/
- Et le projet contributif Dicollecte pour l’enrichir : 87 000 entrées : https://grammalecte.net/home.php?prj=oc
Correcteur orthographique (occitan gascon) pour OpenOffice et Thunderbird de Per Noste : https://www.pernoste.com/telechargement/corrector-ortografic
Claviers dicodòc du Congrès pour Android (occitan gascon et languedocien) : 1,6 million de mots et 7,2 millions de combinaisons de mots (tirets et apostrophes) : https://abrac.at/clavier
Clavier SwiftKey pour Android et IOS :

https://play.google.com/store/apps/details?id=com.touchtype.swiftkey&referrer=utm_source%3Dwebsite%26utm_medium%3Dsk%26utm_campaign%3Dfooter-menu

Type d'outil linguistique : Analyse orthographique et grammaticale
Outil à créer : Analyseurs morphologique et syntaxique

Objectifs

Développement d'un analyseur morphologique (tagger) robuste à partir des travaux faits jusqu'à présent.

Réalisé

Analyseur morphologique du traducteur Revirada et du traducteur Apertium (occitan gascon, languedocien et aranais) réalisé par Lo Congrès et Apertium : https://github.com/apertium/apertium-oci
Analyseur syntaxique Talismane : Analyseur morphosyntaxique et syntaxique développé par Assaf Urieli dans le cadre de sa thèse au sein du laboratoire CLLE-ERSS. Marianne Vergez-Couret l'a entraîné pour l'occitan. : http://redac.univ-tlse2.fr/applications/talismane/talismane_en.html

Analyse sémantique

Type d'outil linguistique : Analyse sémantique
Outil à créer : Base de connaissance lexicale

Objectifs

Développement d'un outil d'analyse syntaxique superficielle/profonde.
Construction de la première version de base de connaissance lexicale pour l'occitan (15 000 concepts), en utilisant les entrées de la base de données lexicale comme source d'information pour les variantes de l'occitan.

Réalisé

Préparation d’une base lexicale et d’un bot pour la verser dans Wikidata Lexèmes. Développement d’un serious game pour que la communauté relie les lexèmes à l’item Wikidata correspondant à leur sens : https://github.com/aitalvivem

Traduction automatique

Type d'outil linguistique : Traduction automatique
Outil à créer : Traducteurs automatiques

Objectifs

Développement, en réutilisant les travaux existants, des outils pour la traduction automatique :

- En priorité, sens occitan → français (toutes les variantes)
- Français → occitan (le système permettra à l'utilisateur de choisir une ou plusieurs variantes comme référence(s) pour la traduction ; utiliser le transcripteur de variantes au besoin)
- Besoin des outils basiques pour la paire occitan-anglais.

Réalisé

Traducteur automatique Revirada occitan<->français du Congrès (occitan gascon et languedocien) : https://revirada.eu/
Traducteur automatique Apertium : français<->occitan (gascon et languedocien), catalan<->occitan (aranais et languedocien), espagnol <-> occitan (aranais et languedocien).: https://apertium.org
Traducteur automatique Softcatalà occitan (aranais) <-> catalan : https://www.softcatala.org/traductor/
Les traducteurs automatiques de la Generalitat de Catalunya et d'Opentrad intègrent le traducteur Apertium pour les paires de langue occitan <-> catalan et occitan <-> espagnol (occitan aranais et languedocien) : https://traductor.gencat.cat/
Des modèles ou des scripts pour entraîner des traducteurs automatiques basés sur l'intelligence artificielle ont été publiés par Softcatalà et Facebook (Fairseq Flores101).

Type d'outil linguistique : Traduction automatique
Outil à créer : Transcripteur automatique entre variantes

Objectifs

Développement d'un convertisseur automatique entre variantes, qui travaille non seulement au niveau du lexique mais aussi sur la syntaxe. Il permettra entre autres de réaliser certains outils pour une seule variante, et de pouvoir ensuite les utiliser avec toutes (ex : [traducteur français → occitan languedocien] + [transcripteur languedocien → gascon] = [traducteur français → occitan gascon]).

Réalisé

Possibilité d’utiliser le traducteur automatique Revirada avec le français comme langue pivot pour passer de l’occitan gascon à l’occitan languedocien, sans trop de perte de qualité.

Logiciels disponibles en occitan

Autres outils - logiciels : Logiciels disponibles en occitan
Outil à créer : OS + Applications principales

Objectifs

Traduction des logiciels les plus utilisés et des logiciels libres (bureautique, navigateurs, mails, réseaux sociaux...).

Réalisé

Voir la liste actualisée des logiciels traduits sur le site de La Farga.

Feuille de route

Lors de la configuration d'une feuille de route pour la réalisation des objectifs ci-dessus, nous devons considérer qu'il existe des dépendances entre eux. Ci-dessous, nous décrivons les dépendances plus significatives.

Objectif : Corpus monolingue
Ressources / outils nécessaires : Numérisation, OCR et conversion de texte à un format standard traitable par un analyseur

Objectif : Corpus web
Ressources / outils nécessaires : Détecteur de l'occitan - Détecteur des variantes de l'occitan

Objectif : Corpus parallèle
Ressources / outils nécessaires : Collection de documents bilingues - Mémoires de traduction (TMX)

Objectif : Base lexicale monolingue
Ressources / outils nécessaires : Dictionnaires monolingues au format électronique (MRD)

Objectif : Base lexicale bilingue
Ressources / outils nécessaires : Dictionnaires bilingues au format électronique (MRD)

Objectif : Correcteurs orthographiques
Ressources / outils nécessaires : Base lexicale monolingue

Objectif : Analyseur morphologique (PoS-tagger, lemmatiseur)
Ressources / outils nécessaires : Base lexicale monolingue - Base grammaticale

Objectif : Analyseur syntaxique
Ressources / outils nécessaires : Analyseur morphologique - Base grammaticale/syntaxique

Objectif : Base de connaissance lexicale
Ressources / outils nécessaires : Base lexicale monolingue

Objectif : Traducteurs automatiques oc → fr (toutes les variantes)
Ressources / outils nécessaires : Base lexicale bilingue - Base grammaticale/syntaxique

Objectif : Transcripteur automatique entre variantes
Ressources / outils nécessaires : Base lexicale monolingue - Base grammaticale/syntaxique

Objectifs et interdépendances

Le diagramme ci-dessous reprend les éléments en séparant les objectifs en trois sections (ressources, outils intermédiaires, outils finaux) et en montrant les interdépendances entre les « blocs » : par exemple il est nécessaire pour un traducteur automatique d'avoir un analyseur morphosyntaxique, lui-même ayant besoin en amont d'une base lexicale monolingue et de modèles grammaticaux. Un corpus parallèle peut également aider à le perfectionner. Cette lecture permet une vision structurée des travaux et d'envisager la planification des programmes opérationnels.

Glossaire

Modèles grammaticaux et modèles de langage : grammaire descriptive de l'occitan organisée comme un ensemble de règles pour une utilisation informatique (surtout pour ce qui concerne les analyseurs morphologiques et syntaxique) avec lexiques et corpus annotés.

Base lexicale monolingue : base d'une grande partie des autres ressources et des outils développés, la base lexicale monolingue comprend une liste de mots occitans, avec la catégorie grammaticale (type, genre, nombre, etc.), les formes fléchies (féminin, pluriel, conjugaisons, etc.), la variante et éventuellement des informations concernant l'usage (domaine, registre, etc.). ll y aura également le lien entre deux mêmes mots pour plusieurs variantes.

Base lexicale bilingue : base principale pour la traduction automatique. Elle contient des entrées en occitan ayant les mêmes champs que la base lexicale monolingue, mais également sa (ses) traduction(s) en français (on peut envisager à terme l'équivalent en catalan).

Base de connaissance lexicale : il s'agit d'une base de connaissance liant les mots ou les concepts entre eux, avec des relations de catégorie (une pomme est un fruit), de champ lexical (pain et couteau), de dérivation (passé et passation), etc. WordNet, par exemple, est une base de connaissance lexicale.

Corpus : un corpus est un ensemble de documents rassemblés dans un but précis. Dans le domaine des TAL (Traitement automatique du langage), les corpus textuels sont très utiles pour perfectionner les outils grâce à des statistiques sur les mots et la langue. Par exemple, pour un traducteur automatique, le corpus parallèle français-occitan permettra de savoir que, statistiquement, le nom français « son » est plus souvent traduit par « son » que par « bren ».

Corpus monolingue spécialisé : ce type de corpus rassemble une masse de textes en occitan qui attestent d'un usage référentiel de la langue dans différents domaines (littérature, presse, recherche). Ils sont indispensables à la création des outils et des autres ressources.

Corpus monolingue web : collection de textes en occitan présents sur Internet, sans sélection en terme de qualité linguistique. Il servira surtout aux statistiques afin de perfectionner les outils.

Corpus parallèle : corpus qui rassemble des textes ayant au moins deux versions correspondant à deux langues différentes. Le corpus parallèle occitan sera un corpus occitan-français (sites web institutionnels, mémoires, etc.).

Ressources pour la reconnaissance de la parole : selon la feuille de route, il est impossible de créer un véritable outil de reconnaissance de la parole (création d'écrit à partir d'un document oral) avant 2019. Il faut commencer par identifier et créer les ressources nécessaires à une telle technologie. Elle pourra être utilisée, par exemple, pour faire du sous-titrage automatique.

Détecteur de l'occitan : il s'agit d'un outil permettant de détecter automatiquement si un texte est en occitan.

Détecteur des variantes de l'occitan : il s'agit d'un outil permettant de détecter automatiquement la variante occitane d'un texte.

Analyseur morphologique (lemmatiseur) : un lemmatiseur est un outil d'analyse morphosyntaxique du contenu d'un texte. Il associe chaque mot à sa forme « canonique » (infinitif pour les verbes, masculin singulier pour les adjectifs, etc.), la catégorie grammaticale ou partie d'un discours, le genre, le nombre, le temps et le mode, la personne (ex : je parle → première personne/singulier, indicatif présent du verbe parler). Il contient également des informations sémantiques et référentielles (définitude, quantification, animé/non animé, humain/non humain, etc.).

Analyseur syntaxique (parser) : met en évidence la structure d'une phrase. L'analyse donne la façon dont les mots sont combinés dans un texte. Il permet de connaître les relations de dépendance des syntagmes (groupes de mots ayant une fonction particulière dans la phrase, par exemple le sujet).

Traducteurs automatiques : ils permettront, à partir d'un texte en occitan, d'obtenir automatiquement une traduction en français, et inversement. Grâce au transcripteur de variantes, il sera possible d'obtenir la traduction den français depuis et en n'importe quelle variante.

Transcripteur automatique entre variantes : il fonctionne selon le même principe qu'un traducteur automatique. Il permettra, à partir d'un texte dans une variante de l'occitan, d'obtenir automatiquement une version dans une autre variante.

Correcteur orthographique polyvalent : afin de montrer l'unité de la langue dans le respect de sa diversité, l'idée est d'avoir un seul correcteur orthographique qui propose une correction dans toutes les variantes. L'utilisateur pourra choisir la ou les variante(s) qu'il souhaite pour la correction. Le correcteur sera sur les logiciels les plus utilisés avec une priorité aux formats libres, sans pour autant écarter les commerciaux (LibreOffice, OpenOffice, Microsoft Office, navigateurs, logiciels clients pour courriel, suite Adobe, etc.).

Clavier prédictif et autocorrection : cet outil servira pour les téléphones mobiles, par exemple pour suggérer ou corriger des mots dans les SMS. Il permettra de choisir sa variante et pourra s'installer sur les systèmes d'exploitations les plus courants.

Synthèse vocale : elle consiste à la création de documents oraux à partir de documents écrits. Elle est par exemple utilisée pour lire les noms de rue dans les GPS, pour les logiciels d'assistance aux mal-voyants...

OS et applications principales : l'idée est de proposer pour les ordinateurs un système d'exploitation entièrement en occitan, avec les logiciels les plus courants également traduits (bureautique, navigateurs, clients de courriel, etc.).