Le projet Lexics a pour but de formater en XML (selon la norme TEI) tous les dictionnaires, lexiques spécialisés, bases toponymiques, lexiques flexionnels du Congrès et de ses partenaires. Ces lexiques formatés peuvent ensuite être intégrés dans des outils de TAL (correcteur orthographique, traducteur automatique, clavier prédictif) ou utilisés pour générer automatiquement ou semi-automatiquement d'autres ressources (dictionnaires de synonymes, dictionnaires de rimes, dictionnaires de locutions...).
La rédaction de la feuille de route de développement numérique de l'occitan, en 2014, a souligné le besoin pour les acteurs du TAL occitan de disposer de données standardisables et interopérables. Le Congrès a donc lancé ce projet qui a pour but de rendre ses lexiques croisables avec ses autres ressources (comme ses lexiques, qui sont eux aussi formatés en XML-TEI) et celles de ses partenaires.
toutes ses ressources au format TEI"
Ce formatage rend également les ressources lisibles par les machines. La norme TEI (Text encoding initiative) est un format de balisage pour le langage XML (Extensible Markup Language). Il permet, grâce à des balises, d'indiquer la nature de chaque élément d'un texte (mot, phrase, morphème...). Ainsi, les machines peuvent connaître la nature de chaque élément d'une entrée. Par exemple, elles savent quel est le mot-vedette, quelle est sa traduction, quelle est la catégorie grammaticale de sa traduction... Cela permet de générer automatiquement de nouvelles ressources en extrayant seulement ce dont il y a besoin, par exemple un mot et son féminin pour construire un lexique de formes fléchies, un mot et sa traduction pour construire un lexique pour un traducteur automatique...
de nouvelles ressources"
Le projet Lexics a permis de développer des ressources pour plusieurs outils du Congrès :
- Le traducteur automatique Revirada
- Le phonétiseur utilisé par la synthèse vocale Votz
- Les claviers prédictifs et correcteurs orthographiques Dicodòc
- Certains dictionnaires du Dicodòc : locutions, synonymes
- Laboratòri, l'outil de consultation avancée de lexiques occitans
Le projet Còrpus du Congrès a pour objectif la constitution d'un ensemble de corpus pour le développement d'outils de traitement automatique du langage. Il a un double objectif de quantité (pour pouvoir entraîner des intelligences artificielles) et de représentativité de la diversité de l'espace linguistique occitan. Ses textes sont formatés selon les standards du Congrès pour la norme TEI.
Plus de 60 partenaires ont fourni des données pour construire cette imposante ressource. Des médias, des éditeurs, des organismes de formation, des institutions, des particuliers, des associations culturelles... ont donné au Congrès des contenus aussi variés que des livres, des émissions de radio et de télévision, des vidéos sous-titrées, des articles de presse, des contenus de sites web, des compte-rendus ou documents de communication... S'y sont ajoutés plusieurs contenus libres de droits (Wikipédia, traductions de logiciels libres...). Les données viennent de tout le territoire et sont aussi bien écrites qu'orales.
ont fourni des données"
À l'heure actuelle, la base du projet Còrpus contient :
- Un corpus monolingue de plus de 8,5 millions de mots
- Un corpus parallèle occitan-français de plus d'un million de mots
- De petits corpus parallèles de l'occitan vers d'autres langues, pour un total de plus de 300 000 mots
- Un corpus audio aligné de plus de 250 heures pour presque 1,5 million de mots
Les corpus audio et écrits servent à entraîner l'intelligence artificielle du futur outil de reconnaissance vocale dans le cadre du projet ReVoc. Des sous-corpus ont également été utilisés pour tester le traducteur automatique Revirada et sélectionner des phrases à enregistrer pour la synthèse vocale Votz.
ROLF est un partenariat entre le Congrès permanent de la langue occitane, CLLE-ERSS (CNRS/Université Toulouse Jean-Jaurès), Habiter le monde (Université d’Amiens) et LiLPa (Université de Strasbourg) soutenu dans le cadre de l’appel à projets « Langues et numérique » de la Délégation générale à la langue française et aux langues de France-ministère de la Culture et la Communication.
pour les trois langues du projet"
Ce projet s’inscrit dans la continuité du projet ANR RESTAURE (RESsources informatisées et Traitement AUtomatique pour les langues REgionales) dans le cadre duquel plusieurs ressources et outils de TAL (Traitement automatique du langage) sont développées pour trois langues de France : alsacien, occitan et picard. Les réalisations des objectifs de RESTAURE sont en bonne voie. Cela étant, les développements ont été réalisés de manière concertée mais indépendante pour les trois langues. L’idée qui sous-tend la présente proposition est de définir pour les ressources lexicales un format unique qui permettrait de créer le même type de ressource pour les trois langues, de proposer des ressources dont le format et les annotations seraient identiques (avec par exemple les mêmes jeux d’étiquettes pour les catégories similaires dans les différentes langues), et d’avoir des outils d’aide à la création de ces ressources qui seraient partagés pour les trois langues.
pour mutualiser les développements"
Les développements ont été réalisés de manière concertée mais indépendante pour les trois langues avec l’objectif de la création d’un lexique de formes fléchies pour chacune d’entre elles. L’idée qui sous-tend la présente proposition est de relier les lexiques de chacune des trois langues entre eux en utilisant le français comme langue pivot et de développer des formats communs pour le développement mutualisé de ressources et d’outils.
Grâce au développement concerté pour ces trois langues, il a été également possible de proposer au grand public une première version en occitan du clavier prédictif (prévue par la Feuille de route de développement numérique de l’occitan pilotée par le Congrès), mais également en alsacien et en picard.
Le Congrès permanent de la langue occitane est porteur d’un programme d’action dans le cadre du CPER 2021-2027 pour les régions Nouvelle-Aquitaine et Occitanie : il s’agit d’un projet d’infrastructure numérique dédiée à la langue occitane, permettant de créer, structurer et relier différentes ressources lexicographiques, textuelles et toponymiques autour d’une interface de consultation publique, d’un niveau d’excellence comparable à celui du Centre national des ressources textuelles et lexicales pour la langue française (https://www.cnrtl.fr). Le programme prévoit différents travaux, dont la rédaction du dictionnaire général informatisé de la langue occitane, la restauration de la toponymie occitane (en partenariat avec l’IGN) sur les deux régions et le traitement massif des données au standard TAL (traitement automatique des langues).
Le programme a pour objectif de produire des outils numériques, d'utilisation gratuite et libre via ordinateurs et appareils connectés mobiles, visant à diffuser la transmission et l'usage d'une langue occitane de qualité.
Acquérir des ressources linguistiques permettant la diffusion et l’étude d'une langue de qualité
- la réalisation d'un dictionnaire général informatisé de la langue occitane. Comme pour ses langues voisines catalane et basque, l’occitan sera ainsi doté d’un dictionnaire descriptif complet, embrassant toutes les variétés de l’occitan, avec description phonologique, exemples, dictons, proverbes, citations littéraires. Il s’agit d’un travail de plusieurs années, nécessitant une équipe fournie dans le domaine de la lexicographie, qui aura une édition numérique qui permettra sa plus large diffusion grâce aux standards d’interopérabilité. Une édition papier en plusieurs volumes pourra être ultérieurement envisagée. Cette oeuvre académique de prestige est indispensable à la connaissance et à la diffusion de la langue. Depuis le Trésor du Félibrige de Frédéric Mistral, aucune oeuvre lexicographique panoccitane de ce niveau scientifique et de cette envergure n’a été produite à ce jour.
- l'augmentation de la base du multidictionnaire « dicod'Òc » notamment par les dictionnaires suivants : le Vayssier, le Mouly et l'Alibert et leur formatage, en TEI afin de permettre (ultérieurement), le développement de nombreuses applications linguistiques (dictionnaire des expressions, ...)
- Augmentation des bases textuelles occitanes annotées (données morphosyntaxiques) et couvrant la diversité de la langue (en variété et en genre littéraire) avec interface de consultation. En fonction des partenariats établis, cette opération sera éventuellement totalement ou partiellement fusionnée avec le programme BaTelÒc et ParcoLaf du laboratoire CLLE-ERSS (CNRS/Université Toulouse 2).
Objectifs : 10-25 millions de mots pour le corpus monolingue, 2-5 millions pour le corpus bilingue.
Restaurer, décrire et diffuser la toponymie occitane en Régions Nouvelle-Aquitaine et Occitanie (en partenariat avec l’IGN) :
Une convention a été signée entre le Congrès permanent de la langue occitane et l’IGN (Institut Géographique National). Le Congrès est désormais le référent de l’IGN pour l’occitan sur l’harmonisation des formes graphiques sur les 32 départements occitanophones. Après le Pays Basque, et la Catalogne, l'Occitanie bénéficiera ainsi d’une mise en valeur, tant au niveau national que local à travers ce projet d’envergure. Pour des contraintes de temps et d’espace, les travaux engagés n’auront pas le niveau de précision de ses prédécesseurs basque et catalan.
- Enquêtes de terrain : collectage oral auprès de locuteurs de langue maternelle occitane et un enquête écrite qui consiste à relever un minimum de formes anciennes dans les cartes (IGN, cadastre, canton, etc.) et dans les sources anciennes (livres terriers, bulletins paroissiaux, etc.).
- création d’un modèle de fiche d’identification nécessaire à la description précise (coordonnées géographiques, typologie, date et lieu du collectage, sources relevées, formes historiques, etc.) de chaque toponyme occitan.
- Constitution d’une base de données toponymiques avec une API (Application programming interface) permettant une exploitation via une recherche multicritère, accès via cartographie, etc.
Créer une plateforme numérique universelle et multivariétés
Elle sera dédiée aux données lexicographiques, textuelles et toponymiques occitanes, équivalent occitan du portail lexical français du Centre national de ressources textuelles (www.cnrtl.fr). Développé en lien avec La Farga, future plateforme collaborative d’accès, de valorisation, de développement et d’échange des ressources TAL (traitement automatique de langue) et informatique en occitan, le portail sera évolutif et développé selon les derniers standards en termes de formatage, d’accès et d’interopérabilité :
- Barre de recherche unique, en occitan ou en français, permettant une consultation des ressources locongres.org et CLLE-ERSS : flexions, synonymie, illustration sonore, traduction, définition, conjugaisons, citations en contexte, rimes, contexte dans les dictionnaires historiques (grâce à un adaptateur de graphie), toponymes (description et cartographie).
- Ensemble des données formatées en TEI, permettant l’interopérabilité des ressources et une ergonomie optimale avec accès instantané (chaque mot sera “cliquable”). Des API permettront un accès à distance de ces données pour d’autres plateformes ou applications.
- Interrogations de données externes via les API : IGN (cartographie), Wikipédia (encyclopédie), Occitanica (documentation), etc.
- Interface multiplateformes « responsive », avec un soin particulier pour un accès via les terminaux mobiles.
Une première édition publique de la plateforme, avec les variétés languedocienne et gasconne, est envisagée courant 2024, la version complète sera éditée en fin de programme.
Le Congrès permanent de la langue occitane participe à un programme transfrontalier visant à faire progresser la numérisation de l'aragonais, du catalan, du basque et de l'occitan, grâce à l'intelligence artificielle
Objectif
L'objectif du projet est de développer des connaissances en intelligence artificielle (IA) sur de nouveaux modèles de langues neuronales applicables aux langues avec peu de ressources, d'avancer dans la numérisation des langues du territoire POCTEFA (aragonais, catalan, basque et occitan) et dans la construction d'une infrastructure linguistique et transfrontalière intelligente facilitant la communication entre les locuteurs des différentes langues ainsi que l'accès multilingue à l'information.
Le projet vise à :
- Construire de nouveaux algorithmes et architectures neuronaux pour générer
des modèles de langage neuronal adaptés aux régimes de calcul et aux ressources linguistiques limitées.
- Améliorer les systèmes de transcription, de traduction automatique neuronale et de synthèse vocale pour le basque, le catalan, l'occitan, l'aragonais et leurs variantes dialectales, en combinant le français et l'espagnol.
- Développer une plateforme linguistique multilingue pour le sous-titrage et le doublage automatiques.
- Créer une plateforme ou un référentiel en ligne de ressources, de technologies et d'applications pour les langues des Pyrénées
- Consolider le « Réseau transfrontalier d'excellence en technologies linguistiques ».
Le projet européen EFA 104/01-LINGUATEC AI (Intelligence Artificielle) est cofinancé par le Fonds Européen de Développement Régional (FEDER) à travers le 1er appel INTERREG POCTEFA 2021-2027. Cette subvention soutiendra l'innovation, en misant sur la recherche appliquée en intelligence artificielle dans le traitement du langage naturel (NLP). Elle contribuera également à l'articulation sociale et culturelle du territoire transfrontalier en renforçant un élément clé de la culture locale, les langues.
Délai d'exécution
Début : 2024/01/01
Fin : 2026/12/31
Composition du consortium
Elhuyar (par le biais de son hub Orai)
Lo Congrés Permanent de la Lenga Occitana
HITZ zentroa (UPV/EHU)
Université Jean-Jaurès de Toulouse
Université de Perpignan
IKER-CNRS de Baiona
Gouvernement d'Aragon
Université de Lleida
Budget
Budget total: 1.545.953,42 €
Budget FEDER: 1.004.867,00 €
Le projet LINGUATEC-IA est financé à 65% par l'Union européenne à travers le programme Interreg VI-A Espagne-France-Andorre (POCTEFA 2021-2027). Le POCTEFA a pour objectif de renforcer l'intégration économique et sociale de la zone frontalière Espagne-France-Andorre.
Plus d'information sur le site : linguatec-poctefa.eu
La feuille de route pour le développement numérique de l'occitan utilise la méthode de l'étude de MetaNet (site internet), un réseau européen d'excellence dédié à la promotion des fondations technologiques d'une société multilingue de l'information en Europe. Réalisée par plus de 200 experts internationaux, cette étude fait l'état actuel des ressources et technologies du langage pour 30 langues européennes dans 6 domaines : la traduction automatique, la synthèse et la reconnaissance vocales, la correction orthographique, l'analyse sémantique, l'analyse grammaticale et la génération automatique de texte.
la méthode de MetaNet a été utilisée"
Diagnostic et feuille de route
Diagnostic et feuille de route pour le développement numérique de la langue occitane
Elle propose également une grille commune de classification et d'évaluation des ressources et outils numériques. Le diagnostic de soutien technologique de la langue occitane nous a permis de recueillir des données objectives concernant la situation numérique de l'occitan (inventaire), et, après échanges avec des experts internationaux (langues basque, bretonne, catalane et galloise), d'identifier les besoins. Pour ces dernières, la feuille de route ci-dessous propose une projection de développement 2015-2019.
Résultat synthétique et projection sur les actions à réaliser
Un état des lieux actualisé de l'ensemble du TAL occitan est disponible sur le site de La Farga.
Définition des besoins prioritaires
Avant de préciser l'étape des objectifs, nous avons déterminé les besoins prioritaires pour la langue occitane, qui découlent de l'analyse de l'inventaire et des expériences d'autres langues.
Type de ressource : Corpus
Ressource à créer : Corpus textuels
Type de ressource : Ressources lexicales
Ressource à créer : Base lexicale monolingue et base lexicale bilingue
Type de ressource : Grammaires
Ressource à créer : Base grammaticale / Syntaxique
En prenant cet ensemble de priorités comme point de départ, le groupe de travail a dû préciser les objectifs stratégiques du développement des technologies langagières pour l'occitan. Nous détaillons ces objectifs dans la section suivante.
Définition des objectifs
Corpus
Type de ressource : Corpus
Ressource à créer : Corpus textuels
Objectifs
- Trois types de corpus spécialisés :
-
- Corpus de textes validés, à partir de documents originellement imprimés ; objectif : 10 à 25 millions de mots
- Corpus web : corpus construit automatiquement en utilisant des documents publiés sur Internet ; objectif : 5 millions de mots
- Corpus parallèle français-occitan ; objectif : 2 à 5 millions
- Caractérisation de textes inclus : variantes, genre, domaine de connaissances,périodes, qualité linguistique (à définir).
- Niveau d'analyse linguistique : catégorie, puis lemme ; analyse syntaxique (dépendances).
Réalisé
- Projet « Còrpus » du Congrès : réalisation d’un corpus multivariété et multimodal (monolingue, bilingue aligné, audio aligné) : https://dicodoc.eu/oc/corpus
En août 2022 :
-
- Corpus monolingue : 8,5 millions de mots
- Corpus bilingue : 1 million de mots occitans alignés avec le français, 9 000 mots occitans alignés avec une autre langue
- Corpus audio : 1,5 million de mots, 250 heures
Et aussi :
- BaTelÒc, Basa Textuala per la lenga d’Òc de CLLE-ERSS : corpus monolingue de 3,3 millions de mots : http://redac.univ-tlse2.fr/bateloc/
- Linguatec Tolosa Treebank de CLLE-ERSS : corpus monolingue de 14 000 mots annotés syntaxiquement : https://zenodo.org/record/3708268
- Mémoires de traduction de mejans.fr : corpus bilingue anglais-occitan languedocien de 150 000 phrases : https://www.mejans.fr/article/memoria-de-traduccion.html
- OcWikiDisc : Corpus TAL généré à partir des pages de discussion de la Wikipèdia en occitan (430 000 mots).
- Oscar : Corpus TAL moissonné sur le web pour de nombreuses langues, dont l'occitan (34 000 mots pour l'occitan)
- Còrpus parallèle Softcatalà : Corpus d'entraînement du système de traduction neuronal de Softcatala, avec des textes alignés du catalan vers plusieurs langues dont l'occitan languedocien (46 millions de mots).
- ParCoLaF : Corpus de textes alignés en occitan, français et anglais, à consulter en ligne : http://parcolab.univ-tlse2.fr/parcolaf/
- Annotated Corpus for Occitan : Corpus de plus de 12 000 tokens annotés avec les catégories grammaticales et les lemmes.
- OcWikiAnnot : Corpus tiré de Wikipèdia, annoté en POS et lemmatisé (2 millions de mots).
- Mozilla Common Voice, corpus aligné de phrases audio avec leur transcription (10 000 mots, 1h45) : https://commonvoice.mozilla.org/fr
- ReVOc, corpus aligné aligné de phrase audio avec leur transcription 136 heures pour le gascon et 126 heures pour le languedocien : https://contribuir.locongres.com/revoc
Objectifs
- Caractérisation de textes inclus : variétés, genre, domaine de connaissances, périodes, qualité linguistique (à définir).
Réalisé
-
Variétés et graphies étiquetées dans le projet Còrpus : https://corpus.locongres.com
-
Variétés, graphies et genre étiquetés dans BaTelÒc (Qualité linguistique élevée) : http://redac.univ-tlse2.fr/bateloc/
Objectifs
- Niveau d'analyse linguistique : catégorie, puis lemme ; analyse syntaxique (dépendances).
Réalisé
-
Tolosa Linguatec Treebank de CLLE-ERSS annoté syntaxiquement : https://zenodo.org/record/3708268
Ressources lexicales
Type de ressource : Ressources lexicales - lexiques / Bases terminologiques
Ressource à créer : Base lexicale monolingue
Objectif
- Base de données lexicale pour l'occitan : a) entre 500 000 et un million d'entrées à terme (y compris les formes fléchies) ; b) information sur chaque entrée : entrée, lemme, catégorie grammaticale, informations morphosyntaxiques, variante, usage (hyperonymie, domaine, registre, géographique…) lien entre variantes.
Réalisé
- Dictionnaire monolingue d'Apertium et Revirada : Liste de 220 000 lemmes avec leurs catégories grammaticales et paradigmes de conjugaisons/déclinaisons.
- Bases de formes fléchies du Congrès (lemme, catégorie grammaticale, flexion, variante) : languedocien (900 000 formes) et gascon (1,3 millions de formes).
- Lexique languedocien-gascon de 50 000 entrées pour le lien entre variantes.
- Dictionnaire Hunspell de Tot en Òc : 87 000 lemmes : https://gitlab.com/taissou/hunspell-files-for-occitan-lengadocian/-/tree/master/Files
- Liste de mots occitans de mejans.fr (occitan lengadocian); 2 millions de formes sans information morphosyntaxique : https://www.mejans.fr/article/corpus-e-listas-de-mots.html
- Dictionnaire des synonymes du Congrès de 500 000 mots.
Type de ressource : Ressources lexicales - lexiques
Ressource à créer : Base lexicale bilingue
Réalisé
- Dictionnaire occitan-catalan du traducteur automatique Apertium : 24 500 paires de traductions libres de droits.
- Dictionnaire occitan-espagnol du traducteur automatique Apertium : 18 700 paires de traductions libres de droits.
Type de ressource : Ressources lexicales - lexiques
Ressource à créer : Base lexicale bilingue
Objectif
- Base terminologique : le travail terminologique se fait en fonction des demandes liées aux politiques régionales ; les objectifs dans ce champ doivent également tenir compte des demandes du conseil des usagers du Congrès.
Type de ressource : Bases terminologiques
Ressource à créer : Base lexicale bilingue
Réalisé
- tèrm’Òc, base terminologique du Congrès de 60 000 termes (variété étiquetée).
- Création d’une plateforme terminologique pour faciliter la création de lexiques spécialisés, en permettant une meilleure communication entre usagers et linguistes/lexicographes : https://www.termoc.eu
Objectif
- Base de données lexicale bilingue :
-
- Priorité français-occitan
- Catalan-occitan
- Mêmes champs que la base lexicale monolingue
- Orientée vers la traduction automatique
Réalisé
- Dictionnaire du traducteur automatique Revirada du Congrès : 170 000 paires de traductions occitan-français et français-occitan vérifiées (gascon et languedocien)
- Dictionnaire du traducteur automatique Apertium, enrichi par le Congrès dans le cadre de la construction de Revirada, libre de droits : 100 000 paires de traductions occitan-français et français-occitan vérifiées (gascon, languedocien et aranais) : https://github.com/apertium/apertium-oci-fra/blob/master/apertium-oci-fra.oci-fra.dix
- Base de donnée brute de 500 000 paires de traductions occitan-français et français-occitan, extraite des dictionnaires bilingues (gascons et languedociens) du dicodòc.
Grammaires
Type de ressource : Grammaires
Ressource à créer : Base grammaticale / syntaxique
Objectifs
- Grammaire descriptive de l'occitan et de ses différentes variantes, conçue comme un ensemble de règles pour son utilisation ultérieure en informatique (analyseurs morphologiques et syntaxiques automatiques).
Réalisé
- Fichier de règles (environ 2000) pour l’analyse morphosyntaxique du traducteur automatique Revirada du Congrès.
Traitement de la parole
Type de ressource : Traitement de la parole
Ressource à créer : Reconnaissance de la parole
Objectifs
- Créer un véritable outil de reconnaissance de la parole en commençant par identifier et créer les ressources nécessaires à son développement technologique. L'intérêt particulier de cet outil serait son utilisation pour le sous-titrage automatique.
Réalisé
- Projet ReVoc du Congrès (gascon et languedocien) : constitution d’un corpus audio et d’un corpus textuel dans le cadre du projet Còrpus en vue d’entraîner une intelligence artificielle : https://contribuir.locongres.com/revoc
- Projet Araina de Col·lectivaT (occitan aranais) : constitution d'un corpus audio via Mozilla Common Voice dans l'objectif d'entraîner une intelligence artificielle : https://www.projecte-araina.org/
- Fairseq MMS – ASR : Modèle de reconnaissance vocale développé par Facebook pour 1 100 langues, incluant des langues peu dotées dont l'occitan.
Type d'outil linguistique : Traitement de la parole
Outil à créer : Synthèse vocale
Objectifs
- Outil de synthèse vocale (TTS) :
-
- Pour toutes les variantes principales
- Deux locuteurs minimum, avec parité.
Réalisé
- Votz, synthèse vocale du Congrès pour l’occitan gascon (une locutrice) et l’occitan languedocien (un locuteur) : https://votz.eu/
Détection automatique de la langue
Type d'outil linguistique : Détection automatique de la langue
Outil à créer : Détecteur de l'occitan
Objectifs
- Développement d'un détecteur de textes écrits en occitan, à partir des travaux faits jusqu'à présent.
Réalisé
- Rédaction d’une notice pour le programme LangId, qui permet de détecter l’occitan parmi un grand nombre d’autres langues : https://pypi.org/project/langid/
- De nombreux détecteurs de langues (open source, disponibles via des API ou privés) incluent l'occitan, dont deux logiciels de détection de langue parlée. Voir la liste dans l'inventaire de La Farga.
Type d'outil linguistique : Détection automatique de la langue
Outil à créer : Détecteur des variantes de l'occitan
Objectifs
- Développement d'un détecteur des variantes écrites de l'occitan (pour toutes les variantes).
Réalisé
- Développement d’un premier détecteur par Eve Séguier.
- Constitution d’un corpus textuel multivariétés dans le cadre du projet Còrpus du Congrès en vue d’améliorer le détecteur grâce à l’intelligence artificielle
Analyse orthographique et grammaticale
Type d'outil linguistique : Analyse orthographique et grammaticale
Outil à créer : Correcteurs orthographiques
Objectifs
- Correcteur orthographique polyvalent :
-
- Qui permette à l'utilisateur de choisir une ou plusieurs variantes comme référence pour la correction
- Pour toute plateforme, avec priorité aux logiciels libres, mais également aux logiciels les plus utilisés :
- Open Office, Libre Office, Microsoft Office
- Modules pour navigateurs
- Suite Adobe, PAO
- Clavier prédictif et autocorrection pour toutes les variantes et pour les téléphones portables les plus utilisés (Android, iPhone, Windows, Blackberry... ou ceux à venir). Basé sur les fréquences des mots dans des corpus.
Réalisé
- Correcteur orthographique dicodòc du Congrès (occitan gascon et occitan languedocien) pour Chrome, Firefox, Thunderbird, LibreOffice : 1,6 million de mots et 7,2 millions de combinaisons de mots (tirets et apostrophes) : https://abrac.at/corrector
- Dictionnaire Hunspell (LibreOffice, OpenOffice, Firefox, Thunderbird) pour correcteur orthographique (occitan languedocien), créé par Tot en Òc, 87 000 lemmes et 800 règles de flexion : https://gitlab.com/taissou/hunspell-files-for-occitan-lengadocian/-/tree/master/Files
- Avec une extension pour Firefox : https://addons.mozilla.org/fr/firefox/addon/diccionari-occitan-lengadocian/
- Et le projet contributif Dicollecte pour l’enrichir : 87 000 entrées : https://grammalecte.net/home.php?prj=oc
- Correcteur orthographique (occitan gascon) pour OpenOffice et Thunderbird de Per Noste : https://www.pernoste.com/telechargement/corrector-ortografic
- Claviers dicodòc du Congrès pour Android (occitan gascon et languedocien) : 1,6 million de mots et 7,2 millions de combinaisons de mots (tirets et apostrophes) : https://abrac.at/clavier
- Clavier SwiftKey pour Android et IOS :
Type d'outil linguistique : Analyse orthographique et grammaticale
Outil à créer : Analyseurs morphologique et syntaxique
Objectifs
- Développement d'un analyseur morphologique (tagger) robuste à partir des travaux faits jusqu'à présent.
Réalisé
- Analyseur morphologique du traducteur Revirada et du traducteur Apertium (occitan gascon, languedocien et aranais) réalisé par Lo Congrès et Apertium : https://github.com/apertium/apertium-oci
- Analyseur syntaxique Talismane : Analyseur morphosyntaxique et syntaxique développé par Assaf Urieli dans le cadre de sa thèse au sein du laboratoire CLLE-ERSS. Marianne Vergez-Couret l'a entraîné pour l'occitan. : http://redac.univ-tlse2.fr/applications/talismane/talismane_en.html
Analyse sémantique
Type d'outil linguistique : Analyse sémantique
Outil à créer : Base de connaissance lexicale
Objectifs
- Développement d'un outil d'analyse syntaxique superficielle/profonde.
- Construction de la première version de base de connaissance lexicale pour l'occitan (15 000 concepts), en utilisant les entrées de la base de données lexicale comme source d'information pour les variantes de l'occitan.
Réalisé
- Préparation d’une base lexicale et d’un bot pour la verser dans Wikidata Lexèmes. Développement d’un serious game pour que la communauté relie les lexèmes à l’item Wikidata correspondant à leur sens : https://github.com/aitalvivem
Traduction automatique
Type d'outil linguistique : Traduction automatique
Outil à créer : Traducteurs automatiques
Objectifs
- Développement, en réutilisant les travaux existants, des outils pour la traduction automatique :
-
- En priorité, sens occitan → français (toutes les variantes)
- Français → occitan (le système permettra à l'utilisateur de choisir une ou plusieurs variantes comme référence(s) pour la traduction ; utiliser le transcripteur de variantes au besoin)
- Besoin des outils basiques pour la paire occitan-anglais.
Réalisé
- Traducteur automatique Revirada occitan<->français du Congrès (occitan gascon et languedocien) : https://revirada.eu/
- Traducteur automatique Apertium : français<->occitan (gascon et languedocien), catalan<->occitan (aranais et languedocien), espagnol <-> occitan (aranais et languedocien).: https://apertium.org
- Traducteur automatique Softcatalà occitan (aranais) <-> catalan : https://www.softcatala.org/traductor/
- Les traducteurs automatiques de la Generalitat de Catalunya et d'Opentrad intègrent le traducteur Apertium pour les paires de langue occitan <-> catalan et occitan <-> espagnol (occitan aranais et languedocien) : https://traductor.gencat.cat/
- Des modèles ou des scripts pour entraîner des traducteurs automatiques basés sur l'intelligence artificielle ont été publiés par Softcatalà et Facebook (Fairseq Flores101).
Type d'outil linguistique : Traduction automatique
Outil à créer : Transcripteur automatique entre variantes
Objectifs
- Développement d'un convertisseur automatique entre variantes, qui travaille non seulement au niveau du lexique mais aussi sur la syntaxe. Il permettra entre autres de réaliser certains outils pour une seule variante, et de pouvoir ensuite les utiliser avec toutes (ex : [traducteur français → occitan languedocien] + [transcripteur languedocien → gascon] = [traducteur français → occitan gascon]).
Réalisé
- Possibilité d’utiliser le traducteur automatique Revirada avec le français comme langue pivot pour passer de l’occitan gascon à l’occitan languedocien, sans trop de perte de qualité.
Logiciels disponibles en occitan
Autres outils - logiciels : Logiciels disponibles en occitan
Outil à créer : OS + Applications principales
Objectifs
- Traduction des logiciels les plus utilisés et des logiciels libres (bureautique, navigateurs, mails, réseaux sociaux...).
Réalisé
- Voir la liste actualisée des logiciels traduits sur le site de La Farga.
Feuille de route
Lors de la configuration d'une feuille de route pour la réalisation des objectifs ci-dessus, nous devons considérer qu'il existe des dépendances entre eux. Ci-dessous, nous décrivons les dépendances plus significatives.
Objectif : Corpus monolingue
Ressources / outils nécessaires : Numérisation, OCR et conversion de texte à un format standard traitable par un analyseur
Objectif : Corpus web
Ressources / outils nécessaires : Détecteur de l'occitan - Détecteur des variantes de l'occitan
Objectif : Corpus parallèle
Ressources / outils nécessaires : Collection de documents bilingues - Mémoires de traduction (TMX)
Objectif : Base lexicale monolingue
Ressources / outils nécessaires : Dictionnaires monolingues au format électronique (MRD)
Objectif : Base lexicale bilingue
Ressources / outils nécessaires : Dictionnaires bilingues au format électronique (MRD)
Objectif : Correcteurs orthographiques
Ressources / outils nécessaires : Base lexicale monolingue
Objectif : Analyseur morphologique (PoS-tagger, lemmatiseur)
Ressources / outils nécessaires : Base lexicale monolingue - Base grammaticale
Objectif : Analyseur syntaxique
Ressources / outils nécessaires : Analyseur morphologique - Base grammaticale/syntaxique
Objectif : Base de connaissance lexicale
Ressources / outils nécessaires : Base lexicale monolingue
Objectif : Traducteurs automatiques oc → fr (toutes les variantes)
Ressources / outils nécessaires : Base lexicale bilingue - Base grammaticale/syntaxique
Objectif : Transcripteur automatique entre variantes
Ressources / outils nécessaires : Base lexicale monolingue - Base grammaticale/syntaxique
Objectifs et interdépendances
Le diagramme ci-dessous reprend les éléments en séparant les objectifs en trois sections (ressources, outils intermédiaires, outils finaux) et en montrant les interdépendances entre les « blocs » : par exemple il est nécessaire pour un traducteur automatique d'avoir un analyseur morphosyntaxique, lui-même ayant besoin en amont d'une base lexicale monolingue et de modèles grammaticaux. Un corpus parallèle peut également aider à le perfectionner. Cette lecture permet une vision structurée des travaux et d'envisager la planification des programmes opérationnels.
Glossaire
Modèles grammaticaux et modèles de langage : grammaire descriptive de l'occitan organisée comme un ensemble de règles pour une utilisation informatique (surtout pour ce qui concerne les analyseurs morphologiques et syntaxique) avec lexiques et corpus annotés.
Base lexicale monolingue : base d'une grande partie des autres ressources et des outils développés, la base lexicale monolingue comprend une liste de mots occitans, avec la catégorie grammaticale (type, genre, nombre, etc.), les formes fléchies (féminin, pluriel, conjugaisons, etc.), la variante et éventuellement des informations concernant l'usage (domaine, registre, etc.). ll y aura également le lien entre deux mêmes mots pour plusieurs variantes.
Base lexicale bilingue : base principale pour la traduction automatique. Elle contient des entrées en occitan ayant les mêmes champs que la base lexicale monolingue, mais également sa (ses) traduction(s) en français (on peut envisager à terme l'équivalent en catalan).
Base de connaissance lexicale : il s'agit d'une base de connaissance liant les mots ou les concepts entre eux, avec des relations de catégorie (une pomme est un fruit), de champ lexical (pain et couteau), de dérivation (passé et passation), etc. WordNet, par exemple, est une base de connaissance lexicale.
Corpus : un corpus est un ensemble de documents rassemblés dans un but précis. Dans le domaine des TAL (Traitement automatique du langage), les corpus textuels sont très utiles pour perfectionner les outils grâce à des statistiques sur les mots et la langue. Par exemple, pour un traducteur automatique, le corpus parallèle français-occitan permettra de savoir que, statistiquement, le nom français « son » est plus souvent traduit par « son » que par « bren ».
Corpus monolingue spécialisé : ce type de corpus rassemble une masse de textes en occitan qui attestent d'un usage référentiel de la langue dans différents domaines (littérature, presse, recherche). Ils sont indispensables à la création des outils et des autres ressources.
Corpus monolingue web : collection de textes en occitan présents sur Internet, sans sélection en terme de qualité linguistique. Il servira surtout aux statistiques afin de perfectionner les outils.
Corpus parallèle : corpus qui rassemble des textes ayant au moins deux versions correspondant à deux langues différentes. Le corpus parallèle occitan sera un corpus occitan-français (sites web institutionnels, mémoires, etc.).
Ressources pour la reconnaissance de la parole : selon la feuille de route, il est impossible de créer un véritable outil de reconnaissance de la parole (création d'écrit à partir d'un document oral) avant 2019. Il faut commencer par identifier et créer les ressources nécessaires à une telle technologie. Elle pourra être utilisée, par exemple, pour faire du sous-titrage automatique.
Détecteur de l'occitan : il s'agit d'un outil permettant de détecter automatiquement si un texte est en occitan.
Détecteur des variantes de l'occitan : il s'agit d'un outil permettant de détecter automatiquement la variante occitane d'un texte.
Analyseur morphologique (lemmatiseur) : un lemmatiseur est un outil d'analyse morphosyntaxique du contenu d'un texte. Il associe chaque mot à sa forme « canonique » (infinitif pour les verbes, masculin singulier pour les adjectifs, etc.), la catégorie grammaticale ou partie d'un discours, le genre, le nombre, le temps et le mode, la personne (ex : je parle → première personne/singulier, indicatif présent du verbe parler). Il contient également des informations sémantiques et référentielles (définitude, quantification, animé/non animé, humain/non humain, etc.).
Analyseur syntaxique (parser) : met en évidence la structure d'une phrase. L'analyse donne la façon dont les mots sont combinés dans un texte. Il permet de connaître les relations de dépendance des syntagmes (groupes de mots ayant une fonction particulière dans la phrase, par exemple le sujet).
Traducteurs automatiques : ils permettront, à partir d'un texte en occitan, d'obtenir automatiquement une traduction en français, et inversement. Grâce au transcripteur de variantes, il sera possible d'obtenir la traduction den français depuis et en n'importe quelle variante.
Transcripteur automatique entre variantes : il fonctionne selon le même principe qu'un traducteur automatique. Il permettra, à partir d'un texte dans une variante de l'occitan, d'obtenir automatiquement une version dans une autre variante.
Correcteur orthographique polyvalent : afin de montrer l'unité de la langue dans le respect de sa diversité, l'idée est d'avoir un seul correcteur orthographique qui propose une correction dans toutes les variantes. L'utilisateur pourra choisir la ou les variante(s) qu'il souhaite pour la correction. Le correcteur sera sur les logiciels les plus utilisés avec une priorité aux formats libres, sans pour autant écarter les commerciaux (LibreOffice, OpenOffice, Microsoft Office, navigateurs, logiciels clients pour courriel, suite Adobe, etc.).
Clavier prédictif et autocorrection : cet outil servira pour les téléphones mobiles, par exemple pour suggérer ou corriger des mots dans les SMS. Il permettra de choisir sa variante et pourra s'installer sur les systèmes d'exploitations les plus courants.
Synthèse vocale : elle consiste à la création de documents oraux à partir de documents écrits. Elle est par exemple utilisée pour lire les noms de rue dans les GPS, pour les logiciels d'assistance aux mal-voyants...
OS et applications principales : l'idée est de proposer pour les ordinateurs un système d'exploitation entièrement en occitan, avec les logiciels les plus courants également traduits (bureautique, navigateurs, clients de courriel, etc.).
La première étape de l'étude consistait à réaliser un diagnostic de l'état du numérique occitan. Ce dernier a servi de base à la définition et à la priorisation des besoins pour le calendrier de réalisation.
Inventaire des ressources et des outils numériques occitans
Voici la liste des ressources recensées lors de l'étude, leurs nombres et le nombre de celles utilisables en informatique.
Ressources linguistiques
- Corpus monolingues de textes
- Recensées : 27
- Utilisables : 2
- Corpus monolingues de la parole
- Recensées : 28
- Utilisables : 0
- Corpus parallèles
- Recensées : 1
- Utilisables : 1
- Corpus multimédias e multimodaux
- Recensées : 24
- Utilisables : 0
- Lexiques
- Recensées : 73
- Utilisables : 8
- Bases terminologiques
- Recensées : 21
- Utilisables : 2
- Tesauri, Wordnets, ontologies
- Recensées : 1
- Utilisables : 1
- Toponymie
- Recensées : 3
- Utilisables : 3
- Grammaires, modèles de langage
- Recensées : 30
- Utilisables : 0
Outils de technologie du langage
- Reconnaissance de l'écriture
- Recensés : 0
- Reconnaissance de la parole
- Recensés : 0
- Synthèse vocale
- Recensés : 0
- Analyse grammaticale
- Recensés : 6
- Analyse sémantique
- Recensés : 0
- Génération de texte
- Recensés : 0
- Traduction automatique
- Recensées : 2
- Recherche et extraction d'information
- Recensés : 0
Autres outils
- Logiciels disponibles en occitan
- Recensés: 6
- Outils numériques pour apprendre l'occitan
- Recensés: 4
* Les ressources linguistiques ont été séparées en deux catégories : celles qui sont utilisables directement pour un usage informatique et celles qui nécessitent un traitement plus ou moins lourd pour pouvoir être utilisées pour créer des outils.
Conclusions
Il existe peu d'outils de technologie de la langue. Les ressources recensées sont plus nombreuses, mais peu réutilisables (corpus oraux non transcrits, dictionnaires souvent anciens ou pas OCRisés, grammaires destinées à une utilisation pédagogique et pas informatique, question de la validité et de la qualité linguistique pour plusieurs documents...). Il faudrait donc créer les ressources linguistiques de base avant de pouvoir développer des outils.
Expériences pour les autres langues
Dans le cadre de l'étude, quatre experts internationaux ont partagé leur expérience :
- Langue basque : Xavier Artola (Ixa, Université du Pays Basque) ;
- Langue bretonne : Olier Ar Mogn (Office public de la langue bretonne) ;
- Langue catalane : Asunción Moreno (TALP, Université Polytechnique de Catalogne) ;
- Langue galloise : Francis M. Tyers (Norgga Árktalaš Universitehta).
Pour la langue occitane, les intervenants en ont tiré quatre lignes directrices :
- Importance de bien planifier et de faire les choses dans l'ordre ;
- Il faut développer aussi bien les ressources que les outils ;
- Intérêt de la coopération pour améliorer l'efficacité ;
- Importance des licences libres pour pouvoir partager les développements.
Diagnostic et feuille de route pour le développement numérique de l'occitan
Le Congrès permanent de la langue occitane est heureux de vous présenter la restitution du projet « Diagnostic et feuille de route pour le développement numérique de la langue occitane 2015-2019 ».
et ce dans plusieurs domaines."
Grâce à différentes initiatives, ces dernières années ont vu apparaître des ressources et des outils numériques fort utiles pour l'occitan et ce dans plusieurs domaines. Nous pouvons mentionner, par exemple, pour le patrimoine, l'information, la documentation, les productions de qualité en ligne du CIRDOC et de l'InOc Aquitaine, tous deux membres du Congrès, pour les contenus encyclopédiques et lexicaux Wikipèdia où l'occitan est de plus en plus présent, des travaux universitaires en cours comme le Thesòc ou BaTeLòc, pour l'audiovisuel la jeune OCtele, etc.
L'étude de la DGLFLF - Ministère de la Culture et de la Communication1 sur la place des langues de France sur Internet parle pour l'occitan « d'une remarquable effervescence associative » qu'il n'est pas aisé de mesurer et suggère avec raison que les nouvelles initiatives se fassent « en collaboration entre les secteurs ».
des outils linguistiques de référence."
Pour sa part, le Congrès s'est consacré dès sa création à offrir aux usagers, sous forme numérique, des outils linguistiques de référence : multidictionnaire, conjugueur, base terminologique, base toponimique, normes et oeuvres normatives.
Nous savons cependant que l'occitan pâtit d'un grand retard dans le domaine du numérique, surtout dans les technologies avancées du langage qui sont désormais importantes pour le statut, l'utilisation et l'avenir d'une langue. Cette absence des technologies avancées du langage pour l'occitan, des études le montrent bien, est un facteur supplémentaire de marginalisation pour notre langue.
C'est pourquoi le Congrès a décidé de proposer une méthode et un cadre opérationnel pour traiter ce domaine de haute technologie et l'a intégré dans son programme.
et les opérateurs de recherche, de transmission et de diffusion de la langue."
Dans l'esprit qui a prévalu à la création du Congrès, il a été décidé de mettre en place un dispositif institutionnel collégial associant à la fois les décideurs publics2 et les opérateurs de recherche, de transmission et de diffusion de la langue3. Par ce partenariat, les organisateurs ont souhaité garantir la meilleure qualité possible aux travaux ainsi que leur plus grande appropriation et diffusion par les différents acteurs.
Ces travaux ont été réalisés dans le cadre d'une recherche-action, c'est-à-dire que les stagiaires ont été acteurs de leur propre formation. Pendant plusieurs mois, ils ont été confrontés à la technicité de ces questions du numérique et des technologies avancées du langage.
Ils ont rencontré des experts internationaux, utilisé des nouvelles méthodes d'investigation, réalisé un diagnostic et des préconisations techniques : cette méthode contribuera, il faut l'espérer, à une prise de conscience collective des enjeux et de leur technicité, et à la création d'une culture commune visant à améliorer notre expertise et les pratiques dans ce domaine.
toutes les contributions complémentaires sont les bienvenues."
Je souhaite également préciser que cette production peut encore être amendée, enrichie et améliorée pour devenir une base d'action commune. Toutes les contributions complémentaires seront les bienvenues, sachant qu'il nous faudra peut-être définir des priorités.
Je remercie l'ADEPFO (Association de Développement des Pyrénées par la Formation) et les membres du Comité de pilotage de nous avoir soutenu dans cette initiative que nous n'aurions pu conduire sans eux.
Je remercie la fondation basque Elhuyar et la société Media.kom qui ont organisé et encadré ces travaux et nous ont fait profiter de leur grande expérience dans ces domaines.
Je remercie également Benaset Dazéas, directeur du Congrès et Aure Séguier, webmaster du Congrès, d'avoir préparé et coordonné cette recherche-action et réussi à la mener à bon terme dans les délais prévus. Je remercie tous ceux qui ont participé au projet.
des propositions de développement pour les années à venir."
Nous nous retrouvons désormais avec une feuille de route contenant des propositions de développement pour les années à venir : derrière une terminologie pouvant parfois faire peur, il est question au final de corpus linguistiques de qualité pour réaliser des dictionnaires, de traducteur automatique, de correcteur orthographique, ou encore de clavier prédictif, de toutes ces applications désormais indispensables dans notre quotidien.
Ce document est une première pour l'occitan, mais ne nous leurrons pas, car tout comme « la fe sens òbras mòrta es », « la fe sens mejans mòrta es ». Nous ne laisserons pas ce rapport dans un tiroir. Gageons qu'il soit la source d'une véritable entreprise collective, avec à la clé une programmation budgétaire à la hauteur des enjeux.
Plusieurs projets sont d'ores et déjà lancés, mais il est indispensable pour son succès de voir s'associer les différents acteurs concernés, de la recherche universitaire aux entreprises, en passant par les institutions qui soutiennent le Congrès. Il est indispensable de trouver des crédits de recherche, des crédits issus des politiques linguistiques de l'État et des collectivités territoriales, de l'Europe et de la coopération transfrontalière.
Nous avons bien là tout un programme.
Gilbert Mercadier
Président du Congrès permanent de la lenga occitana
1 Inventaire des ressources linguistiques des langues de France, réalisé en partenariat avec ELDA, 2014. Etude complète téléchargeable sur le site de la DGLFLF.
2 Ministère de la Culture et de la Communication, DRAC Aquitaine, Régions Aquitaine, Midi-Pyrénées, Languedoc-Roussillon, Département des Pyrénées-Atlantiques, Département des Hautes-Pyrénées, Ville de Toulouse
3 Université Toulouse-Jean Jaurès, Lo Congrès permanent de la lenga occitana, CFPÒc Aquitaine, CFPO Midi-Pyrénées, CIRDOC, Capòc, Editions Reclams, FIMOC, OCtele, Ràdio País, Vistedit, collectifÇa-i
Le numérique occitan s’est développé d’une façon générale ces dernières années : contenus encyclopédiques (Wikipédia), patrimoine (Occitanica), médias (Octele), réseaux sociaux sont autant de secteurs désormais investis. Toutefois la langue occitane pâtit toujours d’un important retard numérique avec pour conséquence, une absence quasi totale dans des outils désormais courants (bureautique, téléphonie mobile, etc.). La prégnance croissante de ces technologies dans la vie quotidienne (travail, déplacements, consommation, éducation, vie sociale) font des technologies du langage un facteur supplémentaire de marginalisation pour une langue déjà minorisée.
des technologies langagières pour l’occitan.
Ce phénomène est décrit et analysé dans une étude réalisée par META-NET, un réseau de recherche rassemblant différentes institutions, universités et centres de recherche et dont la mission principale est la mise en place de fondations technologiques solides pour une Europe multilingue. Son Livre blanc fait un état actuel des ressources et technologies du langage pour trente langues européennes dans six domaines (la traduction automatique, la synthèse et la reconnaissance vocales, la correction orthographique, l’analyse sémantique, l’analyse grammaticale et la génération automatique de texte) et propose également une grille commune de classification et d’évaluation des ressources et outils numériques. Les résultats de l’étude sont particulièrement alarmants : les éditeurs soulignent l’écart croissant entre les « grandes » et les « petites » langues, il est indispensable d’équiper toutes les langues (y compris les plus petites et les moins dotées) des technologies de base nécessaires, sans quoi ces langues sont condamnées à « l’extinction numérique ».
synthèse vocale, reconnaissance vocale, etc.).
Pour ce faire, l’étude préconise la création massive de données, la mutualisation au niveau européen, le transfert technologique entre les langues, l’interopérabilité des ressources, des outils et des services.
Dans ce cadre, le Congrès avec l’ensemble de ses partenaires scientifiques et institutionnels a engagé plusieurs programmes de développement des technologies langagières pour l’occitan : en 2014 est rédigée la Feuille de route de développement numérique l’occitan, un document cadre pluriannuel de planification des travaux, elle sera suivie de plusieurs programmes opérationnels (traducteur automatique, synthèse vocale, reconnaissance vocale, clavier prédictif, corpus, etc.).
La Farga est le portail collaboratif TAL (traitement automatique de la langue) pour l’occitan. Vous accéderez à l’ensemble des ressources existantes grâce à l’inventaire des ressources, pourrez télécharger les outils (API, modules/plug-in), entrer en contact avec la communauté et faire connaître vos projets.