Lettre de liaison :

Sélectionnez votre langue

Plateforme linguistique

Plateforme lexicale, textuelle et toponymique
"Une infrastructure numérique d'excellence pour la langue occitane"

Le Congrès permanent de la langue occitane est porteur d’un programme d’action dans le cadre du CPER 2021-2027 pour les régions Nouvelle-Aquitaine et Occitanie : il s’agit d’un projet d’infrastructure numérique dédiée à la langue occitane, permettant de créer, structurer et relier différentes ressources lexicographiques, textuelles et toponymiques autour d’une interface de consultation publique, d’un niveau d’excellence comparable à celui du Centre national des ressources textuelles et lexicales pour la langue française (https://www.cnrtl.fr). Le programme prévoit différents travaux, dont la rédaction du dictionnaire général informatisé de la langue occitane, la restauration de la toponymie occitane (en partenariat avec l’IGN) sur les deux régions et le traitement massif des données au standard TAL (traitement automatique des langues).

Le programme a pour objectif de produire des outils numériques, d'utilisation gratuite et libre via ordinateurs et appareils connectés mobiles, visant à diffuser la transmission et l'usage d'une langue occitane de qualité.

Acquérir des ressources linguistiques permettant la diffusion et l’étude d'une langue de qualité

"Un chantier historique"
  • la réalisation d'un dictionnaire général informatisé de la langue occitane. Comme pour ses langues voisines catalane et basque, l’occitan sera ainsi doté d’un dictionnaire descriptif complet, embrassant toutes les variétés de l’occitan, avec description phonologique, exemples, dictons,  proverbes, citations littéraires. Il s’agit d’un travail de plusieurs années, nécessitant une équipe fournie dans le domaine de la lexicographie, qui aura une édition numérique qui permettra sa plus large diffusion grâce aux standards d’interopérabilité. Une édition papier en plusieurs volumes pourra être ultérieurement envisagée. Cette oeuvre académique de prestige est indispensable à la connaissance et à la diffusion de la langue. Depuis le Trésor du Félibrige de Frédéric Mistral, aucune oeuvre lexicographique panoccitane de ce niveau scientifique et de cette envergure n’a été produite à ce jour.
Extrait du Tresor dóu Felibritge de Frederic Mistral, dictionnaire descriptif de la langue d’oc, édité en 1886.
  • l'augmentation de la base du multidictionnaire « dicod'Òc » notamment par les dictionnaires suivants : le Vayssier, le Mouly et l'Alibert et leur formatage, en TEI afin de permettre (ultérieurement), le développement de nombreuses applications linguistiques (dictionnaire des expressions, ...)
  • Augmentation des bases textuelles occitanes annotées (données morphosyntaxiques) et couvrant la diversité de la langue (en variété et en genre littéraire) avec interface de consultation. En fonction des partenariats établis, cette opération sera éventuellement totalement ou partiellement fusionnée avec le programme BaTelÒc et ParcoLaf du laboratoire CLLE-ERSS (CNRS/Université Toulouse 2). 

Objectifs : 10-25 millions de mots pour le corpus monolingue, 2-5 millions pour le corpus bilingue.

BaTeLÒc, base textuelle occitane.
BaTeLÒc, base textuelle occitane.

Restaurer, décrire et diffuser la toponymie occitane en Régions Nouvelle-Aquitaine et Occitanie (en partenariat avec l’IGN) :

Une convention a été signée entre le Congrès permanent de la langue occitane et l’IGN (Institut Géographique National). Le Congrès est désormais le référent de l’IGN pour l’occitan sur l’harmonisation des formes graphiques sur les 32 départements occitanophones. Après le Pays Basque, et la Catalogne, l'Occitanie bénéficiera ainsi d’une mise en valeur, tant au niveau national que local à travers ce projet d’envergure. Pour des contraintes de temps et d’espace, les travaux engagés n’auront pas le niveau de précision de ses prédécesseurs basque et catalan.

"Un programme ambitieux de restauration de la toponymie occitane"
Hôtel de Région à Toulouse le 28 novembre 2019, signature de la Convention entre Philippe Abbadie (IGN) et Gilbert Mercadier (Congrès permanent de la langue occitane) en présence de Mme Carole Delga, Présidente de la Région Occitanie.
Hôtel de Région à Toulouse le 28 novembre 2019, signature de la Convention entre Philippe Abbadie (IGN) et Gilbert Mercadier (Congrès permanent de la langue occitane) en présence de Mme Carole Delga, Présidente de la Région Occitanie.
  • Enquêtes de terrain : collectage oral auprès de locuteurs de langue maternelle occitane et un enquête écrite qui consiste à relever un minimum de formes anciennes dans les cartes (IGN, cadastre, canton, etc.) et dans les sources anciennes (livres terriers, bulletins paroissiaux, etc.).
  • création d’un modèle de fiche d’identification nécessaire à la description précise (coordonnées géographiques, typologie, date et lieu du collectage, sources relevées, formes historiques, etc.) de chaque toponyme occitan.
  • Constitution d’une base de données toponymiques avec une API (Application programming interface) permettant une exploitation via une recherche multicritère, accès via cartographie, etc.
Openstreetmap est devenu un standard cartographique. Ici la version occitane dont les noms de commune augmente régulièrement.
Openstreetmap est devenu un standard cartographique. Ici la version occitane dont les noms de commune augmente régulièrement.

Créer une plateforme numérique universelle et multivariétés 

Elle sera dédiée aux données lexicographiques, textuelles et toponymiques occitanes, équivalent occitan du portail lexical français du Centre national de ressources textuelles (www.cnrtl.fr). Développé en lien avec La Farga, future plateforme collaborative d’accès, de valorisation, de développement et d’échange des ressources TAL (traitement automatique de langue) et informatique en occitan, le portail sera évolutif et développé selon les derniers standards en termes de formatage, d’accès et d’interopérabilité :

"Une interface moderne impulsée par des technologies de pointe"
Prototype de la plateforme linguistique occitane : un accès unique à toutes les ressources : dictionnaires, lexiques spécialisés, conjugaisons, corpus textuels, toponymie, etc. (ici avec l’exemple du mot “marcha”).
Prototype de la plateforme linguistique occitane : un accès unique à toutes les ressources : dictionnaires, lexiques spécialisés, conjugaisons, corpus textuels, toponymie, etc. (ici avec l’exemple du mot “marcha”).
  • Barre de recherche unique, en occitan ou en français, permettant une consultation des ressources locongres.org et CLLE-ERSS : flexions, synonymie, illustration sonore, traduction, définition, conjugaisons, citations en contexte, rimes, contexte dans les dictionnaires historiques (grâce à un adaptateur de graphie), toponymes (description et cartographie).
  • Ensemble des données formatées en TEI, permettant l’interopérabilité des ressources et une ergonomie optimale avec accès instantané (chaque mot sera “cliquable”). Des API permettront un accès à distance de ces données pour d’autres plateformes ou applications.
  • Interrogations de données externes via les API : IGN (cartographie), Wikipédia (encyclopédie), Occitanica (documentation), etc.
  • Interface multiplateformes « responsive », avec un soin particulier pour un accès via les terminaux mobiles.

Une première édition publique de la plateforme, avec les variétés languedocienne et gasconne, est envisagée courant 2024, la version complète sera éditée en fin de programme.

En savoir plus

LINGUATEC-IA

 

Voir cette page

Transcripteur

 

Voir cette page

Plateforme linguistique

 

Voir cette page