Lettre de liaison :

Le Congrès permanent de la langue occitane

Lo Congrès est l'organisme interrégional de régulation de la langue occitane. Il rassemble les institutions et les fédérations historiques occitanes et est soutenu par les collectivités et le Ministère de la Culture et de la Communication - DGLFLF.
  • dicod'Òc dicod'Òc
  • tèrm'Òc tèrm'Òc
  • vèrb'Òc vèrb'Òc
  • top'Òc top'Òc
  • express'Òc express'Òc
  • punt de lenga punt de lenga
FR→OC
OC→FR
OC→OC
Historique

Expressions

« Chanter à tue-tête »

Cantar a plec de gargalhòl

Cantar a plec de gargalhòl

punt de lenga

Les comparatifs

Ostau

Quels sont les comparatifs en occitan ?

« Lo son ostau qu’es mei beròi que lo ton »

Actualités

  • All
  • Institution
  • Politiques
  • Publications
  • Recherche
  • Ressources
  • Tout
  • Événements
  • Défaut
  • Titre
  • Date
  • Aléatoire
load more / hold SHIFT key to load all load all

Mise en lumière

Lo Basic en ligne !

Lo Basic, lexique élémentaire français-occitan du Congrès.

API du Congrès

Développez vos applications avec les données du Congrès.

Plateforme ReVOc

Donnez votre voix pour construire la reconnaissance vocale en occitan.

Base textuelle

Consultez la base textuelle occitane BaTelÒc.

Pour les mobiles

Téléchargez dicod'Òc et verb'Òc sur votre mobile.

Laboratòri

Outil de consultation avancée des lexiques du Congrès.

La première étape de l'étude consistait à réaliser un diagnostic de l'état du numérique occitan. Ce dernier a servi de base à la définition et à la priorisation des besoins pour le calendrier de réalisation.

Inventaire des ressources et des outils numériques occitans

Pour avoir une vision la plus large possible, un inventaire de tous les outils et ressources numériques connus a été dressé.

 

Synthèse de l'inventaire

Ressources linguistiques
Recensées
Utilisables en informatique*
 
Corpus monolingues de textes
27
2
 
Corpus monolingues de parole
28
0
 
Corpus parallèles
1
1
 
Corpus multimédias e multimodaux
24
0
 
Lexiques
73
8
 
Bases terminologiques
21
2
 
Tesauri, Wordnets, ontologies
1
1
 
Toponymie
3
3
 
Grammaires, modèles de langage
30
0
 
Outils de technologie du langage
Recensés
 
 
Reconnaissance de l'écriture
0
 
 
Reconnaissance de la parole
0
 
 
Synthèse vocale
0
 
 
Analyse grammaticale
6
 
 
Analyse sémantique
0
 
 
Génération de texte
0
 
 
Traduction automatique
2
 
 
Recherche et extraction d'information
0
 
 
Autres outils
Recensés
 
 
Logiciels disponibles en occitan
6
 
 
Outils numériques pour apprendre l'occitan
4
 
 


* Les ressources linguistiques ont été séparées en deux catégories : celles qui sont utilisables directement pour un usage informatique et celles qui nécessitent un traitement plus ou moins lourd pour pouvoir être utilisées pour créer des outils.

Conclusions

Il existe peu d'outils de technologie de la langue. Les ressources recensées sont plus nombreuses, mais peu réutilisables (corpus oraux non transcrits, dictionnaires souvent anciens ou pas OCRisés, grammaires destinées à une utilisation pédagogique et pas informatique, question de la validité et de la qualité linguistique pour plusieurs documents...). Il faudrait donc créer les ressources linguistiques de base avant de pouvoir développer des outils.

Expériences pour les autres langues

Dans le cadre de l'étude, quatre experts internationaux ont partagé leur expérience :

  • Langue basque : Xavier Artola (Ixa, Université du Pays Basque) ;
  • Langue bretonne : Olier Ar Mogn (Office public de la langue bretonne) ;
  • Langue catalane : Asunción Moreno (TALP, Université Polytechnique de Catalogne) ;
  • Langue galloise : Francis M. Tyers (Norgga Árktalaš Universitehta).

Pour la langue occitane, les intervenants en ont tiré quatre lignes directrices :

  • Importance de bien planifier et de faire les choses dans l'ordre ;
  • Il faut développer aussi bien les ressources que les outils ;
  • Intérêt de la coopération pour améliorer l'efficacité ;
  • Importance des licences libres pour pouvoir partager les développements.

La feuille de route pour le développement numérique de l'occitan utilise la méthode de l'étude de MetaNet, un réseau européen d'excellence dédié à la promotion des fondations technologiques d'une société multilingue de l'information en Europe. Réalisée par plus de 200 experts internationaux, cette étude fait l'état actuel des ressources et technologies du langage pour 30 langues européennes dans 6 domaines : la traduction automatique, la synthèse et la reconnaissance vocales, la correction orthographique, l'analyse sémantique, l'analyse grammaticale et la génération automatique de texte.

Elle propose également une grille commune de classification et d'évaluation des ressources et outils numériques. Le diagnostic de soutien technologique de la langue occitane nous a permis de recueillir des données objectives concernant la situation numérique de l'occitan (inventaire), et, après échanges avec des experts internationaux (langues basque, bretonne, catalane et galloise), d'identifier les besoins. Pour ces dernières, la feuille de route ci-dessous propose une projection de développement 2015-2019.

Tableau 1 : Tableau synthétique réalisé à partir du Diagnostic et feuille de route pour le développement numérique de la langue occitane : 2015-2019, Media.kom/Elhuyar, 2014.

 
2015
2016
2017
2018
2019
 
Ressources linguistiques
 
 
 
 
 
 
Corpus monolingue spécialisé
 
 
V1
 
V2
 
Corpus web monolingue
 
 
X
 
 
 
Corpus parallèle
 
 
 
X
 
 
Base lexicale monolingue
V1
 
V2
 
 
 
Base lexicale bilingue
 
 
X
 
 
 
Modèles grammaticaux et modèles de langage
 
X
 
 
 
 
Base de connaissance lexicale
 
 
 
X
 
 
Ressources pour la reconnaissance de la parole
 
 
 
 
X
 
Outils intermédiaires
 
 
 
 
 
 
Détecteur de l'occitan
X
 
 
 
 
 
Détecteur des variantes
 
X
 
 
 
 
Analyseur morphologique
 
X
 
 
 
 
Analyseur syntaxique
 
 
 
 
X
 
Transcripteur entre variantes
 
 
X
 
 
 
Outils finaux
 
 
 
 
 
 
Correcteur orthographique polyvalent
 
X
 
 
 
 
Clavier prédictif et autocorrection
 
 
X
 
 
 
Traducteur automatique oc->fr
 
 
X
 
 
 
Traducteur automatique fr->oc
 
 
 
 
X
 
Synthèse vocale
 
 
 
 
X
 
OS e applications principales
 
 
X
 
 
 

 

Le diagramme ci-dessous reprend les éléments en séparant les objectifs en trois sections (ressources, outils intermédiaires, outils finaux) et en montrant les interdépendances entre les « blocs » : par exemple il est nécessaire pour un traducteur automatique d'avoir un analyseur morphosyntaxique, lui-même ayant besoin en amont d'une base lexicale monolingue et de modèles gramaticaux. Un corpus parallèle peut également aider à le perfectionner. Cette lecture permet une vision structurée des travaux et d'envisager la planification des programmes opérationnels.

Tablèu 2 : Document de synthèse réalisé à partir du Diagnostic et feuille de route pour le développement numérique de la langue occitane : 2015-2019, Media.kom/Elhuyar, 2014.

Ressources, outils et dépendances

Glossaire :

Modèles grammaticaux et modèles de langage : grammaire descriptive de l'occitan organisée comme un ensemble de règles pour une utilisation informatique (surtout pour ce qui concerne les analyseurs morphologiques et syntaxique) avec lexiques et corpus annotés.

Base lexicale monolingue : base d'une grande partie des autres ressources et des outils développés, la base lexicale monolingue comprend une liste de mots occitans, avec la catégorie gramaticale (type, genre, nombre, etc.), les formes fléchies (féminin, pluriel, conjugaisons, etc.), la variante et éventuellement des informations concernant l'usage (domaine, registre, etc.). ll y aura également le lien entre deux mêmes mots pour plusieurs variantes.

Base lexicale bilingue : base principale pour la traduction atutomatique. Elle contient des entrées en occitan ayant les mêmes champs que la base lexicale monolingue, mais également sa (ses) traduction(s) en français (on peut envisager à terme l'équivalent en catalan).

Base de connaissance lexicale : il s'agit d'une base de connaissance liant les mots ou les concepts entre eux, avec des relations de catégorie (une pomme est un fruit), de champ lexical (pain et couteau), de dérivation (passé et passation), etc. WordNet, par exemple, est une base de connaissance lexicale.

Corpus : un corpus est un ensemble de documents rassemblés dans un but précis. Dans le domaine des TAL (Traitement automatique du langage), les corpus textuels sont très utiles pour perfectionner les outils grâce à des statistiques sur les mots et la langue. Par exemple, pour un traducteur automatique, le corpus parallèle français-occitan permettra de savoir que, statistiquement, le nom français « son » est plus souvent traduit par « son » que par « bren ».

Corpus monolingue spécialisé : ce type de corpus rassemble une masse de textes en occitan qui attestent d'un usage référentiel de la langue dans différents domaines (littérature, presse, recherche). Ils sont indispensables à la création des outils et des autres ressources.

Corpus monolingue web : collection de textes en occitan présents sur Internet, sans sélection en terme de qualité linguistique. Il sevira surtout aux statitsiques afin de perfectionner les outils.

Corpus parallèle : corpus qui rassemble des textes ayant au moins deux versions correspondant à deux langues différentes. Le corpus parallèle occitan sera un corpus occitan-français (sites web institutionnels, mémoires, etc.).

Ressources pour la reconnaissance de la parole : selon la feuille de route, il est impossible de créer un véritable outil de reconnaissance de la parole (création d'écrit à partir d'un document oral) avant 2019. Il faut commencer par identifier et créer les ressources nécessaires à une telle technologie. Elle pourra être utilisée, par exemple, pour faire du sous-titrage automatique.

Détecteur de l'occitan : il s'agit d'un outil permettant de détecter automatiquement si un texte est en occitan.

Détecteur des variantes de l'occitan : il s'agit d'un outil permettant de détecter automatiquement la variante occitane d'un texte.

Analyseur morphologique (lemmatiseur) : un lemmatiseur est un outil d'analyse morphosyntaxique du contenu d'un texte. Il associe chaque mot à sa forme « canonique » (infinitif pour les verbes, masculin singulier pour les adjectifs, etc.), la catégorie gramaticale ou partie d'un discours, le genre, le nombre, le temps et le mode, la personne (ex : je parle → première personne/singulier, indicatif présent du verbe parler). Il contient également des informations sémantiques et référentielles (définitude, quantification, animé/non animé, humain/non humain, etc.).

Analyseur syntaxique (parser) : met en évidence la structure d'une phrase. L'analyse donne la façon dont les mots sont combinés dans un texte. Il permet de connaître les relations de dépendance des syntagmes (groupes de mots ayant une fonction particulière dans la phrase, par exemple le sujet).

Traducteurs automatiques : ils permettront, à partir d'un texte en occitan, d'obtenir automatiquement une traduction en français, et inversement. Grâce au transcripteur de variantes, il sera possible d'obtenir la traduction en français en n'importe quelle variante.

Transcripteur automatique entre variantes : il fonctionne selon le même principe qu'un traducteur automatique. Il permettra, à partir d'un texte dans une variante de l'occitan, d'obtenir automatiquement une version dans une autre variante.

Correcteur orthographique polyvalent : afin de montrer l'unité de la langue dans le respect de sa diversité, l'idée est d'avoir un seul correcteur orthographique qui propose une correction dans toutes les variantes. L'utilisateur pourra choisir la ou les variante(s) qu'il souhaite pour la correction. Le correcteur sera sur les logiciels les plus utilisés avec une priorité aux formats libres, sans pour autant écarter les commerciaux (LibreOffice, OpenOffice, Microsoft Office, navigateurs, logiciels clients pour courriel, suite Adobe, etc.).

Clavier prédictif et autocorrection : cet outil servira pour les téléphones mobiles, par exemple pour suggérer ou corriger des mots dans les SMS. Il permettra de choisir sa variante et pourra s'installer sur les système d'exploitations les plus courants.

Synthèse vocale : elle consiste à la créacion de documents oraux à partir de documents écrits. Elle est par exemple utilisée pour lire les noms de rue dans les GPS, pour les logiciels d'assistance aux mal-voyants...

OS et applications principales : l'idée est de proposer pour les ordinateurs un système d'exploitation entièrement en occitan, avec les logiciels les plus courants également traduits (bureautique, navigateurs, clients de courriel, etc.).

  • ALIBERT Louis. Dictionnaire occitan-français sur la base des parlers languedociens, Toulouse : I.E.O. , 1966, 700 p.
  • ALLIERES Jacques. Atlas linguistique de la Gascogne : le verbe. Vol 5. CNRS. 1971.
  • AVRIL Joseph-Toussaint. 1980-1982, Dictionnaire provençal-français : suivi d'un vocabulaire français-provençal, Raphèle-les-Arles : Culture Provençale et Méridionale, 1980-1982, 481 p.
  • BOISGONTIER Jacques. Atlas linguistique et ethnographique du Languedoc oriental (ALLOR). Paris: CNRS, III . 1981-1986.
  • BONNAUD Pierre. Nouveau Dictionnaire général français-auvergnat, Saint-Etienne : Créer, 1999, 776 p.
  • COLLECTIU, Thesoc, base de données linguistique, Université Nice-Sofia Antipolis, site internet, http://thesaurus.unice.fr/
  • COMITE D’ETUDES GASCON DE LANGUE OCCITANE DES HAUTES-PYRENEES. Atau que’s ditz, Dictionnaire français-occitan (Gascon des Hautes-Pyrénées). Tarbes : Conseil Général des Hautes-Pyrénées, 1998, 152 p.
  • COROMINES Joan. Diccionari etimològic i complementari de la llengua catalana, Barcelona : Curial Edicions Catalanes , Caixa de Pensions "La Caixa", 1980-2001, 10 vol. (xlvii-850, 1120, 1054, 962, 996, 977, 1007, 1000, 623, 966 p.).
  • COUPIER Jules. Dictionnaire français-provençal, Gignac-la-Nerthe : Edisud, 1995, 1511 p.
  • DHÉRALDE Léon. Dictionnaire de la langue limousine: Diciounàri de lo lingo limousino : Limoges, Société d’Ethnographie du Limousin, de la Marche et des régions voisines, 1968, vol. 1, 214 p.
  • DUFAUD Joannès. 1998, Dictionnaire français - nord-occitan, Nord du Vivaray et du Velay, Saint-Julien-Molin-Molette : Jean-Pierre Huguet Editeur, 1998, 330 p.
  • FAURE Andrieu. Diccionari d’Alpin d’oc, Gap : (document pdf) 2009, 488 p.
  • FETTUCIARI Jòrgi, MARTIN Guiu, PIETRI Jaume. Dictionnaire Provençal/Français, Aix-en-Provence : CREO Provence ,2003, 571 p.
  • GARCIN Etienne. Le nouveau dictionnaire provençal-français, Marseille : Roche, 1823, 385 p.
  • GILLIERON Jules et EDMONT Edmond. Atlas linguistique de la France (ALF) [Paris : Champion, 1902-1910]. Bologna. Rééd.1968.
  • GILLIERON Jules et EDMONT Edmond, Atlas linguistique de la France : suppléments. Paris : Champion, 1920, 1308 p.
  • GONFROY Gérard. Dictionnaire normatif limousin-français, Tulle : éd. Lemouzi, 1976 [imp], 226 p.
  • HONNORAT Simon-Jude. Vocabulaire français-provençal, Raphèle-lès-Arles : Culture provençale et méridionale, 1988, 301 p.
  • GROSCLAUDE Michel, GUILHEMJOAN Patric, NARIOO Gilbert. 2004, Dictionnaire français - occitan (gascon), Orthez : Per Noste, 2004, 1133 p.
  • LAUX Christian. Dictionnaire français - occitan, languedocien central, Puylaurens : IEO, 2004, 557 p.
  • LAVALADE Yves. Dictionnaire français - occitan, Limousin - Marche - Périgord, 1ère édition (1999), Dourgne : Lucien Souny, 2001, 571 p.
  • LÈBRE Elie, MARTIN Guy, MOULIN Bernard. Dictionnaire de base français - provençal, Gap : CREO , Provença, 1992, 431 p.
  • LESPY Vastin et RAYMOND Paul. Dictionnaire béarnais ancien et moderne, 2 tomes en un vol. Genève : Satkine Reprints, 2 tomes en 1 vol., 1970, 840 p.
  • LÉVY Emil. Petit Dictionnaire provençal-français, Raphèle-Lès-Arles: Culture Provençale et Méridionale, 1991, 387 p.
  • MISTRAL Frédéric. Lou Tresor dóu Felibrige, Culture provençale et méridionale, 2 vol. Ediition originale 1877. 1979, 1196-1165 p.
  • MOUTIER Louis, Dictionnaire des dialectes dauphinois, I.E.O.-Drôme et ELLUG, 2007, 897 p.
  • OMELHIÈR Cristian. Petit Dictionnaire français-occitan d’Auvergne selon les parlers d’Auvergne méridionale (pays de Massiac et Cézallier), Aurillac : Ostal del Libre, 2004, 326 p. , coll. Parlem
  • OMELHIÈR Cristian. Petiòt Diccionari occitan d’Auvernhe francés: Auvernhe meijornal, Aurillac : Ostal del Libre, 2008, 543 p. Colll. Parlem
  • PALAY Simin. Dictionnaire du béarnais et du gascon modernes, [édition originale 1932, 2ème édition 1963].Paris : CNRS Éditions, Escole Gastou Febus, 1991, 1053 p.
  • RAPIN Cristian. Diccionari francés-occitan: segon lo lengadocian, 5 volumes. Bouloc,: I.E.O. e Escòla Occitana d’Estiu, 1991, pagination multiple
  • RAVIER Xavier. Atlas linguistique et ethnographique du Languedoc occidental (ALLOc). 4 vol. Paris : CNRS, 1978-1993.
  • RAYNOUARD François-Just-Marie. Lexique roman ou Dictionnaire de la langue des troubadours comparée avec les autres langues de l'Europe latine. 6 vol. Paris : Silvestre, 1826-1844.
  • RÈI-BÈTHVÉDER Nicolau. 2003, Dictionnaire de la Gascogne toulousaine, Puylaurens : IEO, 2003, 309 p.
  • REICHEL Karl-Heinz. Grand Dictionnaire Général Auvergnat-Français, Nonette : Créer, 2005, 878 p.
  • SUMIEN Domergue. La standardisation pluricentrique de l’occitan : nouvel enjeu sociolinguistique, développement du lexique et de la morphologie. Thèse. Linguistique occitane. Association internationale d’etudes occitane, Brepols, 2006, 501 p.
  • UBAUD Josiane. Dictionnaire orthographique, grammatical et morphologique de l’occitan : selon les parlers languedociens, Canet : Trabucaire, 2011, 1161 p.
  • VERGÉS BARTAU Frederic. Petit diccionari : castelhan-aranés (occitan), catalan-francés, aranés (occitan)-castelhan, catalan-francés, Vielha : Conselh Comarcau dera Val d’Aran, 1991, 340 p.

Voir aussi :

Direction scientifique : M. Romiu, vice-président du Conseil linguistique

Équipe scientifique : M. Romieu, vice-président du Conseil linguistique, P. Pojada, membre du Conseil linguistique

Coordination, référent pédagogique : G. Mercadier, président du Congrès permanent de la lenga occitana, V. Riviere, membre du Conseil linguistique

Lexicographie : V. Rivière, Fl. Marcouyre, C. Chapduelh, membre du Conseil linguistique, A. Escudé , D. Fabié, E. Fraj, membre du Conseil linguistique, S. Pugin, C. Valmary, P. Sebat, G. Mercadier.

Relecture, corrections : V. Rivière, C. Chapduèlh, M. Romieu

Développement e traitement des données : D. Château-Anaud

Harmonizacion des données : Aure Séguier

Avec le soutien de :
Euroregion Aquitània-Euskadi Université Toulouse Jean Jaurès

Voir aussi :

Office public de la langue occitane Ministèri de la Cultura - DGLFLF Région Auvergne-Rhône-Alpes Departament deus Pirenèus-Atlantics Comuna de Tolosa Departament de las Hautas-Pirenèas Département du Tarn Département de la Dordogne POCTEFA Département du Gers Communauté Pays Basque Communauté d'agglomération Pau Pyrénées