Eurorégion Aquitaine-Euskadi, constitution d'un corpus de textes occitans

Còrpus occitan

Elhuyar est une fondation basée en Euskadi (Espagne) spécialisée dans le traitement numérique des ressources linguistiques. Avec près de 80 collaborateurs, elle est une référence en terme d’outils spécialisés (traduction automatique, développement d’applications multiplateformes). Elle travaille avec de nombreux opérateurs publics ou privés (médias, universités, administrations, etc.). Lo Congrès et Elhuyar ont initié en 2012 une collaboration pour laquelle a été déposé un dossier dans le cadre de l'appel à projet de l’ l'Eurorégion Aquitaine-Euskadi, dossier qui a pour objectif la création d’un dictionnaire basque-occitan et la constitution d'un corpus de textes occitans.

En plus de l’intérêt de faire communiquer les deux langues directement entre elles, sans passer par l’espagnol ou le français, ce projet permettra au Congrès de bénéficier de l’expérience et de la technicité de haut niveau d’Elhuyar, entre autres pour la réalisation des corpus de textes occitans. Il y a un grand retard de la lexicographie occitane dans ce domaine et il est impératif de le combler pour développer des outils de traduction automatique par exemple.

La collaboration entre le Congrès et Elhuyar s’étendra sur 3 ans. Ce projet propose la création de ce dictionnaire basque-occitan en utilisant des méthodes automatiques de technologies de la langue, avec une révision manuelle. Plus exactement, la méthode proposée est celle de la création de dictionnaires par "pivotage", c´est-à-dire, créer le dictionnaire basque-occitan en utilisant un dictionnaire basque-français et un dictionnaire français-occitan. Mais cette méthode-là nécessite d'autres ressources (les autres dictionnaires proprement dits, des corpus dans les deux langues pour l'élimination de la surproduction de mots, des outils de traitement automatique de la langue...) qui doivent être créés, surtout pour la partie occitane.

Elhuyar prend en charge la partie basque du projet (dictionnaire basque-français et corpus de texte) ainsi que la numérisation du corpus occitan. Lo Congrès sélectionne et fournit les corpus occitans à numériser et le dictionnaire français-occitan.

Les corpus occitans sont réalisés grâce à un partenariat avec la société Vistedit (archives du journal La Setmana), l'escòla Gaston Fèbus (archives de la revue Reclams) et le site d'information en ligne jornalet.com.

Elhuyar : www.elhuyar.org
Eurorégion Aquitaine-Euskadi : www.aquitaine-euskadi.eu
La Setmana : http://lasetmana.fr
Reclams : www.reclams.org
Lo Jornalet : www.jornalet.com