Le CNRS et l'Université Côte d'Azur viennent de signer une convention de partenariat avec le Congrès permanent de la langue occitane.
Concrètement, il s'agit d'un contrat de collaboration de recherche avec le laboratoire Bases, Corpus, Langage (BCL) de l'Université Côte d'Azur, intitulé « Mise en interaction du Thesoc et de la plate-forme numérique locongres.org : communication technique, interopérabilité et partage de données ».
Le Thesoc est une grande base rassemblant des données extraites des atlas linguistiques : données et carnets d’enquête, enregistrements sonores et vidéos, et documents iconographiques. La base contient également des informations dans les domaines de la lemmatisation, de la morphologie, de l’étymologie, etc.
Ce programme d'action a pour but de rendre plus interopérables les interfaces du Thesoc et de dicod'Òc, au moyen de renvois mutuels de liens vers les ressources les plus pertinentes et en employant las API développées soit par le Congrès soit par les chercheurs du Thesoc.
Pendant cinq ans, les équipes du Congrès et du Thesoc vont donc collaborer en intégrant les liaisons Thesoc > dicod'Òc et dicod'Òc > Thesoc à leurs plates-formes respectives mais aussi améliorer la lemmatisation du Thesoc, harmoniser les lemmes du dictionnaire d'Alibert et rajouter les lemmes présents dans le dictionnaire de Simin Palay, entre autres actions.
Un chantier important pour améliorer la numérisation et la documentation de la lexicographie occitane.