La DGLFLF, le LIMSI-CNRS et ELDA ont organisé les 19 et 20 février derniers à Meudon un colloque sur le thème du développement des technologies pour les langues régionales de France.
Les organisateurs sont partis du constat que les avancées en traitement automatique des langues ne concernent qu’1% des langues parlées dans le monde, dont peu de langues régionales, en particulier de France.
Cependant, quelques exemples (langues basque et catalane en Espagne entre autres) montrent que, à condition de rassembler volonté politique, savoir scientifique et savoir-faire technique, le développement rapide de technologies à l’état-de-l'art en traitement des langues est possible pour les langues régionales, en les dotant des ressources et des outils nécessaires.
Cela permet de dynamiser des recherches plus fondamentales sur les langues et de s’attaquer au défi de la mise en place d’un multilinguisme véritable tenant compte des variétés dialectales, tout en permettant le développement d'applications à forte valeur ajoutée pour les collectivités locales.
Ce colloque, qui a réuni environ une soixantaine de participants, dont des représentants de la DGLFLF, des collectivités territoriales, d’offices des langues régionales, des experts scientifiques et des membres d’associations de défense des langues régionales, en France et en Europe, avait trois objectifs :
- faire un constat sur le développement des technologies actuelles ;
- montrer des exemples de développement pour certaines langues ;
- proposer des solutions réalistes pouvant pallier les manques mis à jour.
Parmi les intervenants, Gilbert Mercadier (Président du Congrès) et Aure Séguier (webmaster du Congrès) ont présenté la feuille de route 2015-2019 de développement numérique de l’occitan.
Marianne Vergez-Couret, du laboratoire CLLE-ERSS (Université Toulouse-Jean Jaurès) a exposé ses travaux d’étiquetage morpho-syntaxique de corpus en langue occitane (réalisés dans le cadre du programme ANR Restaure).
Pierre-Aurélien Georges (Thesòc, Université de Nice) a présenté des développements sur le traitement des ressources syntaxiques.
Enfin, ELDA a présenté son inventaire des ressources numériques pour les langues de France réalisé en partenariat avec la DGLFLF ; ce rapport comprend également une étude de la faisabilité de développement d’outils (traduction automatique, synthèse et reconnaissance vocale, correction orthographique), y compris pour l’occitan.
Le colloque s’est conclu par des tables rondes desquelles a émergé un consensus sur la nécessité d’approche globale pour toutes les langues, d’échanges (information, mutualisation, transfert de technologies), ainsi que d’étroite collaboration entre les différents acteurs (DGLFLF, collectivités, offices, communauté scientifique, opérateurs) dans un cadre restant à définir. D’autres colloques sont prévus afin d’avancer sur un plan de développement de l’outillage numérique pour les langues de France.
Pour en savoir plus : http://tlrf2015.sciencesconf.org
Toutes les interventions du colloque ont été filmées. Vous pouvez les retrouver à l'adresse http://webcast.in2p3.fr/events-tlrf.