De BaTelÒc au TalÒc - Ressources et outils pour le traitement de langues dites « peu dotées »

CLLE-ERSS

Le jeudi 25 février, le laboratoire CLLE-ERSS de l'Université Jean Jaurès de Toulouse organisait un séminaire sur les technologies du langage et l'occitan.

Marianne Vergez-Couret a fait le bilan des trois années pendant lesquelles elle a travaillé sur le développement de ressources et d'outils pour l'occitan. Elle a d'abord parlé de BaTelÒc, une base de textes d'environ trois millions de mots (84 œuvres pour une quarantaine d'auteurs) où sont représentés différents genres littéraires (contes, poésie, roman, etc.) ainsi que plusieurs variétés de langue et de graphie. Ce projet, dirigé par Myriam Bras, possèdera à terme une interface en ligne permettant des recherches contextuelles multicritères.

Afin de constituer cette base indispensable, les travaux ont été orientés vers le développement d'un OCR (applicacion de reconnaissance automatique de textes numérisés) pour augmenter le corpus ainsi que vers un procédé d'annotations morphosyntaxiques du corpus pour permettre de nouveaux modes de consultation des contextes d'emplois (recherche des formes fléchies à partir d'un lemme). À noter également que ces travaux ont été réalisés dans le cadre de RESTAURE, un projet ANR 2015-2019 qui a pour objectif la création de ressources pour l'occitan, l'alsacien et le picard.

Pour terminer, Marianne Vergez-Couret a présenté Loflòc (Lexique ouvert des formes fléchies de l'occitan), le projet de base lexicale des formes fléchies occitanes développée en partenariat avec Lo Congrès.