Après l'occitan gascon et l'occitan languedocien, ce sont sont les variétés limousine et provençale qui ont leur lexique de formes fléchies. Ces lexiques, qui regroupent toutes les formes conjuguées des verbes et « déclinées » (féminin, pluriel) des autres mots sont à la base de tous les développements dans le domaine du TAL.
Ils sont utiles pour tous les outils du traitement automatique des langues :
- Ils sont à la base des lexiques monolingues des traducteurs automatiques à base de règles, comme Revirada ;
- Ils sont utilisés pour faire les listes de mots corrects pour les claviers prédictifs de portables et pour les correcteurs orthographiques ;
- Ils permettent de faire une base d'exceptions de prononciation pour la synthèse vocale Votz, qui est un modèle hybride (intelligence artificielle et règles de phonétisation) ;
- Ils permettent de pré-annoter de textes pour entraîner des modèles d'analyse morphosyntaxique (PoS-taggers) et syntaxique (parsers) ;
- Ils aident les OCR à mieux reconnaître les mots…
Grâce aux travaux menés pour le Vèrbòc et à une année de travail sur les autres mots, l'occitan limousin et l'occitan provençal sont maintenant dotés de cette ressource précieuse. Nous comptons plus de 600 000 formes provençales et plus de 550 000 formes limousines, qui viennent s'ajouter aux 880 000 formes languedociennes et aux 1,3 millions de formes gasconnes qui étaient déjà dans les bases du Congrès.
Tout cela ouvre de nouvelles perspectives de développements pour les deux variétés !