Lettre de liaison :

Conventionnement entre le CIRDOC-Institut occitan de culture et le Congrès permanent de la langue occitane pour la mutualisation de corpus occitans

Convention Congrès - CIRDOC-INOC

Dans le but d’améliorer la numérisation de la langue occitane et de construire des outils numériques en langue occitane de plus en plus ambitieux et avancés dans toutes ses variétés, une convention de partenariat entre les deux institutions a été signée le 26 mars dernier.

Toujours dans le respect du droit d’auteur et de la propriété intellectuelle, elle permettra de garantir un cadre légal solide et pérenne à une transmission de contenus lexicographiques importants.

Pour l’instant, 1756 fichiers audio et de traitement de texte ont été versés, et les données traitées jusqu’à ce jour représentent environ 1 h 18 d’audio et 500 000 mots en occitan.

Ces nouvelles données, ainsi que celles qui seront versées au fil de cette collaboration, permettront d’améliorer les outils numériques existants (dicod’Òc, verb’Òc, express’Òc, claviers prédictifs, correcteurs, Votz, etc.) mais aussi de développer de nouveaux outils qui ne pourraient pas être créés sans une masse importante de données linguistiques (traducteur automatique, reconnaissance vocale, détecteur de variétés, etc.)

Un corpus qui prend de l’ampleur et qui se diversifie

En plus d’améliorer la quantité de données, c’est aussi la diversité de langue hébergée par le CIRDOC-Institut occitan de culture qui va permettre une meilleure prise en compte des variétés peu représentées dans le domaine numérique, comme peuvent l’être l’occitan vivaro-alpin, provençal, cisalpin ou encore auvergnat.

En effet, à ce jour – et aussi grâce au programme ReVOc de constitution de données pour la reconnaissance vocale en occitan – nous disposons de ce corpus formaté :

Audio aligné* : un total de 239 h, dont :

— 118 h en occitan gascon
— 114 h en occitan languedocien
— 7 h en autres variétés.

Nombre de mots : un total de 7 080 000 mots, dont :

— 3 millions en occitan languedocien
— 3 millions en occitan gascon
— 1 million en autres variétés

Un corpus qui a pu prendre de l’ampleur grâce aux 40 signataires de conventions, qu’il s’agisse d’institutions d’importance comme le CIRDOC-Institut occitan de culture, mais aussi de maisons d’éditions, radios, associations et contributeurs particuliers, sans oublier les contributeurs de la plateforme ReVOc.

Il est encore temps de faire encore grandir en quantité et diversité le corpus de langue occitane : n’hésitez pas à rejoindre cette mutualisation pour bâtir ensemble les outils de la communauté occitane de demain !

Le Congrès permanent de la langue occitane

NB : * une phrase = un fichier .wav