Corpus

Le projet Còrpus du Congrès a pour objectif la constitution d'un ensemble de corpus pour le développement d'outils de traitement automatique du langage. Il a un double objectif de quantité (pour pouvoir entraîner des intelligences artificielles) et de représentativité de la diversité de l'espace linguistique occitan. Ses textes sont formatés selon les standards du Congrès pour la norme TEI.

Plus de 60 partenaires ont fourni des données pour construire cette imposante ressource. Des médias, des éditeurs, des organismes de formation, des institutions, des particuliers, des associations culturelles... ont donné au Congrès des contenus aussi variés que des livres, des émissions de radio et de télévision, des vidéos sous-titrées, des articles de presse, des contenus de sites web, des compte-rendus ou documents de communication... S'y sont ajoutés plusieurs contenus libres de droits (Wikipédia, traductions de logiciels libres...). Les données viennent de tout le territoire et sont aussi bien écrites qu'orales.

"plus de 60 partenaires
ont fourni des données"

À l'heure actuelle, la base du projet Còrpus contient :

Un corpus monolingue de plus de 8,5 millions de mots
Un corpus parallèle occitan-français de plus d'un million de mots
De petits corpus parallèles de l'occitan vers d'autres langues, pour un total de plus de 300 000 mots
Un corpus audio aligné de plus de 250 heures pour presque 1,5 million de mots

Les corpus audio et écrits servent à entraîner l'intelligence artificielle du futur outil de reconnaissance vocale dans le cadre du projet ReVoc. Des sous-corpus ont également été utilisés pour tester le traducteur automatique Revirada et sélectionner des phrases à enregistrer pour la synthèse vocale Votz.

Corpus

Corpus

En savoir plus

LINGUATEC-IA

ReVOc

Transcripteur

LOFlOc

Lexics

Còrpus

ROLF

Plateforme linguistique

THESOC