Les corpus du Congrès en ligne

Corpus du Congrès

Le Congrès vient de développer un nouvel outil pour consulter ses corpus.

Plus ergonomique, il propose plusieurs nouvelles fonctionnalités comme le filtre par variété et la recherche par expressions régulières. Un corpus audio y a aussi été ajouté (des phrases que l’on peut lire et écouter).

Dans le cadre de l’élaboration d’outils de traitement automatique du langage, Le Congrès a créé plusieurs corpus pour entraîner des systèmes d’intelligence artificielle. Du fait que ces corpus pouvaient aussi intéresser le public, nous avons mis en ligne une interface pour les consulter.

Cette interface vient d’être repensée pour permettre des recherches plus approfondies et plus spécifiques. Le nouvel outil de consultation de corpus du Congrès permet :

  • De filtrer les citations par variété ;
  • De rechercher plusieurs formes, espacées d’un ou de plusieurs mots ;
  • D’utiliser des expressions régulières

Autre nouveauté, Le Congrès propose aussi un corpus audio à la consultation. Pour l’instant, il est composé des enregistrements faits pour constituer la synthèse vocale en occitan gascon. Il sera bientôt enrichi d’autres ressources, notamment les enregistrements de la synthèse vocale en languedocien.

Pour chaque citation, le corpus audio affiche sa transcription en Alphabet Phonétique International et propose un enregistrement audio. La nouvelle interface permet de rechercher une phrase à partir de caractères orthographiques, mais aussi à partir de phonèmes.

Le Congrès a pour objectif d’augmenter le nombre de textes à disposition et de proposer bientôt un corpus bilingue français occitan.