Lettre de liaison :

Sélectionnez votre langue

Lexics

Lo-Congrès - Text encoding initiative

Le projet Lexics a pour but de formater en XML (selon la norme TEI) tous les dictionnaires, lexiques spécialisés, bases toponymiques, lexiques flexionnels du Congrès et de ses partenaires. Ces lexiques formatés peuvent ensuite être intégrés dans des outils de TAL (correcteur orthographique, traducteur automatique, clavier prédictif) ou utilisés pour générer automatiquement ou semi-automatiquement d'autres ressources (dictionnaires de synonymes, dictionnaires de rimes, dictionnaires de locutions...).

La rédaction de la feuille de route de développement numérique de l'occitan, en 2014, a souligné le besoin pour les acteurs du TAL occitan de disposer de données standardisables et interopérables. Le Congrès a donc lancé ce projet qui a pour but de rendre ses lexiques croisables avec ses autres ressources (comme ses lexiques, qui sont eux aussi formatés en XML-TEI) et celles de ses partenaires.

"le Congrès convertit
toutes ses ressources au format TEI"

Ce formatage rend également les ressources lisibles par les machines. La norme TEI (Text encoding initiative) est un format de balisage pour le langage XML (Extensible Markup Language). Il permet, grâce à des balises, d'indiquer la nature de chaque élément d'un texte (mot, phrase, morphème...). Ainsi, les machines peuvent connaître la nature de chaque élément d'une entrée. Par exemple, elles savent quel est le mot-vedette, quelle est sa traduction, quelle est la catégorie grammaticale de sa traduction... Cela permet de générer automatiquement de nouvelles ressources en extrayant seulement ce dont il y a besoin, par exemple un mot et son féminin pour construire un lexique de formes fléchies, un mot et sa traduction pour construire un lexique pour un traducteur automatique...

"cela permet de générer automatiquement
de nouvelles ressources"

Le projet Lexics a permis de développer des ressources pour plusieurs outils du Congrès :

  • Le traducteur automatique Revirada
  • Le phonétiseur utilisé par la synthèse vocale Votz
  • Les claviers prédictifs et correcteurs orthographiques Dicodòc
  • Certains dictionnaires du Dicodòc : locutions, synonymes
  • Laboratòri, l'outil de consultation avancée de lexiques occitans

En savoir plus sur la norme TEI utilisée par le Congrès.

En savoir plus

Linguatec

 

Voir cette page

Transcripteur

 

Voir cette page

Plateforme linguistique

 

Voir cette page