Le Congrès a d'abord utilisé la norme TEI dans le cadre de son projet Lexics, qui a pour but de formater tous ses lexiques (flexionnels, bilingues, toponymiques, spécialisés...) en XML pour les rendre interopérables et lisibles par les machines. S'y est ensuite ajouté le formatage de corpus textuels pour le projet Còrpus qui veut constituer une base de textes pour construire des outils de TAL. Pour mener ces deux chantiers, il a défini des standards de balisage en TEI P5 adaptés au formatage de lexiques et de corpus occitans.
de lexiques et de corpus occitans"
La norme TEI, qu'est-ce que c'est ?
La norme TEI (Text encoding initiative) est un sous-langage du XML (Extensible Markup Language) qui permet, grâce à des balises, d'indiquer la nature de chaque élément d'un texte (mot, phrase, morphème...). Il est pensé pour rendre les textes lisibles par les machines, en particulier dans les domaines de la linguistique et des sciences humaines et sociales.
Si vous voulez mieux comprendre ce qu'est le format TEI, savoir pourquoi le Congrès l'a choisi et découvrir les possibilités de développement qu'il offre, vous trouverez dans la vidéo ci-dessous les explications d'Aure Séguier, responsable du pôle TAL du Congrès :
Choix de DTD
Les possibilités qu'offre la norme TEI sont très larges et variées. Les préconisations laissent la place à l'interprétation pour pouvoir répondre à des besoins aussi différents que l'étiquetage de dictionnaires, la description de manuscrits, la transcription de l'oral ou l'annotation de corpus. Le Congrès a donc dû choisir quelles balises étaient adaptées au matériel qu'il voulait annoter (dictionnaires bilingues pensés pour l'édition papier, lexiques flexionnels pour la construction d'outils TAL, corpus textuels et audio...) et les spécificités de la langue occitane (gestion de la variété...).
En parallèle, il a fallu définir des standards d'étiquetage de plusieurs données, comme les informations d'usage, les zones géographiques ou les catégories grammaticales. Pour celles-ci, il fallait que le standard soit compatible aussi bien pour le français que pour l'occitan, et facilement convertible dans les différents jeux d'étiquettes utilisés dans le TAL (Eagles, Grace...).
Les standards définis sont décrits dans les documents suivants :
Standard TEI pour le formatage de lexiques occitans
Préconisations du Congrès permanent de la langue occitane
Standard TEI pour le formatage de corpus occitans
Préconisations du Congrès permanent de la langue occitane
Jeu d'étiquettes de catégories grammaticales
Étiquettes de PoS utilisées par le Congrès
En savoir plus
Pour en savoir plus sur la norme TEI en général :