La linguistique occitane est particulièrement riche en terme de productions - qui s’étendent même sur plusieurs siècles – ces dernières étant malheureusement dispersées et pas toujours connues du public. Le Congrès, en partenariat avec le Cirdoc-Institut occitan de culture, a entrepris la rédaction d'un document de synthèse recensant l’ensemble des dictionnaires, grammaires, méthodes d’apprentissage, préconisations linguistiques publiés à ce jour.
normes orthographiques, fiches grammaticales et de phraséologie, etc."
Pour ce faire il a été nécessaire de procéder à un inventaire général qui permettra de définir une base référentielle de travail pour les travaux du Congrès, tout en répondant - grâce à une édition restreinte - aux besoins d’un grand public en recherche de préconisations ou d’outils linguistiques.
D’une façon générale, Lo Congrès met à disposition du public apprenant sur son site internet des outils linguistiques : bibliographies, dictionnaires, grammaires, normes orthographiques, fiches grammaticales et de phraséologie, etc.
Le Congrès a d'abord utilisé la norme TEI dans le cadre de son projet Lexics, qui a pour but de formater tous ses lexiques (flexionnels, bilingues, toponymiques, spécialisés...) en XML pour les rendre interopérables et lisibles par les machines. S'y est ensuite ajouté le formatage de corpus textuels pour le projet Còrpus qui veut constituer une base de textes pour construire des outils de TAL. Pour mener ces deux chantiers, il a défini des standards de balisage en TEI P5 adaptés au formatage de lexiques et de corpus occitans.
de lexiques et de corpus occitans"
La norme TEI, qu'est-ce que c'est ?
La norme TEI (Text encoding initiative) est un sous-langage du XML (Extensible Markup Language) qui permet, grâce à des balises, d'indiquer la nature de chaque élément d'un texte (mot, phrase, morphème...). Il est pensé pour rendre les textes lisibles par les machines, en particulier dans les domaines de la linguistique et des sciences humaines et sociales.
Si vous voulez mieux comprendre ce qu'est le format TEI, savoir pourquoi le Congrès l'a choisi et découvrir les possibilités de développement qu'il offre, vous trouverez dans la vidéo ci-dessous les explications d'Aure Séguier, responsable du pôle TAL du Congrès :
Choix de DTD
Les possibilités qu'offre la norme TEI sont très larges et variées. Les préconisations laissent la place à l'interprétation pour pouvoir répondre à des besoins aussi différents que l'étiquetage de dictionnaires, la description de manuscrits, la transcription de l'oral ou l'annotation de corpus. Le Congrès a donc dû choisir quelles balises étaient adaptées au matériel qu'il voulait annoter (dictionnaires bilingues pensés pour l'édition papier, lexiques flexionnels pour la construction d'outils TAL, corpus textuels et audio...) et les spécificités de la langue occitane (gestion de la variété...).
En parallèle, il a fallu définir des standards d'étiquetage de plusieurs données, comme les informations d'usage, les zones géographiques ou les catégories grammaticales. Pour celles-ci, il fallait que le standard soit compatible aussi bien pour le français que pour l'occitan, et facilement convertible dans les différents jeux d'étiquettes utilisés dans le TAL (Eagles, Grace...).
Les standards définis sont décrits dans les documents suivants :
Standard TEI pour le formatage de lexiques occitans
Préconisations du Congrès permanent de la langue occitane
Standard TEI pour le formatage de corpus occitans
Préconisations du Congrès permanent de la langue occitane
Jeu d'étiquettes de catégories grammaticales
Étiquettes de PoS utilisées par le Congrès
En savoir plus
Pour en savoir plus sur la norme TEI en général :