Dans le cadre de la feuille de route 2015-2019 pour le développement numérique de l'occitan, Lo Congrès est en train de convertir ses données au format TEI (Text Encoding Initiative), un sous-langage du XML (Extensible Markup Language) qui permet, grâce à des balises, d'indiquer la nature de chaque élément d'un texte (mot, phrase, morphème...).
Pour mener à bien la feuille de route, il était indispensable de disposer de données standardisées qui puissent être échangées entre ceux qui y travaillent. Il y avait également besoin de ressources linguistiques dans un format que les machines puissent lire. Cette standardisation, en effet, permet de développer de nouvelles ressources (bases lexicales, corpus) nécessaires à la création d'outils comme des traducteurs automatiques, un correcteur orthographique, un clavier prédictif...
Le format TEI est pensé pour rendre les textes lisibles par les machines, notamment dans les domaines de la linguistique et des sciences humaines et sociales. Un texte analysable par les machines peut être facilement modifié, découpé et/ou transformé pour être utilisé par un outil informatique.
Si vous voulez mieux comprendre ce qu'est le format TEI, connaître les raisons de son choix et découvrir les possibilités de développement qu'il offre, vous trouverez dans la vidéo ci-dessous les explications d'Aure Séguier, webmaster et développeuse TAL pour le Congrès :
Pour adapter le format TEI à ses données, le Congrès a fait plusieurs choix de balisage spécifiques aux dictionnaires occitans traités. Vous les trouverez dans l'explicatif suivant :
Grâce au passage au format TEI des données du Congrès, il est à présent beaucoup plus rapide de créer de nouvelles applications. Cela permet également de créer des outils qui n'auraient pas été réalisables avec des données au format brut.
Par exemple, Lo Congrès vient de mettre en ligne deux dictionnaires spéciaux réalisés à partir de trois dictionnaires formatés en TEI :
Pour en savoir plus sur le format TEI en général :