Formatage en TEI des données du Congrès

Pour mener à bien la feuille de route 2015-2019 pour le développement numérique de l'occitan, il était indispensable de disposer de données standardisées qui puissent être échangées entre ceux qui y travaillent. Il y avait également besoin de ressourses linguistiques dans un format que les machines puissent lire. Une telle standardisation, en effet, permet de développer de nouvelles ressources (bases lexicales, corpus) nécessaires à la création d'outils comme des traducteurs automatiques, un correcteur orthographique, un clavier prédictif...

Petit à petit, le Congrès convertit toutes ses ressources au format TEI (Text encoding initiative). Celui-ci est un sous-langage du XML (Extensible Markup Language) qui permet, grâce à des balises, d'indiquer la nature de chaque élément d'un texte (mot, phrase, morphème...). Il est pensé pour rendre les textes lisible par les machines, en particulier dans les domaines de la linguistique et des sciences humaines et sociales.

Un texte analysable par les machines peut être facilement modifié, découpé et/ou transfomé pour être utilisé par un outil informatique. Grâce au passage au format TEI des données du Congrès, créer de nouvelles applications sera beaucoup plus rapide. De plus, cela permettra de créer des outils qui n'auraient pas pu être réalisés avec des données au format brut.

Le format TEI, qu'es aquò ?

Si vous voulez mieux comprendre ce qu'est le format TEI, connaître les raisons de son choix et découvrir les possibilités de développement qu'il offre, vous trouverez dans la vidéo ci-dessous les explications d'Aure Séguier, webmaster et développeuse TAL pour le Congrès :

Choix de DTD

Pour adapter le format TEI à ses données, le Congrès a fait plusieurs choix de balisage spécifiques aux dictionnaires occitans traités. Vous les trouverez dans l'explicatif suivant :

Réalisations

Grâce au format TEI, le Congrès a déjà réalisé deux dictionnaires spéciaux :

 

Rimes

Entrer un mot :

Variété :

Synonimes

Entrer un mot :

Variété :

En savoir plus

Pour en savoir plus sur le format TEI en général :