Formatatge en TEI de las donadas del Congrès

Per menar la fuèlha de rota 2015-2019 de desvolopament numeric de l'occitan, èra indispensable de dispausar de donadas estandardizadas que se posquèsson escambiar entre los qu'i trabalhan. Fasián tanben mestièr de ressorsas lingüisticas dins un format que las maquinas posquèsson legir. Aquela estandardizacion, d'efièch, permet de desvolopar de novèlas ressorsas (basas lexicalas, còrpus) necessàrias a la creacion d'otisses coma de traductors automatics, un corrector ortografic, un calvièr predictiu...

Pauc a pauc, lo Congrès es a convertir totas sas ressorsas al format TEI (Text encoding initiative). Aqueste es un soslengatge del XML (Extensible Markup Language) que permet, mercés a de balisas, d'indicar la natura de cada element d'un tèxte (mot, frasa, morfèma...). Es pensat per far los tèxtes legibles per las maquinas, en particular dins los domenis de la lingüistica e de las sciéncias umanas e socialas.

Un tèxte analisable per las maquinas pòt èsser aisidament modificat, trocejat e/o transformat per èsser utilizat per un otís informatic. Mercés al passatge al format TEI de las donadas del Congrès, serà fòrça mai rapide de crear de novèlas aplicacions. A mai, permetrà de crear d'aisinas que serián pas estadas realizablas amb de donadas a un format brut.

Lo format TEI, qu'es aquò ?

Se volètz comprene melhor çò qu'es lo format TEI, saber perqué es estat causit e descobrir las possibilitats de desvolopament qu'ofrís, trobaretz dins la vidèo çai-jos las explicacions d'Aura Séguier, webmèstra e desvolopaira TAL pel Congrès :

Causidas de DTD

Per adaptar lo format TEI a sas donadas, lo Congrès a fach mantuna causida de balisatge especificas dels diccionaris occitans tractats. Las trobaretz dins l'explicatiu seguent :

Realizacions

Mercés al TEI, lo Congrès a ja realizat dos diccionaris especials :

 

Rimas

Picar un mot :

Varietat :

Sinonimes

Picar un mot :

Varietat :

Ne saber mai

Per ne saber mai sul format TEI en general :