Lo Congrès utilizèt primièr la nòrma TEI dins l'encastre de son projècte Lexics, qu'a per tòca de formatar totes sos lexics (flexionals, bilingües, toponimics, especializats...) en XML per los far interoperables e legibles per las maquinas. S'i ajustèt puèi lo formatatge de còrpus textuals pel projècte Còrpus que vòl constituïr una basa de tèxtes per bastir d'otisses de TAL. Per menar aqueles dos trabalhs, definiguèt d'estandards de balisatge en TEI P5 adaptats al formatatge de lexics e de còrpus occitans.
de lexics e de còrpus occitans"
La nòrma TEI, qu'es aquò ?
La nòrma TEI (Text encoding initiative) es un soslengatge del XML (Extensible Markup Language) que permet, mercés a de balisas, d'indicar la natura de cada element d'un tèxte (mot, frasa, morfèma...). Es pensat per far los tèxtes legibles per las maquinas, en particular dins los domenis de la lingüistica e de las sciéncias umanas e socialas.
Se volètz comprene melhor çò qu'es lo format TEI, saber perqué Lo Congrès lo causiguèt e descobrir las possibilitats de desvolopament qu'ofrís, trobaretz dins la vidèo çai-jos las explicacions d'Aura Séguier, responsabla del pòle TAL del Congrès :
Causidas de DTD
Las possibilitats qu'ofrís la nòrma TEI son fòrça largas e variadas. Las preconizacions daissan la plaça a l'interpretacion per poder respondre a de besonhs tan diferents coma l'etiquetatge de diccionaris, la descripcion de manuscrits, la transcripcion de l'oral o l'annotacion de còrpus. Lo Congrès deguèt doncas causir qualas balisas èran adaptadas al material que voliá annotar (diccionaris bilingües pensats per l'edicion papièr, lexics flexionals per la bastison d'otisses TAL, còrpus textuals e audio...) e a las especificitats de la lenga occitana (gestion de la varietat...).
A costat d'aquò, calguèt definir d'estandards d'etiquetatge de mantuna donadas, coma las informacions d'usatge, las zònas geograficas o las categorias gramaticalas. Per aquestas, caliá que l'estandard siá compatible tant pel francés coma per l'occitan e aisidament convertible dins los diferents jòcs d'etiquetas utilizats dins lo TAL (Eagles, Grace...).
Los estandards definits son descriuts dins los documents seguents :
Estandard TEI pel formatatge de lexics occitans
Preconizacions del Congrès permanent de la lenga occitana
Estandard TEI pel formatatge de còrpus occitans
Preconizacions del Congrès permanent de la lenga occitana
Jòc d'etiquetas de categorias gramaticalas
Etiquetas de PoS utilizadas pel Congrès
Ne saber mai
Per ne saber mai sus la nòrma TEI en general :