La lingüistica occitana qu'ei particularament rica en tèrme de produccions - qui s'espandeishen quitament sus mantun sègle - aquestas be'n son malurosament dispersadas e pas tostemps conegudas deu public. Lo Congrès, en associacion dab lo Cirdoc-Institut occitan de cultura, qu'a enterprés la redaccion d'un document de sintèsi qui recensa l'ensemble deus diccionaris, gramaticas, metòdes d'aprendissatge, preconizacions lingüisticas publicats au dia de uei.
nòrmas ortograficas, fichas gramaticaus e de fraseologia, etc."
Entad aquò har que hasó mestièr de procedir a un inventari generau qui a permetut de definir ua basa referenciau de tribalh entà las òbras deu Congrès, en respóner - gràcias a ua edicion limitada - aus besonhs d'un gran public en recèrca de preconizacions o d'atrunas lingüisticas.
D'ua faiçon generau, Lo Congrès que met a disposicion deu public aprenent suu son site internet atrunas lingüisticas : bibliografias, diccionaris, gramaticas, nòrmas ortograficas, fichas gramaticaus e de fraseologia, etc.
Lo Congrès utilizèt primièr la nòrma TEI dins l'encastre de son projècte Lexics, qu'a per tòca de formatar totes sos lexics (flexionals, bilingües, toponimics, especializats...) en XML per los far interoperables e legibles per las maquinas. S'i ajustèt puèi lo formatatge de còrpus textuals pel projècte Còrpus que vòl constituïr una basa de tèxtes per bastir d'otisses de TAL. Per menar aqueles dos trabalhs, definiguèt d'estandards de balisatge en TEI P5 adaptats al formatatge de lexics e de còrpus occitans.
de lexics e de còrpus occitans"
La nòrma TEI, qu'es aquò ?
La nòrma TEI (Text encoding initiative) es un soslengatge del XML (Extensible Markup Language) que permet, mercés a de balisas, d'indicar la natura de cada element d'un tèxte (mot, frasa, morfèma...). Es pensat per far los tèxtes legibles per las maquinas, en particular dins los domenis de la lingüistica e de las sciéncias umanas e socialas.
Se volètz comprene melhor çò qu'es lo format TEI, saber perqué Lo Congrès lo causiguèt e descobrir las possibilitats de desvolopament qu'ofrís, trobaretz dins la vidèo çai-jos las explicacions d'Aura Séguier, responsabla del pòle TAL del Congrès :
Causidas de DTD
Las possibilitats qu'ofrís la nòrma TEI son fòrça largas e variadas. Las preconizacions daissan la plaça a l'interpretacion per poder respondre a de besonhs tan diferents coma l'etiquetatge de diccionaris, la descripcion de manuscrits, la transcripcion de l'oral o l'annotacion de còrpus. Lo Congrès deguèt doncas causir qualas balisas èran adaptadas al material que voliá annotar (diccionaris bilingües pensats per l'edicion papièr, lexics flexionals per la bastison d'otisses TAL, còrpus textuals e audio...) e a las especificitats de la lenga occitana (gestion de la varietat...).
A costat d'aquò, calguèt definir d'estandards d'etiquetatge de mantuna donadas, coma las informacions d'usatge, las zònas geograficas o las categorias gramaticalas. Per aquestas, caliá que l'estandard siá compatible tant pel francés coma per l'occitan e aisidament convertible dins los diferents jòcs d'etiquetas utilizats dins lo TAL (Eagles, Grace...).
Los estandards definits son descriuts dins los documents seguents :
Estandard TEI pel formatatge de lexics occitans
Preconizacions del Congrès permanent de la lenga occitana
Estandard TEI pel formatatge de còrpus occitans
Preconizacions del Congrès permanent de la lenga occitana
Jòc d'etiquetas de categorias gramaticalas
Etiquetas de PoS utilizadas pel Congrès
Ne saber mai
Per ne saber mai sus la nòrma TEI en general :
En informatica, s'utilizan de còdis estandardizats per identificar las lengas, lors varietats, lors grafias e lors alfabets. Son d'estandards internacionals que permeton la compatibilitat entre los sistèmas d'espleitacion, los logicials, los sites web... Per exemple, un site web multilingüe pòt anar identificar la lenga per manca d'un navigator e prepausar lo contiengut dins la lenga de l'utilizator. Aquò es possible perque los dos còdis de lenga (lo dins los paramètres del navigator e lo per la lenga de la pagina web) son los meteisses.
Las « etiquetas d'identificacion de lengas IETF » foguèron desvolopadas per l'Internet Engineering Task Force a partir de las nòrmas ISO. Son amassadas dins un registre gerit per l'IANA (Internet Assigned Numbers Authority) on los conceptors de logicials o de sites web i van cercar los còdis qui los fan mestièr dins lors desvolopaments.
Aquelas etiquetas son constituïdas de las jos-etiquetas (subtags) seguentas :
- Una jos-etiqueta de lenga obligatòria, sus doas o tres letras, basada sus la nòrma ISO 639. Per l'occitan es « oc ». Se pòt pas cambiar, es registrat definitivament.
- Una a tres jos-etiquetas d'extension de lengas, facultativas, sus 3 letras. Servisson pels macrolengatges (ex. : arab, chinés), mas ara son pas pus recomandadas.
- La jos-etiqueta del sistèma d'escritura, opcionala, sus 4 letras, eissida de la nòrma ISO 15924. Per l'alfabet latin, es « Latn ».
- La jos-etiqueta de region, opcionala, sus doas letras majusculas. Correspond a un Estat oficial e es basada sus la nòrma ISO 3166-1.
- Una o mantuna jos-etiqueta de varietat, opcionala, sus 5 a 8 caractères. Servisson a codar de variantas dialectalas o ortograficas especificas a una lenga.
- Una jos-etiqueta d'extension, opcionala, sus una letra. Es pauc utilizada. N'i a una, per exemple, que servís a encodar lo format de data.
- Una jos-etiqueta eventuala d'extension d'utilizacion privada, la letra x seguida de 1 a 8 caractères, que cadun pòt utilizar per indicar, per exemple, de variantas pas normalizadas o d'autras menas de donadas.
Lo procediment
en compte la varietat intèrna de l'occitan
dins lo desvolopament informatic"
Abans 2018, existissiá pas l'indicacion normalizada de las varietats de l'occitan dins los logicials. L'occitan aranés èra, de costuma, diferenciat pel còdi « oc-ES » (jos-etiqueta de lenga seguida de la jos-etiqueta de país) e lo demai èra encodat en « oc-FR ». En seguida de las demandas dels desvolopaires per poder encodar las varietats geograficas e de grafia per l'occitan, Lo Congrès dobriguèt un projècte per l'ajust de còdis estandards internacionals per prene en compte la variacion intèrna de l'occitan dins lo desvolopament informatic.
Menèt una enquèsta alprès dels actors que desvolopan d'otisses o ressorsas informatics per l'occitan. Faguèt atal l'inventari dels besonhs per de jos-etiquetas per l'occitan. Aquela lista aviá pas per tòca principala de correspondre a una vertat o a una exaustivitat lingüistica. Son objectiu èra de cobrir los
besonhs informatics e aplicatius de diferenciacion de varietats e de jos-varietats. Per exemple existissiá un besonh de poder diferenciar l'aranés del demai del gascon per desvolopar de traductors automatics mai eficaces, mas i aviá pas, a aquel moment, de logicial informatic qu'aguèsse besonh de diferenciar lo lengadocian oriental del lengadocian occidental.
Una primièra lista foguèt establida per cobrir los besonhs aplicatius recensats. Lo Congrès depausèt las jos-etiquetas per 10 varietats e jos-varietats e per 3 grafias de l'occitan, acompanhadas de lor bibliografia justificativa. Las demandas foguèron acceptadas e las jos-etiquetas son ara integradas al registre de l'IANA.
Las jos-etiquetas
Las jos-etiquetas (subtags) de varietat e de jos varietat son :
- auvern : occitan auvernhat
- gascon : occitan gascon
- lengadoc : occitan lengadocian
- lemosin : occitan lemosin
- provenc : occitan provençal
- vivaraup : occitan vivaroalpenc
- creiss : varietats del creissent
- aranes : occitan gascon aranés
- cisaup : occitan vivaroalpenc cisalpenc
- nicard : occitan provençal niçard
Las jos-etiquetas de grafia son :
- grclass : grafia classica
- grit : grafia italianizanta
- grmistr : grafia mistralenca e derivadas (febusiana, Escòla dau Pò)
Se i a pas de jos-etiqueta de grafia, lo tèxte/logicial es supausat èstre en grafia classica. Se un tèxte es dins una grafia pas normalizada, lo Congrès preconiza d'utilizar un còdi qu'es pas depausat a l'IANA, « grautres » seguit, se i a besonh, d'una jos-etiqueta d'extension d'utilizacion privada (-x) seguida d'una numerotacion.
Qualques exemples :
- Per un tèxte en occitan provençal en grafia mistralenca : oc-provenc-grmistr
- Per un tèxte en occitan gascon en grafia febusiana : oc-gascon-grmistr
- Per un tèxte en occitan lengadocian en grafia classica : oc-lengadoc
- Per un tèxte en occitan gascon aranés en grafia desconeguda : oc-aranes-grautres (per nosautres)
- Per un tèxte en occitan auvernhat en grafia classica que cal precisar : oc-auvern-grclass
- Per un tèxte en occitan provençal niçard en grafia italianizanta : oc-nicard-grital
- Per un tèxte en occitan cisalpenc meridional : oc-cisalp amb endacòm una informacion geografica que precisa qu'es dins lo sud de la zòna pertocada.
Per ne saber mai
Document de presentacion dels còdis de l'IANA
Document qu'explica las causidas e las preconizacions per las jos-etiquetas de varietat e de grafia.
Podètz tanben consultar lo registre de l'IANA amb totes los còdis de lenga, varietat, sistèma d'escritura...