Pr'amor de las soas missions estatutàrias, l'equipa deu Congrès que desvolopè tres maines de competéncias :
- las nòrmas lingüisticas occitanas, realizadas dab lo sostien deus Conselhèrs scientifics deu Congrès e difusidas auprès deu public capvath diferentas òbras o supòrts de referéncia : diccionaris, basas lexicaus e toponimicas, tablèus normats, etc.
- lo Tractament Automatic de las Lengas (TAL) qu'ei un maine de competéncia entau quau lo Congrès, dab lo sostien deus sons partenaris scientifics e tecnics, qu'ei d'ara enlà reconeishut com referent entà la lenga occitana. Qu'ei dens aqueth encastre que lo Congrès e mia mantun programa operacionau e que desvolòpa diferentas atrunas e ressorsas entà las tecnologias lengatgèras : traduccion automatica, tecnologias de la paraula, analisi semantic, etc.
- Lo Congrès que dispausa en intèrne d'un pòle dedicat a la difusion de la lenga capvath la societat (auprès deus particulars, enterpresas, collectivitats). Lo pòle Lenga e Societat (Lenga e societat) que perpausa mantun servici en socializacion lingüistica, dens los maines de la traduccion, de la terminologia, de la toponimia e de la sensibilizacion lingüistica.
Capvath servicis de traduccion e de sostien a la mesa en plaça de contienguts bilingües, per òbras a l'entorn deus toponimes occitans o per accions de socializacion e de sensibilizacion, lo pòle Lenga & Societat deu Congrès qu'acompanha las collectivitats, las enterpresas, las institucions, las associacions dens las lors accions de construccion d'ua societat on la lenga occitana ei presenta a cada moment de la vita vitanta.
Maines d'activitat
Traduccion
Lo pòle Lenga & Societat deu Congrès que's carga de traduccions qui provienen de comandas de collectivitats territoriaus, mes tanben d'associacions, d'enterpresas o enqüèra de particulars.
Toponimia
La toponimia occitana qu'ei importanta entà la compreneson deu lòc on se trobam. Que permet de restituïr lo sens deu paisatge peu patrimòni lingüistic. Au còp, que permet ua visibilitat mei bona de la lenga dens l'espaci public.
Terminologia
La terminologia qu'ei l'estudi deus tèrmes pròpis a un maine, a ua activitat. Lo pòle Lenga & Societat que mia estudis terminologics dab la mira de constituïr lexics especializats sus ua tematica.
Socializacion
La socializacion de la lenga qu'ei primordiau entà que non sia pas marginalizada, entà que sia vededera capvath l'espaci public, capvath l'espaci sociau. Qu'ei çò qui'u balha cèrta normalitat.
Sensibilizacion
Informar las collectivitats e los lors elejuts que permet de'us « aculturar », de'us har préner consciéncia deu riquèr que la lenga e la cultura e representan entau lor territòri.
Servicis
Traduccion de contiengut
Hètz-ve revirar ldocuments, sites web, atrunas de comunicacion... en occitan per professionaus.
Traduccion conselh
On e quin integrar la lenga dens la vòsta estructura, dens los vòstes locaus, en vòste territòri, en la vòsta comunicacion ?
Traduccion simultanèa
Traduccion simultanèa de l'occitan au francés o deu francés a l'occitan entaus vòstes eveniments multilingües.
Estudis toponimics
Restitucion o validacion deus noms de comunas, de carrèras en occitan ; acompanhament senhaletic bilingüe.
Lexics tematics
Prestacions en terminologia : Recèrca deu vocabulari tematic adaptat aus besonhs deu vòste sector.
Conselh toponimia
Perqué méter en plaça ua senhaletica bilingua ? Quau interès entau territòri ?
Politica lingüistica
Integrar e valorizar la lenga occitana ? Sensibilizacion e acompanhament auprès d'elejuts, de collectivitats...
La produccion de nòrmas e òbras normativas
La produccion de nòrmas e òbras normativas, en divrès maines de la lenga, segon lo principi màger de l'ahortiment de l'unitat pregonda de la lenga e deu respècte de la soa diversitat, qu'ei ua de las missions qui estón hidadas au Congrès : nòrmas graficas e lingüisticas, lexicografia, lexicologia, terminologia, neologia, fonologia, grafia, gramatica, toponimia, etc…
Aqueras missions que son gessidas d'un procediment collectiu e democratic qui amassa las collectivitats, las institucions e las federacions istoricas occitanas, e qui miè a l'installacion oficiau deu Congrès a l'Ostau de Region Aquitània a Bordèu, lo 18 de deceme de 2011.
e suu Conselh deus usatgèrs, l'aute conselh assessor deu Congrès."
Pr'amor de la reconeishença publica e sociau, Lo Congrès que s'empara suu son Conselh lingüistic, ua equipa de lingüistas representatius de l'ensemble de l'espaci occitan. Aqueth Conselh que guaranteish l'excelléncia scientifica e academica de las produccions de la nosta institucion. Lo Conselh deus usatgèrs, l'aute conselh assessor deu Congrès, qu'amassa representants deus sectors de la transmission e de la difusion de la lenga, çò qui permet d'associar e de har compte de la demanda sociau.
Lo portau internet locongres.org, qui tot purmèr responó aus besonhs prioritaris deus usatgèrs, sustot entà la lexicografia en linha, que perpausa bitara un espaci dedicat a las nòrmas e òbras normativas, qui serà progressivament ahortit e enriquit.
Lo numeric occitan que s'ei desvolopat d'ua faiçon generau en darrèras : contienguts enciclopedics (Wikipèdia), patrimòni (Occitanica), médias (OCtele), hialats sociaus que son autant de sectors d'ara enlà investits. Totun la lenga occitana que pateish tostemps d'un important retard numeric dab per consequéncia ua abséncia quasi totau dens atrunas d'ara enlà correntas (burotica, telefonia mobile, etc.). La pregnança creishenta d'aqueras tecnologias en la vita vitanta (tribalh, desplaçaments, consum, educacion, vita sociau) que hèn de las tecnologias deu lengatge un factor mei de marginalizacion entà ua lenga dejà minorizada.
de las tecnologias lengatgèras entà l'occitan."
Aqueth fenomèn qu'ei berói descrivut e analisat dens un estudi realizat per META-NET, un hialat de recèrca amassant diferentas institucions, universitats e centres de recèrca e dont la mission principau ei la mesa en plaça de fondacions tecnologicas solidas entà ua Euròpa multilingua. Lo son Libe blanc que hè un estat actuau de las ressorsas e tecnologias deu lengatge entà trenta lengas europèas dens sheis maines (la traduccion automatica, la sintèsi e la reconeishença vocaus, la correccion ortografica, l'analisi semantica, l'analisi gramaticau e la generacion automatica de tèxte) e que perpausa tanben ua grasilha comuna de classificacion e d'evaluacion de las ressorsas e atrunas numericas. Los resultats de l'estudi que son particularament inquietants : los editors que soslinhan l'escart creishent enter las lengas « granas » e « petitas », qu'ei indispensable d'equipar totas las lengas (dont las mei petitas e las mensh dotadas) de las tecnologias de basa necessàrias, sinon aqueras lengas be'n son condemnadas a « l'extincion numerica ».
sintèsi vocau, reconeishença vocau, etc.)."
Entad aquò har, l'estudi que preconiza la creacion massiva de dadas, la mutualizacion au nivèu europèu, lo transferiment tecnologic enter las lengas, l'interoperabilitat de las ressorsas, de las atrunas e deus servicis.
Dens aqueth encastre lo Congrès, dab l'ensemble deus sons partenaris scientifics e institucionaus, qu'a engatjat mantun programa de desvolopament de las tecnologias lengatgèras entà l'occitan : en 2014 qu'ei redigida la Huelha de rota de desvolopament numeric l'occitan, un document quadre pluriannau de planificacion de las òbras, que serà seguit de mantun programa operacionau (traductor automatic, sintèsi vocau, reconeishença vocau, clavèr predictiu, còrpus, etc.).
La Farga qu'ei lo portau collaboratiu TAL (tractament automatic de la lenga) entà l'occitan. Qu'auratz accès a l'ensemble de las ressorsas existentas gràcias a l'inventari de las ressorsas, que poderatz telecargar las atrunas (modules/plug-in), entrar en contacte dab la comunautat e har conéisher los vòstes projèctes.
Gràcias a diferentas iniciativas, que s'ei vist a paréisher en darrèras ressorsas e atrunas numericas hèra utilas entà l'occitan dens mei d'un maine : patrimòni, contienguts enciclopedics e lexicaus, òbras universitàrias, audiovisuau, etc.
a l'entorn de la question deu numeric occitan."
Totun, que's constata que la lenga be pateish enqüèra de retards deus bèths : logiciaus entau gran public, hialats sociaus, jòcs videos o enqüèra telefònes intelligents que son autant d'enjòcs cruciaus entà la transmission de la lenga – sustot entà las generacions navèras ; l'obrador qu'ei immense.
Qu'ei pr'amor d'aquò que lo Congrès, dab lo sostien de l'ADEPFO (Associacion de desvolopament deus Pirenèus per la formacion) que decidí de miar ua afranquida inedita a l'entorn de la question deu numeric occitan.
que son autant d'enjòcs cruciaus entà la transmission de la lenga."
Atau un vintenat de personas representativas de l'usatge sociau de la lenga (ensenhament, formacion, institucions, Universitat) que realizèn un estudi de ueit mes dab l'ajuda de dus organismes d'Euskadi : la societat de formacion Media.kom e la fondacion Elhuyar. Qu'encontrèn tanben especialistas de las tecnologias deu lengatge entà las lengas basca, catalana, bretona e galesa.
que miè a ua lista deus besonhs en atrunas e ressorsas."
L'objectiu que n'èra la produccion d'un document-quadre qui ei bitara perpausat a las collectivitats partenàrias entà que sia integrat e mes en òbra dens l'encastre de las politicas lingüisticas publicas. Aqueth document que hè purmèr un diagnostic deu numeric occitan dab un inventari de çò d'existent (diccionaris en linha, correctors ortografics, etc.) e qu'estableish apuish ua lista deus besonhs en atrunas e ressorsas : traductors automatics, clavèrs predictius entaus telefònes intelligents, etc.
Dens l'encastre de l'espandiment de la Huelha de rota de desvolopament numeric de l'occitan, lo Congrès qu'engatgè mantun programa operacionau :
- LINGUATEC, un programa europèu (hons FEDER) de desvolopament e de difusion de navèras ressorsas, atrunas e aplicacions lingüisticas innovantas entà l'aragonés, lo basco e l'occitan.
- ReVOc, un programa dedicat de la tecnologia de reconeishença vocau.
- Lo transcriptor automatic, ua atruna permetent lo sostitolatge automatic de videos.
- Lo lexic obèrt de las fòrmas flechidas de l'occitan (LOFlOc), ua ressorsa TAL de basa necessària a de nombrós desvolopaments.
- Lo formatatge TEI (Text Encodage Informacion) deus lexics e deus córpus deu Congrès, entad ac har interoperable, entà desvolopar atrunas e ressorsas navèras.
- ROLF (Ressources outils langues de France), un programa de desvolopament de clavèr predictiu Android entà l'alsacian, l'occitan e lo picard.
- Lo Congrès qu'engatgè ua associacion dab lo C.N.R.S. entà l'interconnexion de las soas dadas lexicograficas dab lo Thesoc.
- La futura platafòrma lexicau, textuau e toponimica que permeterà de perpausar aus usatgèrs ua infrastructura numerica de punta.
Lo projècte Còrpus del Congrès qu'a per tòca la constitucion d'un ensemble de còrpus entau desvolopament d'utís de tractament automatic deu lengatge. Qu'a l'objectiu doble de quantitat (entà poder entrainar intelligéncias artificiaus) e de representativitat de la diversitat de l'espaci lingüistic occitan. Los sons tèxtes que'n son formatats segon los estandards deu Congrès de la nòrma TEI.
Mei de 60 partenaris que hornín dadas entà bastir aquera ressorsa bèra. Mèdias, editors, organismes de formacion, institucions, particulars, associacions culturalas... que transmetón au Congrès contienguts tant variats com libes, emissions de ràdio e de television, vidzos sostitoladas, articles de premsa, contiengut de sites web, compte renduts o documents de comunicacion... Ad aquò que's horní mantun contiengut libre de dret (Wikipèdia, traduccions de logiciaus libres...). Las dadas que vienen de tot lo territòri e que son tant escriutas com oraus.
que hornín dadas"
A l'òra d'ara, que i caben dens la basa deu projècte Còrpus :
- Un còrpus monolingüe de mei de 8,5 milions de mots
- Un còrpus parallèle occitan-francés de mei d'un milion de mots
- Petits còrpus parallèles de l'occitan de cap a d'autas lengas, per un totau de mei de 300 000 mots
- Un còrpus audio alinhat de mei de 250 òras per quasi 1,5 milion de mots
Los còrpus audio e escriut que serveishen a entrainar l'intelligéncia artificiau deu futur utís de reconeishença vocau dens l'encastre deu projècte ReVoc. D'uns soscòrpus qu'estón tanben hargats entà testar lo traductor automatic Revirada e seleccionar frasas a enregistrar entà la sintèsi vocau Votz.
Lo Congrès permanent de la lenga occitana qu'ei portaire d'un programa d'accion dens l'encastre deu CPER 2021-2027 entà las regions Novèla Aquitània e Occitània : que s'i parla d'un projècte d'infrastructura numerica dedicada a la lenga occitana, permetent de crear, estructurar e religar diferentas ressorsas lexicograficas, textuaus e toponimicas a l'entorn d'ua interfàcia de consultacion publica, d'un nivèu d'excelléncia comparabla a la deu Centre nacional des ressources textuelles et lexicales entà la lenga francesa (https://www.cnrtl.fr). Que son presvists peu programa diferents chantièrs, dont la redaccion deu Diccionari generau informatizat de la lenga occitana (DGILO), la restauracion de la toponimia occitana (en aliança dab l'IGN) sus las duas regions e lo tractament massiu de las dadas a l'estandard TAL (tractament automatic de las lengas).
Lo programa qu'a per objectiu de produsir atrunas numericas, d'utilizacion gratuita e libra per ordenadors e aparelhs connectats mobiles, entà difusar la transmission e l'usatge d'ua lenga occitana de qualitat.
Aquesir ressorsas lingüisticas qui permeten la difusion e l'estudi d'ua lenga de qualitat
- la realizacion d'un Diccionari generau informatizat de la lenga occitana (DGILO). Tot parièr que las soas lengas vesias catalana e basca, l'occitan que serà atau dotat d'un diccionari descriptiu complet, cobrant totas las varietats de l'occitan, dab descripcion fonologica, exemples, dísers, arreproèrs, citacions literàrias. Que s'ageish d'un tribalh de mantua annada, a qui harà mestièr ua equipa hornida dens lo maine de la lexicografia, qui aurà ua edicion numerica qui permeterà la soa mei grana difusion gràcias aus estandards d'interoperabilitat. Que's poderà pensar après a ua edicion papèr en mantun volume. Aquera òbra academica de prestigi qu'ei indispensabla a la coneishença e a la difusion de la lenga. Despuish lo Tresaur dóu Felibrige de Frederic Mistral, arrès n'a pas produisit nada òbra lexicografica panoccitana d'aqueth nivèu scientific e d'aqueth endom.
- l'aumentacion de la basa deu multidiccionari Dicodòc sustot peus diccionaris seguents : lo Vayssier, lo Mouly e l'Alibert e lo lor formatage, en TEI entà perméter (adarron) lo desvolopament de numerosas aplicacions lingüisticas (diccionari de las expressions, ...)
- Aumentacion de las basas textuaus occitanas anotadas (dadas morfosintaxicas) qui cobreishen la diversitat de la lenga (en varietat e en genre literari) dab interfàcia de consultacion. En foncion deus partenariats establits, aquera operacion que serà eventuaument totaument o parciaument fusionada dab lo programa BaTelÒc e ParcoLaf deu laboratòri CLLE-ERSS (CNRS/Universitat Tolosa 2).
Objectius : 10-25 milions de mots entau còrpus monolingüe, 2-5 milions entau còrpus bilingüe.
ROLF qu'ei ua associacion enter lo Congrès permanent de la lenga occitana, CLLE-ERSS (CNRS/Universitat Tolosa Joan Jaurés), Abitar lo monde (Universitat d'Amiens) e LiLPa (Universitat d'Estrasborg) sostienut dens l'encastre de l'aperet a projèctes « Lengas e numeric » de la Delegacion generau a la lenga francesa e a las lengas de França-ministèri de la Cultura e la Comunicacion.
entà las tres lengas deu projècte"
Aqueth projècte que s'inscriu dens la continuitat deu projècte ANR RESTAURE (Ressorsas informatizadas e tractament automatic entà las lengas regionaus) dens l'encastre deu quau mantua ressorsa e atrunas de TAL (Tractament automatic deu lengatge) que son desvolopadas entà tres lengas de França : alsacian, occitan e picard. Las realizacions deus objectius de RESTAURE que son en bona via. Aquò dit, los desvolopaments qu'estón estats realizats de faiçon concertada mes independenta entà las tres lengas. L'idèa qui sosten la presenta proposicion qu'ei de definir entà las ressorsas lexicaus un format unic qui permeteré de crear lo medish tipe de ressorsa entà las tres lengas, de perpausar ressorsas dont lo format e las anotacions e serén identics (dab per exemple los medishs jòcs d'etiquetas entà las categorias similaras dens las diferentas lengas), e d'aver atrunas d'ajuda a la creacion d'aqueras ressorsas qui serén partatjats entà las tres lengas.
entà mutualizar los desvolopaments"
Los desvolopaments qu'estón realizats de faiçon concertada mes independenta entà las tres lengas dab l'objectiu de la creacion d'un lexic de fòrmas flechidas entà cadua d'enter eras. L'idèa qui sosten la presenta proposicion qu'ei de religar los lexics de cadua de las tres lengas enter eths en utilizant lo francés com lenga pivòt e de desvolopar formats comuns entau desvolopament mutualizat de ressorsas e d'atrunas.
Gràcias au desvolopament concertat entad aqueras tres lengas, que's podó perpausar au gran public gran ua purmèra version en occitan deu clavèr predictiu (prevista per la Huelha de rota de desvolopament numeric de l'occitan pilotada peu Congrès), mes tanben en alsacian e en picard.
Lo projècte Lexics qu'a la tòce de formatar en XML (segon la nòrma TEI) tots los diccionaris, lexics especializats, basas toponimicas, lexics flexionaus deu Congrès e deus sons partenaris. Aqueths lexics formatats que pòden apuish estar integrats dens atrunas de TAL (corrector ortografic, traductor automatic, clavèr predictiu) o emplegats entà generar automaticament o semiautomaticament ressorsas autas (diccionaris de sinonimes, diccionaris de rimas, diccionaris de locucions...).
La redaccion de la huelha de rota de desvolopament numeric de l'occitan, en 2014, que soslinhè lo besonh entaus actors deu TAL occitan de dispausar de dadas estandardizaderas e interoperablas. Lo Congrès qu'aviè donc aqueste projècte qui a per mira de har vàder los sons lexics compatibles dab las soas autas ressorsas (com los sons lexics, qui son eths tanben formatats en XML-TEI) e las deus sons partenaris.
passa totas las soas ressorsas au format TEI"
Lo formatatge que hè vàder legederas las ressorsas per las maquinas tanben. La nòrma TEI (Text encoding information) qu'ei un format de balisatge entau lengatge XML (Extensible Markup Language). Que permet, gràcias a balisas, d'indicar la natura de cada element d'un tèxte (mot, frasa, morfèma...). Atau, las maquinas que pòden conéisher la natura de cada element d'ua entrada. Per exemple, que saben quau ei lo mot-vedeta, quau ei la soa traduccion, quau ei la categoria gramaticau de la soa traduccion... Aquerò que permet de generar automaticament navèras ressorsas en tirar solament çò qui hè besonh, per exemple un mot e lo son femenin entà bastir un lexic de fòrmas flechidas, un mot e la soa traduccion entà bastir un lexic entà un traductor automatic...
navèras ressorsas"
Lo projècte Lexics que permetó de desvolopar ressorsas entà mantua atruna deu Congrès :
- Lo traductor automatic Revirada
- Lo fonetizaire emplegat per la sintèsi vocau Votz
- Los clavèrs predictius e correctors ortografics Dicodòc
- Daubuns diccionaris deu Dicodòc : locucions, sinonimes
- Laboratòri, l'atruna de consulta avançada de lexics occitans