Lo projècte Còrpus del Congrès qu'a per tòca la constitucion d'un ensemble de còrpus entau desvolopament d'utís de tractament automatic deu lengatge. Qu'a l'objectiu doble de quantitat (entà poder entrainar intelligéncias artificiaus) e de representativitat de la diversitat de l'espaci lingüistic occitan. Los sons tèxtes que'n son formatats segon los estandards deu Congrès de la nòrma TEI.
Mei de 60 partenaris que hornín dadas entà bastir aquera ressorsa bèra. Mèdias, editors, organismes de formacion, institucions, particulars, associacions culturalas... que transmetón au Congrès contienguts tant variats com libes, emissions de ràdio e de television, vidzos sostitoladas, articles de premsa, contiengut de sites web, compte renduts o documents de comunicacion... Ad aquò que's horní mantun contiengut libre de dret (Wikipèdia, traduccions de logiciaus libres...). Las dadas que vienen de tot lo territòri e que son tant escriutas com oraus.
que hornín dadas"
A l'òra d'ara, que i caben dens la basa deu projècte Còrpus :
- Un còrpus monolingüe de mei de 8,5 milions de mots
- Un còrpus parallèle occitan-francés de mei d'un milion de mots
- Petits còrpus parallèles de l'occitan de cap a d'autas lengas, per un totau de mei de 300 000 mots
- Un còrpus audio alinhat de mei de 250 òras per quasi 1,5 milion de mots
Los còrpus audio e escriut que serveishen a entrainar l'intelligéncia artificiau deu futur utís de reconeishença vocau dens l'encastre deu projècte ReVoc. D'uns soscòrpus qu'estón tanben hargats entà testar lo traductor automatic Revirada e seleccionar frasas a enregistrar entà la sintèsi vocau Votz.
Lo Congrès permanent de la lenga occitana qu'ei portaire d'un programa d'accion dens l'encastre deu CPER 2021-2027 entà las regions Novèla Aquitània e Occitània : que s'i parla d'un projècte d'infrastructura numerica dedicada a la lenga occitana, permetent de crear, estructurar e religar diferentas ressorsas lexicograficas, textuaus e toponimicas a l'entorn d'ua interfàcia de consultacion publica, d'un nivèu d'excelléncia comparabla a la deu Centre nacional des ressources textuelles et lexicales entà la lenga francesa (https://www.cnrtl.fr). Que son presvists peu programa diferents chantièrs, dont la redaccion deu Diccionari generau informatizat de la lenga occitana (DGILO), la restauracion de la toponimia occitana (en aliança dab l'IGN) sus las duas regions e lo tractament massiu de las dadas a l'estandard TAL (tractament automatic de las lengas).
Lo programa qu'a per objectiu de produsir atrunas numericas, d'utilizacion gratuita e libra per ordenadors e aparelhs connectats mobiles, entà difusar la transmission e l'usatge d'ua lenga occitana de qualitat.
Aquesir ressorsas lingüisticas qui permeten la difusion e l'estudi d'ua lenga de qualitat
- la realizacion d'un Diccionari generau informatizat de la lenga occitana (DGILO). Tot parièr que las soas lengas vesias catalana e basca, l'occitan que serà atau dotat d'un diccionari descriptiu complet, cobrant totas las varietats de l'occitan, dab descripcion fonologica, exemples, dísers, arreproèrs, citacions literàrias. Que s'ageish d'un tribalh de mantua annada, a qui harà mestièr ua equipa hornida dens lo maine de la lexicografia, qui aurà ua edicion numerica qui permeterà la soa mei grana difusion gràcias aus estandards d'interoperabilitat. Que's poderà pensar après a ua edicion papèr en mantun volume. Aquera òbra academica de prestigi qu'ei indispensabla a la coneishença e a la difusion de la lenga. Despuish lo Tresaur dóu Felibrige de Frederic Mistral, arrès n'a pas produisit nada òbra lexicografica panoccitana d'aqueth nivèu scientific e d'aqueth endom.
- l'aumentacion de la basa deu multidiccionari Dicodòc sustot peus diccionaris seguents : lo Vayssier, lo Mouly e l'Alibert e lo lor formatage, en TEI entà perméter (adarron) lo desvolopament de numerosas aplicacions lingüisticas (diccionari de las expressions, ...)
- Aumentacion de las basas textuaus occitanas anotadas (dadas morfosintaxicas) qui cobreishen la diversitat de la lenga (en varietat e en genre literari) dab interfàcia de consultacion. En foncion deus partenariats establits, aquera operacion que serà eventuaument totaument o parciaument fusionada dab lo programa BaTelÒc e ParcoLaf deu laboratòri CLLE-ERSS (CNRS/Universitat Tolosa 2).
Objectius : 10-25 milions de mots entau còrpus monolingüe, 2-5 milions entau còrpus bilingüe.
ROLF qu'ei ua associacion enter lo Congrès permanent de la lenga occitana, CLLE-ERSS (CNRS/Universitat Tolosa Joan Jaurés), Abitar lo monde (Universitat d'Amiens) e LiLPa (Universitat d'Estrasborg) sostienut dens l'encastre de l'aperet a projèctes « Lengas e numeric » de la Delegacion generau a la lenga francesa e a las lengas de França-ministèri de la Cultura e la Comunicacion.
entà las tres lengas deu projècte"
Aqueth projècte que s'inscriu dens la continuitat deu projècte ANR RESTAURE (Ressorsas informatizadas e tractament automatic entà las lengas regionaus) dens l'encastre deu quau mantua ressorsa e atrunas de TAL (Tractament automatic deu lengatge) que son desvolopadas entà tres lengas de França : alsacian, occitan e picard. Las realizacions deus objectius de RESTAURE que son en bona via. Aquò dit, los desvolopaments qu'estón estats realizats de faiçon concertada mes independenta entà las tres lengas. L'idèa qui sosten la presenta proposicion qu'ei de definir entà las ressorsas lexicaus un format unic qui permeteré de crear lo medish tipe de ressorsa entà las tres lengas, de perpausar ressorsas dont lo format e las anotacions e serén identics (dab per exemple los medishs jòcs d'etiquetas entà las categorias similaras dens las diferentas lengas), e d'aver atrunas d'ajuda a la creacion d'aqueras ressorsas qui serén partatjats entà las tres lengas.
entà mutualizar los desvolopaments"
Los desvolopaments qu'estón realizats de faiçon concertada mes independenta entà las tres lengas dab l'objectiu de la creacion d'un lexic de fòrmas flechidas entà cadua d'enter eras. L'idèa qui sosten la presenta proposicion qu'ei de religar los lexics de cadua de las tres lengas enter eths en utilizant lo francés com lenga pivòt e de desvolopar formats comuns entau desvolopament mutualizat de ressorsas e d'atrunas.
Gràcias au desvolopament concertat entad aqueras tres lengas, que's podó perpausar au gran public gran ua purmèra version en occitan deu clavèr predictiu (prevista per la Huelha de rota de desvolopament numeric de l'occitan pilotada peu Congrès), mes tanben en alsacian e en picard.
Lo projècte Lexics qu'a la tòce de formatar en XML (segon la nòrma TEI) tots los diccionaris, lexics especializats, basas toponimicas, lexics flexionaus deu Congrès e deus sons partenaris. Aqueths lexics formatats que pòden apuish estar integrats dens atrunas de TAL (corrector ortografic, traductor automatic, clavèr predictiu) o emplegats entà generar automaticament o semiautomaticament ressorsas autas (diccionaris de sinonimes, diccionaris de rimas, diccionaris de locucions...).
La redaccion de la huelha de rota de desvolopament numeric de l'occitan, en 2014, que soslinhè lo besonh entaus actors deu TAL occitan de dispausar de dadas estandardizaderas e interoperablas. Lo Congrès qu'aviè donc aqueste projècte qui a per mira de har vàder los sons lexics compatibles dab las soas autas ressorsas (com los sons lexics, qui son eths tanben formatats en XML-TEI) e las deus sons partenaris.
passa totas las soas ressorsas au format TEI"
Lo formatatge que hè vàder legederas las ressorsas per las maquinas tanben. La nòrma TEI (Text encoding information) qu'ei un format de balisatge entau lengatge XML (Extensible Markup Language). Que permet, gràcias a balisas, d'indicar la natura de cada element d'un tèxte (mot, frasa, morfèma...). Atau, las maquinas que pòden conéisher la natura de cada element d'ua entrada. Per exemple, que saben quau ei lo mot-vedeta, quau ei la soa traduccion, quau ei la categoria gramaticau de la soa traduccion... Aquerò que permet de generar automaticament navèras ressorsas en tirar solament çò qui hè besonh, per exemple un mot e lo son femenin entà bastir un lexic de fòrmas flechidas, un mot e la soa traduccion entà bastir un lexic entà un traductor automatic...
navèras ressorsas"
Lo projècte Lexics que permetó de desvolopar ressorsas entà mantua atruna deu Congrès :
- Lo traductor automatic Revirada
- Lo fonetizaire emplegat per la sintèsi vocau Votz
- Los clavèrs predictius e correctors ortografics Dicodòc
- Daubuns diccionaris deu Dicodòc : locucions, sinonimes
- Laboratòri, l'atruna de consulta avançada de lexics occitans
Lo Congrès permanent de la lenga occitana e lo laboratòri CLLE-ERSS (CNRS / Universitat Tolosa-Jean-Jaurés) qu'avièn ua associacion qui a per mira la creacion d'un lexic obèrt de las fòrmas flechidas de l'occitan (LOFlOc).
Aquera iniciativa que's hè dens l'encastre de Restaure (Ressorsas informatizadas e tractament automatic entà las lengas regionaus), un projècte ANR (Agéncia nacionau de la recèrca) qui ved a s'associar CLLE-ERSS (Universitat de Tolosa), LESCALP (Universitat d'Amiens) e LILPA (Universitat d'Estrasborg) a l'entorn deu desvolopament de las ressorsas informaticas e de las atrunas de tractament automatic entà tres lengas regionaus de França : alsacian, occitan e picard.
Dens la seguida deu Morphalou entau francés o deu Lexic Obert Flexionat de Català, Lofloc que serà un lexic de las fòrmas flechidas d'un lèma, a saber ua basa lexicau monolingua a on cab ua lista de mots occitans dab la categoria gramaticau (tipe, genre, nombre, etc.), las fòrmas flechidas (feminin, plurau, conjugason, etc.) e la varietat.
Inscrivut au demiei deus desvolopaments prioritaris de la huelha de rota de desvolopament numeric de l'occitan, Lofloc qu'ei ua ressorsa indispensabla a l'anotacion deus còrpus textuaus, mes tanben a la creacion d'aplicacions numericas taus com la sasida predictiva e la correccion ortografica.
Dens l'encastre de l'aperet a projèctes 2021 de l'Euroregion Novèla Aquitània/Euskadi/Navarra, qu’estó retiengut lo Congrès dab dus partenaris bascos, las fondacions bascas Elhuyar e Euskokultur, entà un programa triennau de desvolopament de transcriptor automatic de video enter las lengas occitana, basca, francesa e espanhòla. Que s’i parla de desvolopar un transcriptor automatic de la paraula en occitan e en las divèrsas lengas parladas en Navarra (basco e espanhòu). Concrètament, la tecnologia que permeterà, a partir d'ua video enregistrada, de tirar e de transcríver la votz, de l'arrevirar (en foncion deus parelhs de lengas disponibles), puish de generar e d'integrar automaticament sostítols dens la video. A la sortida, que s'obtienerà automaticament ua video dab lo son originau e ua revirada sostitolada.
Sòcis tecnics
Dab lo sostien de
La reconeishença vocau qu'ei l'utís qui analisa la votz e qui la transcriu dab la fòrma d'un tèxte escriut. Que hè partida de las tecnologias de tractament de la paraula qui permeten aus umans d'escambiar oraument dab las maquinas, mercés a interfàcias vocaus.
La reconeishença vocau qu'ei indispensabla tà realizar utís com lo sostitolatge automatic de video, las aplicacions de dictada vocau o los assistents personaus intelligents.
de reconeishença vocau"
Lo Congrès permanent de la lenga occitana que participa a un programa transfronterèr triennau dab lo prètzhèit de dotar l'occitan (tà las soas varietats gascona e lengadociana) d'aquera tecnologia.
Que tribalha en partenariat dab Rolde de Estudios Aragoneses (qui desvolòpa la medisha tecnologia entà la lenga aragonesa), la fondacion basca Elhuyar (en carga de la partida tecnica deu programa) e mei d'ua estructura qui produseishen contienguts multimèdias en occitan.
Perqué la reconeishença vocau en occitan ?
Las tecnologias de la lenga – reconeishença vocau, sintèsi vocau, traduccion automatica o enqüèra analisi semantic – que son un enjòc vitau entà las lengas minorizadas. Entà projectà's de cap a ua societat mei anar mei numerizada, aquestas qu'an de dispausar de ressorsas e apèrs de qui cau entà que los locutors escàmbien en la lor lenga pròpia peu mejan d'interfacis. Mei d'un programa qu'estón realizats en aqueth sens entà la lenga occitana : Linguatec (traduccion automatica e sintèsi vocau), BaTelOc (basa textuau occitana), ROLF (clavèrs predictius).
que permet la transcripcion de la votz en tèxte"
La reconeishença vocau que permet la transcripcion de la votz en tèxte, ua tecnologia qui ei d'ara enlà difusada en abonde en aplicacions gran public, notadament peus assistents personaus (Siri d'Apple, Google Home o enqüèra Alexa d'Amazon entaus mei coneishuts) e tau sostitolatge automatic de video.
Exemples d'utilizacion de la reconeishença vocau
Assistents personaus
« Òc ben, Google ! » Lo desvolopament de la reconeishença vocau que permeterà de passar los assistents personaus en occitan !
Sostitolatge de videos
Un programa de reconeishença vocau que permeterà lo sostitolatge automatic de videos dens mantua lenga.
Transcripcion automatica
Un module de transcripcion automatica basat sus la reconeishença vocau qu'ajudarà lo tribalh deus lingüistas.
Demostracion
Demostracions de la reconeishença vocau basca e espanhòla d'Elhuyar.
La platafòrma de contribucion
Entà atraçar ua quantitat bèra d'enregistraments transcriuts, e qui sian representatius de la diversitat deus locutors de l'occitan, Lo Congrès que desvolopè un utís de contribucion tà la comunautat. Sus aquera platafòrma, cadun que pòt enregistrar frasas qui seràn ajustadas au còrpus bastit dab los partenaris.
La reconeishença vocau, com fonciona ?
La reconeishença vocau qu'utiliza l'intelligéncia artificiau (los hialats neuronaus) tà transcríver automaticament la votz en tèxte escriut.
Abans d'ac poder har, que hè besonh d'entrainar l'IA dab frasas audio dejà transcriutas. Que hè doncas besonh un bèth còrpus audio transcriut, qu'ei a díser ua quantitat bèra de tèxtes dab los enregistraments audios correspondents.
Que cau tanben « har pèisher » la maquina dab còrpus bèth de tèxte e sonque. Atau que pòt apréner quaus fòrmas e son frequentas, quau mot apareish sovent a costat de tau aute...
Enfin, desvolopar que cau mei d'un programa :
- Un tà passar en letras los nombres, los simbèus, las abreviacions, las unitats de mesura... abans de balhar un tèxte a la maquina.
- Un « abreviator » qui hè lo contra, tà har mei legeders los tèxtes prepausats aus utilizators.
- Un fonetizaire tà obtiéner la prononciacion en alfabet fonetic internacionau d'un mot.
- Un programa tà aver tots los mots qui corresponen a ua prononciacion.
Las etapas de l'entrainament e de la transcripcion
Lo calendari
2020 : Definicion de las exigéncias, especificacions foncionaus e constitucion deu còrpus
Que's haràn en ua purmèra etapa las exigéncias tecnicas atau com las especificacions foncionaus.
D'un punt de vista tecnic, los desvolopaments entà l'occitan que seràn realizats en l'estat de l'art, a saber per l'utilizacion deus hialats neuronaus (intelligéncia artificiau). Ad aquesta tecnologia de tria que'u hè totun besonh un nombre hòrt important de dadas. Sonque un còrpus ric, voluminós e variat que guarantirà un resultat de qualitat en fin de cadena.
Entad aquò har, lo Congrès qu'a engatjat un partenariat dab mantuns productors de contienguts textuaus multimèdias en occitan : institucions, mèdias, editors, productors de contienguts audiovisuaus...
Qu'ei pr'amor d'aquò aquesta purmèra fasa que serà essenciaument consacrada a un tribalh de collècta, tractament (alinhament tèxte/son) e enterpausatge de còrpus textuaus e acostics per l'occitan. Que s'estiman a 200 òras haut o baish lo besonh de transcripcions e a 500 milions de mots lo còrpus textuau necessari per cada varietat. Pr'amor d'estar l'occitan ua lenga enqüèra tròp chic dotada, que compensaram per l'utilizacion de còrpus gigants deu francés e de l'espanhòu per obtiéner, mercés a la traduccion automatica, còrpus textuaus occitans importants.
2021 : Finalizacion e desvolopament tecnologic
Ua part bèra deu projècte que's harà ad aqueth moment : acabar la collècta de las dadas necessàrias, realizar tres deus quate lòts de tribalh mei tecnics entà arribar a ua version avançada deu desvolopament. Concrètament, que prevedem au mensh ua mesa en òbra avançada deus modules seguents :
- Creacion deu modèle lingüistic.
- Creacion deu modèle acostic.
- Desvolopament deu transcriptor.
2022 : Desvolopament finau e validacion
Dens la purmèra partida d'aquesta fasa darrèra, tots los desvolopaments tecnologics deu projècte que seràn acabats. La fasa de construccion deus transcriptors que serà tanben acabada. Integradas totas las compausantas tecnologicas, que seràn sosmetudas a ua seria de tèsts intensius d'avaloracion.
Los actors
Sòcis e sostiens
ReVOc qu'ei un programa navèth de desvolopament de la reconeishença vocau en occitan (varietats gascona e lengadociana) engatjat peu Congrès permanent de la lenga occitana. Aqueth programa triennau (2020-2022) que's debana dens l'encastre d'un partenariat transfronterèr qui assòcia l'institucion aragonesa Rolde de Estudios Aragoneses (qui desvoloparà la medisha tecnologia entà la lenga aragonesa) e la fondacion basca Elhuyar (en carga de la partida tecnica deu programa). Qu'a lo sostien financèr de la Region Novèla Aquitània, de la Region Occitània e deu Departament deus Pirenèus Atlantics (aperets a projèctes transfronterèrs).
Lo partenariat tà la constitucion deus còrpus
Tà entrainar l'intelligéncia artificiau, que cau quantitats granas de dadas. L'occitan, lenga dita « pauc dotada », n'a pas generaument aqueths ensembles de dadas. Tà constituir lo còrpus audio e lo còrpus textuau qui hèn mestièr au desvolopament de la reconeishença vocau, Lo Congrès non podè har-s'i solet.
Que's bastí doncas un partenariat d'ua pagèra inedita tà çò de l'occitan, tà constituir ua basa audio e textuau a la quau mei d'ua estructura e vienón portar la lor contribucion.
E tanben
- Miquèu Baris
- Bernat Bergé
- Danís Chapduèlh
- David Escarpit
- David Grosclaude
- Gérard Sabadel
- Lo Blòg Hadiu
Lo Congrès permanent de la lenga occitana qu’a aviat ua aliança transfronterèra – LINGUATEC – dens l’encastre deu dusau aperet a projèctes deu programa 2014-2020 deu POCTEFA (Programa de cooperacion transfronterèra Espanha-França-Andòrra, finançat peus fons europèus FEDER).
LINGUATEC qu’ei un projècte de compte har de desvolopament de las ressorsas e deus utís numerics de las lengas pirenencas qui amassa lo Congrès permanent de la lenga occitana (Navèra Aquitània), Euskaltzaindia-Real academia de la lengua vasca, la Universidad del País vasco/Euskal Herriko Unibertsitatea, la fondacion Elhuyar (Euskadi), la Sociedad de gestión e de promoción del turismo aragonés – SLU (Aragon), lo CNRS-Delegacion regionau de Mieidia-Pirenèus (Occitània). L'Ofici public de la lenga basca, l'Ofici public de la lenga occitana, l'Institut occitan Aquitània et le CIRDÒC (Occitània) que son membres associats deu projècte.
entau dévelopement d'atrunas numericas"
L’objectiu qu’ei - mercés a la cooperacion transfronterèra e lo transferiment de technologias - de desvolopar e espandir ressorsas navèras e aplicacions linguisticas innovantas tà l’aragonés, lo basco e l’occitan : traductors automatics, reconeishença vocau, sintèsi vocau, corrector ortografic, analisi sintaxic e morfosintaxic. Aqueths utís numerics de difusion bèra qu’an l’objectiu de contribuir au desvolopament e a l’intercompreneson numerica enter las divèrsas lengas atau com l’amelhorança de la lor transmission e de la lor difusion.
Aquera iniciativa que repren tanben los èishs màgers deu diagnostic e de la huelha de rota de desvolopament numeric de l’occitan gavidat per l’ADEPFO en 2014. Aqueth document-quadre, au quau èran associats representants deu Ministèri de la Cultura e de collectivitats, que perpausa un programa d’accion tà desvolopar las ressorsas numericas tà l’occitan. Com ac dit l’estudi europèu Meta-Net, qu’ei un enjòc deus màgers tà l’aviéner de las lengas - e donc de las politicas lingüisticas - au quau e’s pòt respóner de faiçon eficaça dab un minimum de metodologia e de mejans.
de Desvolopament Regionau"
LINGUATEC (EFA227/16) « Desvolopament de la cooperacion transfronterèra e deu transferiment de coneishença en tecnologias de la lenga » qu’ei un programa retiengut peu segond aperet a projèctes deu Programa de Cooperacion Territoriau Espanha-França-Andòrra POCTEFA (2014-2020) qui a per objectiu lo transferiment de tecnologias e lo desvolopament de ressorsas e d’aplicacions lingüisticas innovantas en aragonés, basco e occitan.
Mei d'entresenhas sus : linguatec-poctefa.eu