Après lo traductor automatic occitan en 2020, lo prestigiós LREC, Conferéncia internacionau sus las Ressorsas lengatgèras e l'Evaluacion qu'a un còp de mei retengut un article scientific coredigit peu Congrès (Aura Séguier, Michaël Barret e Benaset Dazéas) e lo son partenari tecnic Elhuyar (Iñigo Morcillo, Ander Corral, Igor Leturia, Xavier Sarasola) tà çò deu desvolopament de la reconeishença vocau en occitan.
La conferéncia LREC 2024 (qui aurà l'edicion novèla a Turin deu 20 au 25 de mai de 2024) qu'ei un eveniment internacionau màger dedicat a las ressorsas deu lengatge (LR) e a l’evaluacion de tecnologias deu lengatge (LT). L'objectiu de LREC qu'ei d'auherir un apercebut de l'estat de l'art, d’explorar las orientacions novèlas en recèrca e desvolopament e las tendéncias emergentas, d'escambiar informacions sus las LR e las lors aplicacions, las metodologias e apèrs d'evaluacion, las activitats en cors e previstas, las utilizacions e besonhs industriaus, las exigéncias requeridas per la societat de l'informacion, en tèrmes tant de politica com de questions tecnologicas e organizacionaus.
Lo hèit qu’aprovèn aqueth article entà qu’estosse presentat a la conferéncia que merita d’estar mencionat. L'article retengut per LREC 2024 que presenta la concepcion d'un sistèma de reconeishença vocau (Automatic System Recognition o ASR) entà duas varietats de l'occitan, lo gascon e lo lengadocian. Un ASR neuronau de darrèra generacion qu'estό utilizat entà l'occitan gascon e lengadocian dab un nombre modèste d'òras d'enregistrament (238 òras votz-tèxte alinhats) e de dadas textuaus (dab un còrpus de 10 milions de mots). Que’s testè tanben l'aumentacion de las dadas mercés a un còrpus sintetic (generat gràcias a l’arrevirada automatica).
La jurada qu'a saludat lo suenh portat a la constitucion deu còrpus, qui permet ua bona presa en compte de la variacion lingüistica, atau com los excellents resultats obtenguts ja sian limitadas las dadas : en efèit la reconeishença vocau en occitan qu’artenh, au dia de uei, ua qualitat de cap a 80% ! Que serà a tèrme accessibla despuish ua platafòrma gran public qui serà creada a la sortida deu programa POCTEFA LINGUATEC-IA.
La reconeishença vocau qu'ei ua tecnologia qui obreish perspectivas novèlas entà la lenga occitana. En efèit la transcripcion automatica - associada a l’arrevirada automatica - de vidèos qu’òbra a favor de la soa difusion e d'ua mei bona inclusion dens la societat de comunicacion deu dia de uei : mèdias, hialats sociaus, comunicacion institucionau.
Previst dens la huelha de rota de desvolopament numeric de l'occitan e sostengut per las regions Novèla Aquitània e Occitània, l'Euroregion Novèla Aquitània-Euskadi-Navarra e lo departament deus Pirenèus Atlantics, lo programa qu'estό realizat per un consòrci qui amassa la fondacion Elhuyar (Euskadi), lo Congrès (Novèla Aquitània) e Rolde d'Estudios Aragoneses (Aragon, qui a desvolopat la medisha tecnologia tà la lenga aragonesa). Ua aliança entà la constitucion deu còrpus dab quasi un cinquantenat d’editors e de productors de contienuts en occitan qu’a tanben permetut la realizacion d’aqueth programa.