Letra de ligason :

Sélectionnez votre langue

revoc

Revoc - Lo Congrès

La reconeishença vocau qu'ei l'utís qui analisa la votz e qui la transcriu dab la fòrma d'un tèxte escriut. Que hè partida de las tecnologias de tractament de la paraula qui permeten aus umans d'escambiar oraument dab las maquinas, mercés a interfàcias vocaus.

La reconeishença vocau qu'ei indispensabla tà realizar utís com lo sostitolatge automatic de video, las aplicacions de dictada vocau o los assistents personaus intelligents.

"Dotar l'occitan d'ua atruna 
de reconeishença vocau"

Lo Congrès permanent de la lenga occitana que participa a un programa transfronterèr triennau dab lo prètzhèit de dotar l'occitan (tà las soas varietats gascona e lengadociana) d'aquera tecnologia.

ReVOc

Que tribalha en partenariat dab Rolde de Estudios Aragoneses (qui desvolòpa la medisha tecnologia entà la lenga aragonesa), la fondacion basca Elhuyar (en carga de la partida tecnica deu programa) e mei d'ua estructura qui produseishen contienguts multimèdias en occitan.

Perqué la reconeishença vocau en occitan ?

Las tecnologias de la lenga – reconeishença vocau, sintèsi vocau, traduccion automatica o enqüèra analisi semantic – que son un enjòc vitau entà las lengas minorizadas. Entà projectà's de cap a ua societat mei anar mei numerizada, aquestas qu'an de dispausar de ressorsas e apèrs de qui cau entà que los locutors escàmbien en la lor lenga pròpia peu mejan d'interfacis. Mei d'un programa qu'estón realizats en aqueth sens entà la lenga occitana : Linguatec (traduccion automatica e sintèsi vocau), BaTelOc (basa textuau occitana), ROLF (clavèrs predictius).

"La reconeishença vocau 
que permet la transcripcion de la votz en tèxte"

La reconeishença vocau que permet la transcripcion de la votz en tèxte, ua tecnologia qui ei d'ara enlà difusada en abonde en aplicacions gran public, notadament peus assistents personaus (Siri d'Apple, Google Home o enqüèra Alexa d'Amazon entaus mei coneishuts) e tau sostitolatge automatic de video. 

Sostitolatge de videos (captura OcTélé)

Exemples d'utilizacion de la reconeishença vocau

Assistents personaus


« Òc ben, Google ! » Lo desvolopament de la reconeishença vocau que permeterà de passar los assistents personaus en occitan !

Sostitolatge de videos


Un programa de reconeishença vocau que permeterà lo sostitolatge automatic de videos dens mantua lenga.

Transcripcion automatica


Un module de transcripcion automatica basat sus la reconeishença vocau qu'ajudarà lo tribalh deus lingüistas.

Demostracion

Demostracions de la reconeishença vocau basca e espanhòla d'Elhuyar.

Véder la demostracion

La platafòrma de contribucion

Entà atraçar ua quantitat bèra d'enregistraments transcriuts, e qui sian representatius de la diversitat deus locutors de l'occitan, Lo Congrès que desvolopè un utís de contribucion tà la comunautat. Sus aquera platafòrma, cadun que pòt enregistrar frasas qui seràn ajustadas au còrpus bastit dab los partenaris.

ReVOc

La platafòrma de collècta deu Congrès

Anar tà la platafòrma

La reconeishença vocau, com fonciona ?

La reconeishença vocau qu'utiliza l'intelligéncia artificiau (los hialats neuronaus) tà transcríver automaticament la votz en tèxte escriut.

Abans d'ac poder har, que hè besonh d'entrainar l'IA dab frasas audio dejà transcriutas. Que hè doncas besonh un bèth còrpus audio transcriut, qu'ei a díser ua quantitat bèra de tèxtes dab los enregistraments audios correspondents.

Que cau tanben « har pèisher » la maquina dab còrpus bèth de tèxte e sonque. Atau que pòt apréner quaus fòrmas e son frequentas, quau mot apareish sovent a costat de tau aute...

Enfin, desvolopar que cau mei d'un programa :

  • Un tà passar en letras los nombres, los simbèus, las abreviacions, las unitats de mesura... abans de balhar un tèxte a la maquina.
  • Un « abreviator » qui hè lo contra, tà har mei legeders los tèxtes prepausats aus utilizators.
  • Un fonetizaire tà obtiéner la prononciacion en alfabet fonetic internacionau d'un mot.
  • Un programa tà aver tots los mots qui corresponen a ua prononciacion.

Las etapas de l'entrainament e de la transcripcion

Lo calendari

2020 : Definicion de las exigéncias, especificacions foncionaus e constitucion deu còrpus

Que's haràn en ua purmèra etapa las exigéncias tecnicas atau com las especificacions foncionaus.

D'un punt de vista tecnic, los desvolopaments entà l'occitan que seràn realizats en l'estat de l'art, a saber per l'utilizacion deus hialats neuronaus (intelligéncia artificiau). Ad aquesta tecnologia de tria que'u hè totun besonh un nombre hòrt important de dadas. Sonque un còrpus ric, voluminós e variat que guarantirà un resultat de qualitat en fin de cadena.

Entad aquò har, lo Congrès qu'a engatjat un partenariat dab mantuns productors de contienguts textuaus multimèdias en occitan : institucions, mèdias, editors, productors de contienguts audiovisuaus...

Qu'ei pr'amor d'aquò aquesta purmèra fasa que serà essenciaument consacrada a un tribalh de collècta, tractament (alinhament tèxte/son) e enterpausatge de còrpus textuaus e acostics per l'occitan. Que s'estiman a 200 òras haut o baish lo besonh de transcripcions e a 500 milions de mots lo còrpus textuau necessari per cada varietat. Pr'amor d'estar l'occitan ua lenga enqüèra tròp chic dotada, que compensaram per l'utilizacion de còrpus gigants deu francés e de l'espanhòu per obtiéner, mercés a la traduccion automatica, còrpus textuaus occitans importants.

2021 : Finalizacion e desvolopament tecnologic

Ua part bèra deu projècte que's harà ad aqueth moment : acabar la collècta de las dadas necessàrias, realizar tres deus quate lòts de tribalh mei tecnics entà arribar a ua version avançada deu desvolopament. Concrètament, que prevedem au mensh ua mesa en òbra avançada deus modules seguents :

  • Creacion deu modèle lingüistic.
  • Creacion deu modèle acostic.
  • Desvolopament deu transcriptor.

2022 : Desvolopament finau e validacion

Dens la purmèra partida d'aquesta fasa darrèra, tots los desvolopaments tecnologics deu projècte que seràn acabats. La fasa de construccion deus transcriptors que serà tanben acabada. Integradas totas las compausantas tecnologicas, que seràn sosmetudas a ua seria de tèsts intensius d'avaloracion.

Los actors

Sòcis e sostiens

ReVOc qu'ei un programa navèth de desvolopament de la reconeishença vocau en occitan (varietats gascona e lengadociana) engatjat peu Congrès permanent de la lenga occitana. Aqueth programa triennau (2020-2022) que's debana dens l'encastre d'un partenariat transfronterèr qui assòcia l'institucion aragonesa Rolde de Estudios Aragoneses (qui desvoloparà la medisha tecnologia entà la lenga aragonesa) e la fondacion basca Elhuyar (en carga de la partida tecnica deu programa). Qu'a lo sostien financèr de la Region Novèla Aquitània, de la Region Occitània e deu Departament deus Pirenèus Atlantics (aperets a projèctes transfronterèrs).

Lo Congrès
Elhuyar
Rolde de estudios aragoneses
Eurorégion Nouvelle-Aquitaine - Euskadi - Navarre
Région Nouvelle-Aquitaine
Région Occitanie
Departament des Pyrénées-Atlantiques

Lo partenariat tà la constitucion deus còrpus

Tà entrainar l'intelligéncia artificiau, que cau quantitats granas de dadas. L'occitan, lenga dita « pauc dotada », n'a pas generaument aqueths ensembles de dadas. Tà constituir lo còrpus audio e lo còrpus textuau qui hèn mestièr au desvolopament de la reconeishença vocau, Lo Congrès non podè har-s'i solet.

Que's bastí doncas un partenariat d'ua pagèra inedita tà çò de l'occitan, tà constituir ua basa audio e textuau a la quau mei d'ua estructura e vienón portar la lor contribucion.

A Hum
Altair VIDEO
Aprene
Auba Novela
Bartavèl
CARLADÉS ABANS !
Carnaval Vath Vielha
CFPÒC Nouvelle-Aquitaine
CFPÒC Occitanie
CIRDOC
Conta'm
CORDAE La Talvera
Diu Negre
Edite-moi !
LES ÉDITIONS CAPI
Eraldica occitana
Escòla Gaston Febus
Eth Ostau Comengés
IEO12 Institut d'Estudis Occitans d'Avairon
Jornalet
Le Lecteur du Val
 Letras d'òc
LA PASSEM !
POCTEFA
Atlas sonore des langues régionales de France
Lo Diari
MARA FILMS
MedievalOc
Menestrèrs Gascons
Novelum
Oc tele
Office public de la langue occitane
OSTAU BIARNES
Parpalhon Blau
Per Noste
Pirenèus
radio de gascogne de capsús a capvath
Ràdio Lengadòc
Ràdio País
Edicions RECLAMS
Sapiéncia
Tè Vé Òc

E tanben

  • Miquèu Baris
  • Bernat Bergé
  • Danís Chapduèlh
  • David Escarpit
  • David Grosclaude
  • Gérard Sabadel
  • Lo Blòg Hadiu