Dab la mira de melhorar la numerizacion de la lenga occitana e de bastir utís numerics en lenga occitana mei anar mei ambiciós e avançats dens totas las soas varietats, que’s signè lo 26 de març passat ua convencion de partenariat enter las duas institucions.
En respectar tostemps lo dret d’autor e la propietat intellectuau, que permeterà de guarantir un quadre legau solide e perenne a ua transmission de contienguts lexicografics deus bèths.
Peu moment, 1756 fichièrs audio e de tractament de tèxte que son estats barrejats, e las dadas tractadas dinc a uei que representan environ 1 h 18 d’audio e 500 000 mots en occitan.
Aquestas dadas navèras, e las qui seràn barrejadas au briu d’aquesta collaboracion, que permeteràn de melhorar los utís numerics existents (dicod’Òc, vèrb’Òc, express’Òc, clavèrs predictius, correctors, Votz, etc.) mes tanben de desvolopar utís navèths qui ne poderén pas hà’s shens ua massa bèra de dadas lingüisticas (traductor automatic, reconeishença vocau, detector de varietats, etc.)
Un còrpus qui prava e qui’s diversifica
En mei de melhorar la quantitat de dadas, qu’ei tanben la diversitat de lenga aubergada peu CIRDOC-Institut occitan de cultura qui va perméter ua mei bona presa en compte de las varietats chic representadas en lo maine numeric, com pòden estar l’occitan vivaroaupenc, provençau, cisaupenc o enqüèra auvernhat.
En efèit, a dia de uei – e mercés au programa ReVoc de constitucion de dadas entà la reconeishença vocau en occitan – que dispausam d’aqueth còrpus formatat :
Audio alinhat* : un totau de 239 h, dont :
— 118 h en occitan gascon
— 114 h en occitan lengadocian
— 7 h en varietats autas.
Nombre de mots : un totau de 7 080 000 mots, dont :
— 3 milions en occitan lengadocian
— 3 milions en occitan gascon
— 1 milion en varietats autas
Un còrpus qui a podut pravar mercés aus 40 signataris de convencions, ja sian institucions de pagèra grana com lo CIRDOC-Institut occitan de cultura, mes tanben maisons d’edicions, ràdios, associacions e contributors particulars, shens desbrembar los contributors de la platafòrma ReVOc.
Que n’èm a temps de har enqüèra pravar en quantitat e diversitat lo còrpus de lenga occitana : n’esitetz pas a juntar aquesta mutualizacion entà bastir amassa los utís de la comunautat occitana de doman !
Lo Congrès permanent de la lenga occitana.
NB : * ua frasa = un fichièr .wav