Diagnostic e huelha de rota entau desvolopament numeric de l'occitan
Lo Congrès permanent de la lenga occitana es urós de vos presentar la restitucion del projècte « Diagnostic e fuèlha de rota pel desvolopament numeric de la lenga occitana».
e çò dens mantun maine"
De ressorsas e utisses numerics plan utiles per l’occitan son estats fargats aquestas darrièras annadas dins mai d’un domeni e gràcias a divèrsas iniciativas. Podèm mençonar, per exemple, pel patrimòni, l’informacion, la documentacion, las produccions en linha qualitadosas del CIRDÒC e tanben de l'InÒc Aquitània, totes dos membres del Congrès, pels contenguts enciclopedics e lexicals la Wikipèdia ont l’occitan es de mai en mai representat, de trabalhs universitaris en cors coma lo Thesòc e BaTeLòc, per l’audiovisual la jove OCtele, etc.
L’estudi de la DGLFLF-Ministèri de la Cultura e de la Comunicacion1 sus la plaça de las lengas de França sus l’Internet parla per l’occitan d’una « remarcabla efervescéncia associativa » qu’es pas de bon mesurar e suggerís amb rason que las novèlas iniciativas se fagan « en collaboracion entre los sectors ».
de las atrunas lingüisticas de referéncia"
Lo Congrès per sa part s’es consacrat tre sa creacion a l’ofèrta als usatgièrs, jos forma numerica, d’apleches lingüistics de referéncia : multidiccionari, conjugador, basa terminologica, basa toponimica, nòrmas e òbras normativas.
O sabèm totes ça que la, l’occitan a encara un grand retard dins lo numeric, mai que mai dins las tecnologias avançadas del lengatge que son ara plan importantas per l’estatut, l’utilizacion e l’avenidor d’una lenga. L’abséncia d’aquelas tecnologias avançadas del lengatge per l’occitan, d’estudis o fan plan veire, es un factor suplementari de marginalizacion per la nòstra lenga.
Es per aquò que Lo Congrès decidiguèt l’an passat de prepausar un metòde e un encastre operacional per se mainar d’aquel domeni de la nauta tecnologia. L’integrèt dins lo programa 2014 presentat a sos membres a l’amassada generala.
e los operators de recèrca, de transmission e de difusion de la lenga"
Es amb l’èime que menèt a la constitucion del Congrès que se causiguèt de metre en plaça un dispositiu collegial qu'associèsse a l’encòp los decideires publics2 e los operators de recèrca, de transmission e de difusion de la lenga3. Aquel larg partenariat que Lo Congrès a volgut deuriá permetre de garantir la qualitat e de facilitar l’apropriacion e la difusion pels diferents actors qu'an participat..
Aqueles trabalhs son estats realizats dins l’encastre d’una « recèrca-accion », çò que vòl dire que los estagiaris, ja, per d’unes, sovent implicats dins aquela mena de trabalh, son estats los actors de lor formacion e los productors del document. De meses, son estats confrontats a la tecnicitat d’aquelas questions del numeric e de las tecnologias avançadas del lengatge.
An rescontrat d’expèrts internacionals, manejats de metòdes e tecnicas novèls per arribar a fargar un diagnostic e prepausar de preconizacions. Podèm pensar qu’aquel biais de far e la còla qu’a trabalhat menaràn una presa de consciéncia dels enjòcs, una dinamica e la creacion d’una cultura comuna susceptibla de melhorar la nòstra expertisa e las practicas dins aqueles domenis.
totas las contribucions complementàrias que son las planvengudas"
Vòli quichar tanben sul fach qu’aquela produccion pòt, plan solide, èsser esmendada, enriquida, melhorada per devenir la basa d’ una accion comuna per las annadas que venon. Totas las contribucions complementàrias seràn planvengudas e calrà far benlèu de prioritats.
Mercegi l’ADEPFO (Associacion pel Desvolopament dels Pirenèus per la Formacion) e los membres del comitat de pilotatge del projècte d’aver bravament sostengut Lo Congrès dins aquela iniciativa qu’auriam pas pogut capitar sens eles.
Mercegi la Fondacion basca Elhuyar e la societat Media.Kom qu'an organizat e enquadrat aqueles trabalhs e nos an fach beneficiar de lor granda experiéncia dins aqueles domenis que mestrejan plan mai que non pas nosautres…
Mercegi Benaset Dazeas, director del Congrès e Aura Seguièr, webmèstra del Congrès per aver aprestat e coordonat aquela formacion e capitat a la menar a bona fin dins lo temps previst. Mercegi totes los qu'an participat al projècte.
de las proposicions de desvolopament entà las annadas a viéner"
Avèm ara de proposicions de desvolopament per las annadas que venon. Nos daissèm pas espaurugar per la terminologia tot còp emplegada dins lo rapòrt : fin finala es question de còrpus de bona lenga per far de bons diccionaris e donar de matèria per diferentas aplicacions, traductor automatic, corrector ortografic, clavièr predictiu, d’aplicacions que per totas las lengas son de mai en mai utilas.
Aquel document es una primièra per l’occitan mas somiem pas. Demòra per far. Sabèm ben que « la fe sens òbras mòrta es » mas cal ben dire tanben que « la fe sens mejans mòrta es ».
Daissarem pas aquelas proposicions dins un tirador. Baste sián la font d’una vertadièra entrepresa collectiva amb per clau una programacion budgetària a la nautor dels enjòcs per la lenga.
D’unes projèctes son amodats mas es indispensable per capitar que los diferents actors, de la recèrca universitària a las entrepresas en passant per las institucions que sostenon l’occitan sián plan associats. Es indispensable tanben que se tròbe de crèdits de la recèrca, de las politicas lingüisticas de l’Estat e de las collectivitats territorialas, de l’Euròpa, de la cooperacion interfrontalièra.
Avèm ben aquí tot un programa.
Gilabèrt Mercadièr
President del Congrès permanent de la lenga occitana
1 Inventaire des ressources linguistiques des langues de France, realizat en aliança dab ELDA, 2014. Estudi complet descargader deu site de la DGLFLF ençà.
2 Ministèri de la Cultura e de la Comunicacion, DRAC Aquitania, Regions Aquitània, Miègjorn-Pirenèus, Lengadòc-Rosselhon, Departament dels Pirenèus-Atlantics, Departament dels Pirenèus-Hauts, Vila de Tolosa.
3 Universitat Tolosa-Jean Jaurès, Lo Congrès permanent de la lenga occitana, CFPÒc Aquitània, CFPO Miègjorn-Pirinèus, CIRDÒC, InÒc Aquitània, Capòc, Edicions Reclams, FIMÒc, OCtele, Ràdio País, Vistedit, collectiu Ça-i.
La purmèra etapa de l'estudi qu'èra de har un diagnostic de l'estat deu numeric occitan. Aqueste qu'a servit de sòla a la definicion e la priorizacion deus besonhs tau calendèr de realizacion.
Inventari de las ressorsas e deus utís numerics occitans
Tà aver ua vision çò mei larga possible, qu'estó hèit un inventari de tots los utís e ressorsas numerics occitans coneguts.
Ressorsas lingüisticas
- Còrpus monolingües de tèxtes
- Recensadas : 27
- Utilizablas : 2
- Còrpus monolingües de paraula
- Recensadas : 28
- Utilizablas : 0
- Còrpus parallèles
- Recensadas : 1
- Utilizablas : 1
- Còrpus multimèdia e multimodaus
- Recensadas : 24
- Utilizablas : 0
- Lexics
- Recensadas : 73
- Utilizablas : 8
- Basas terminologicas
- Recensadas : 21
- Utilizablas : 2
- Tesaurus, Wordnets, ontologias
- Recensadas : 1
- Utilizablas : 1
- Toponimia
- Recensadas : 3
- Utilizablas : 3
- Gramaticas, modèles de lengatge
- Recensadas : 30
- Utilizablas : 0
Utís de tecnologia deu lengatge
- Reconeishença de l'escritura
- Recensadas : 0
- Reconeishença de la paraula
- Recensadas : 0
- Sintèsi vocau
- Recensadas : 0
- Analisi gramaticau
- Recensadas : 6
- Analisi semantica
- Recensadas : 0
- Generacion de tèxte
- Recensadas : 0
- Traduccion automatica
- Recensadas : 2
- Recèrca e extraccion d'informacion
- Recensadas : 0
Autes utís
- Logiciaus disponibles en occitan
- Recensadas: 6
- Utís numerics tà apréner l'occitan
- Recensadas: 4
* Las ressorsas lingüisticas que son estadas separadas en duas categorias : las qui son utilizaderas dirèctament tà un usatge informatic e las qui an besonh d'un tractament mei o mensh pesuc tà poder estar utilizadas tà crear un utís.
Conclusions
Que i a chic d'utís de tecnologia de la lenga. Las ressorsas recensadas que son mei nombrosas, mes pauc utilizaderas (còrpus oraus pas transcriuts, diccionaris sovent ancians o pas OCRizats, gramaticas dedicadas a ua utilizacion pedagogica e pas informatica, question de la validitat e de la qualitat lingüistica tà mantun document...). Que caleré doncas crear ressorsas lingüisticas de sòla abans de poder desvolopar utís.
Experiéncias tà las autas lengas
Dens l'encastre de l'estudi, quate expèrts internacionaus qu'an partatjat la lor experiéncia :
- Lenga basca : Xavier Artola (Ixa, Universitat deu País Basco) ;
- Lenga bretona : Olier Ar Mogn (Ofici public de la lenga bretona) ;
- Lenga catalana : Asunción Moreno (TALP, Universitat Politecnica de Catalonha) ;
- Lenga galesa : Francis M. Tyers (Norgga Árktalaš Universitehta).
Tà çò deus besonhs de la lenga occitana, los intervienents que n'an tirat quate linhas màgers :
- Importància de la planificacion e de har las causas en l'òrdi ;
- Que cau desvolopar tant las ressorsas com los utís ;
- Interès de la cooperacion tà mei d'eficacitat ;
- Importància de las licéncias liuras tà poder partatjar los desvolopaments.
La huelha de rota entau desvolopament numeric de l'occitan qu'utiliza lo metòde de l'estudi de MetaNet (site internet), un hialat europèu d'excelléncia dedicat a la promocion de las fondacions tecnologicas d'ua societat multilingua de l'informacion en Euròpa. Realizada per mei de 200 expèrts internacionaus, aqueth estudi que hè l'estat actuau de las ressorsas e tecnologias deu lengatge entà 30 lengas europèas dens 6 maines : la traduccion automatica, la sintèsi e la reconeishença vocaus, la correccion ortografica, l'analisi semantic, l'analisi gramaticau e la generacion automatica de tèxte.
que s'empleguè lo metòde de MetaNet"
Diagnostic e huelha de rota
Diagnostic e huelha de rota entau desvolopament numeric de la lenga occitana
Que perpausa tanben ua grasilha comuna de classificacion e d'avaloracion de las ressorsas e atrunas numericas. Lo diagnostic de sostien tecnologic de la lenga occitana que'ns permetó de recuélher dadas objectivas tà çò de la situacion numerica de l'occitan (inventari), e, après escambis dab expèrts internacionaus (lengas basca, bretona, catalana e galesa), d'identificar los besonhs. Entad aquestas, la huelha de rota ací devath que perpausa ua projeccion de desvolopament 2015-2019.
Resultat sintetic e projeccion sus las accions a realizar
Qu'avetz un estat deus lòcs actualizat de l'ensemble deu TAL occitan au site de La Farga.
Definicion deus besonhs prioritaris
Abans de precisar l'etapa deus objectius, que determinèm los besonhs prioritaris entà la lenga occitana, qui resultan de l'analisi de l'inventari e de las experiéncias d'autas lengas.
Tipe de ressorsa : Còrpus
Ressorsa a crear : Còrpus textuaus
Tipe de ressorsa : Ressorsas lexicaus
Ressorsa a crear : Basa lexicau monolingüa e basa lexicau bilingua
Tipe de ressorsa : Gramaticas
Ressorsa a crear : Basa gramaticau / Sintaxica
En préner aqueth ensemble de prioritats com punt de partença, lo grop de tribalh que devó precisar los objectius estrategics deu desvolopament de las tecnologias lengatgèras entà l'occitan. Que detalham aqueths objectius dens la seccion seguenta.
Definicion deus objectius
Còrpus
Tipe de ressorsa : Còrpus
Ressorsa a crear : Còrpus textuaus
Objectius
- Tres tipes de còrpus especializats :
-
- Còrpus de tèxtes validats, a partir de documents originaument imprimits ; objectiu : 10 a 25 milions de mots
- Còrpus web : còrpus bastit automaticament en utilizar documents publicats sus Internet ; objectiu : 5 milions de mots
- Còrpus parallèle francés-occitan ; objectiu : 2 a 5 milions
- Caracterizacion de tèxtes inclús : variantas, genre, maine de coneishenças, periòdes, qualitat lingüistica (a definir).
Nivèu d'analisi lingüistica : categoria, puish lèma ; analisi sintaxica (dependéncias).
Realizat
- Projècte « Còrpus » deu Congrès : realizacion d'un còrpus multivarietat e multimodau (monolingüe, bilingüe alinhat, audio alinhat) : https://dicodoc.eu/oc/corpus
En aost de 2022 :
-
- Còrpus monolingüe : 8,5 milions de mots
- Còrpus bilingüe : 1 milion de mots occitans alinhats dab lo francés, 9 000 mots occitans alinhats dab ua auta lenga
- Còrpus audio : 1,5 milion de mots, 250 òras
E tanben :
- BaTelÒc, Basa Textuala per la lenga d'Òc de CLLE-ERSS : còrpus monolingüe de 3,3 milions de mots : http://redac.univ-tlse2.fr/bateloc/
- Linguatec Tolosa Treebank de CLLE-ERSS : còrpus monolingüe de 14 000 mots anotats sintaxicament : https://zenodo.org/record/3708268
- Memòrias de traduccion de mejans.fr : còrpus bilingüe anglés-occitan lengadocian de 150 000 frasas : https://www.mejans.fr/article/memoria-de-traduccion.html
- OcWikiDisc : Còrpus TAL generat a partir de pajas de discussion de la Wikipèdia en occitan (430 000 mots).
- Oscar : Corpus TAL amassat deu web ençà tà bèra ua lenga, dont l'occitan (34 000 mots tà l'occitan).
- Còrpus parallèle Softcatalà : Còrpus d'entrainament du sistème de traduccion neuronau de Softcatalà, dab tèxtes alinhats deu catalan de cap a mei d'ua lenga dont l'occitan lengadocian (46 millions de mots).
- ParCoLaF : Còrpus de tèxtes alinhats en occitan, francés e anglés, de consultar en linha : http://parcolab.univ-tlse2.fr/parcolaf/
- Annotated Corpus for Occitan : Córpus de mei de 12 000 tokens anotats dab las categorias gramaticaus e los lemas.
- OcWikiAnnot : Còrpus tirat de Wikipèdia, annoté en POS et lemmatisé (2 millions de mots).
- Mozilla Common Voice : Còrpus alinhat de frasas audio dab la transcripcion (10 000 mots, 1h45). Dadas amassadas mercés a l'utís en linha Mozilla Common Voice.
- ReVoc : córpus alinhat 136 óras en occitan gascon e 123 en occitan lengadocian.
Objectius
- Caracterizacion de tèxtes inclús : varietats, genre, maine de coneishenças, periòdes, qualitat lingüistica (a definir).
Realizat
-
Varietats e grafias etiquetadas dens lo projècte Còrpus : https://corpus.locongres.com
-
Varietats, grafias e genre etiquetats dens BaTelÒc (Qualitat lingüistica hauta) : http://redac.univ-tlse2.fr/bateloc/
Objectius
- Nivèu d'analisi lingüistic : categoria, puish lèma ; analisi sintaxic (dependéncias).
Realizat
-
Tolosa Linguatec Treebank de CLLE-ERSS anotat sintaxicament : https://zenodo.org/record/3708268
Ressorsas lexicaus
Tipe de ressorsa : Ressorsas lexicaus - lexics / Basas terminologicas
Ressorsa a crear : Basa lexicau monolingua
Objectiu
- Basa de dadas lexicau entà l'occitan : a) enter 500 000 e un milion d'entradas a tèrme (dont las fòrmas flechidas) ; b) informacion sus cada entrada : entrada, lèma, categoria gramaticau, informacions morfosintaxicas, varianta, usatge (iperonimia, maine, registre, geografic…) ligam enter variantas.
Realizat
- Basas de fòrmas flechidas deu Congrès (lèma, categoria gramaticau, flexion, varianta) : lengadocian (900 000 fòrmas) e gascon (1,3 milions de fòrmas).
- Lexic lengadocian-gascon de 50 000 entradas entau ligam enter variantas.
- Diccionari Hunspell de Tot en Òc : 87 000 lèmas : https://gitlab.com/taissou/hunspell-files-for-occitan-lengadocian/-/tree/master/files
- Lista de mots occitans de mejans.fr (occitan lengadocian); 2 milions de fòrmas shens informacion morfosintaxic : https://www.mejans.fr/article/corpus-e-listas-de-mots.html
- Diccionari deus sinonimes deu Congrès de 500 000 mots : https://dicodoc.eu/oc/sinonimia
- Diccionari monolingüe d'Apertium e Revirada : Lista de 220 000 lemas dab las categorias gramaticaus e paradigmes de conjugasons/declinasons.
Tipe de ressorsa : Ressorsas lexicaus - lexics
Ressorsa a crear : Basa lexicau bilingua
Objectiu
- Basa terminologica : lo tribalh terminologic que's hè en foncion de las demandas ligadas a las politicas regionaus ; los objectius dens aqueth camp que deven har compte tanben de las demandas deu conselh deus usatgèrs deu Congrès.
Tipe de ressorsa : Basas terminologicas
Ressorsa a crear : Basa lexicau bilingua
Realizat
- tèrm’Òc, basa terminologica deu Congrès de 60 000 tèrmes (varietat etiquetada).
- Creacion d'ua platafòrma terminologica entà facilitar la creacion de lexics especializats, en perméter ua mei bona comunicacion enter usatgèrs e lingüistas/lexicografes : https://www.termoc.eu
Objectiu
- Basa de dadas lexicau bilingua :
-
- Prioritat francés-occitan
- Catalan-occitan
- Medishs camps com la basa lexicau monolingua
- Orientada cap tà la traduccion automatica
Realizat
- Diccionari occitan-francés e francés-occitan deu traductor automatic Revirada deu Congrès : 170 000 parelhs de traduccionsverificadas (gascon e lengadocian)
- Diccionari occitan-francés e francés-occitan deu traductor automatic Apertium, enriquit peu Congrès dens l'encastre de la construccion de Revirada, libre de drets : 100 000 parelhs de traduccions occitan-francés e francés-occitan verificadas (gascon, lengadocian e aranés) : https://github.com/apertium/apertium-oci-fra/blob/master/apertium-oci-fra.oci-fra.dix
- Basa de dada bruta de 500 000 parelhs de traduccions occitan-francés e francés-occitan, tirada deus diccionaris bilingües (gascons e lengadocians) deu Dicodòc.
- Diccionari occitan-catalan deu traductor automatic Apertium : 24 500 pars de traduccions liures de drets.
- Diccionari occitan-espanhòu deu traductor automatic Apertium : 18 700 pars de traduccions liures de drets.
Gramaticas
Tipe de ressorsa : Gramaticas
Ressorsa a crear : Basa gramaticau / sintaxica
Objectius
- Gramatica descriptiva de l'occitan e de las soas diferentas variantas, concebuda com un ensemble de règlas entà la soa utilizacion ulteriora en informatica (analisaires morfologics e sintaxics automatics).
Realizat
- Fichèr de règlas (haut o baish 2 000) entà l'analisi morfosintaxic deu traductor automatic Revirada deu Congrès.
Tractament de la paraula
Tipe de ressorsa : Tractament de la paraula
Ressorsa a crear : Reconeishença de la paraula
Objectius
- Crear ua vertadèra atruna de reconeishença de la paraula en un temps brac en començant d'identificar e de crear las ressorsas necessàrias au son desvolopament tecnologic. L'interès particular d'aquera atruna que seré la soa utilizacion entau sostitolatge automatic.
Realizat
- Projècte ReVoc deu Congrès (gascon e lengadocian) : constitucion d'un còrpus audio e d'un còrpus textuau dens l'encastre deu projècte « Còrpus » en vista d'entrainar ua intelligéncia artificiau : https://contribuir.locongres.com/revoc
- Projète Araina de Col·lectivaT (occitan aranés) : constitucion d'un còrpus audio via Mozilla Common Voice dab l'objectiu d'entraïnar ua intelligéncia artificiau : https://www.projecte-araina.org/
Tipe d'atruna lingüistica : Tractament de la paraula
Atruna a crear : Sintèsi vocau
Objectius
- Atruna de sintèsi vocau (TTS) :
-
- Entà totas las variantas màgers
- Dus locutors minimum, dab paritat.
Realizat
- Votz, sintèsi vocau deu Congrès entà l'occitan gascon (ua locutora) e l'occitan lengadocian (un locutor) : https://votz.eu/
- Fairseq MMS – ASR : Modèle de reconeishença vocau desvolopat per Facebook tà 1 100 lenga, dab lengas pócas dotadas dont l'occitan.
Deteccion automatica de la lenga
Tipe d'atruna lingüistica : Deteccion automatica de la lenga
Atruna a crear : Detector de l'occitan
Objectius
- Desvolopament d'un detector de tèxtes escriuts en occitan, a partir de las òbras hèitas dinc adara.
Realizat
- Redaccion d'ua notícia entau programa LangId, qui permet de detectar l'occitan au demiei d'un nombre gran d'autas lengas : https://pypi.org/project/langid/
- Divèrs : mei d'un detector de lenga (open source, disponibles via des API ou privats) que comprenen l'occitan, dont dus logiciaus de deteccion de lenga parlada. Veder la liste en l'inventari de La Farga.
Tipe d'atruna lingüistica : Deteccion automatica de la lenga
Atruna a crear : Detector de las variantas de l'occitan
Objectius
- Desvolopament d'un detector de las variantas escriutas de l'occitan (entà totas las variantas).
Realizat
- Desvolopament d'un prumèr detector per Eve Séguier.
- Constitucion d'un còrpus textuel multivariétés dens l'encastre deu projècte Còrpus deu Congrès en vista de melhorar lo detector gràcias a l'intelligéncia artificiau
Analisi gramaticau
Tipe d'atruna lingüistica : Analisi ortografica e gramaticau
Atruna a crear : Correctors ortografics
Objectius
- Corrector ortografic polivalent :
-
- Qui permétia a l'utilizator de causir ua o mantua varianta com referéncia entà la correccion
- Entà tota platafòrma, dab prioritat aus logiciaus libres, mes tanben aus logiciaus mei emplegats :
- Open Office, Libre Office, Microsoft Office
- Modules entaus navigators
- Seguida Adobe, PAO
- Clavèr predictiu e autocorrection entà totas las variantas e entaus telefònes mobiles mei emplegats (Android, iPhone, Windows... o los a viéner). Basat sus las frequéncias deus mots dens d'uns còrpus.
Realizat
- Corrector ortografic dicodòc deu Congrès (occitan gascon e occitan lengadocian) entà Chrome, Firefox, Thunderbird, LibreOffice : 1,6 milion de mots e 7,2 milions de combinasons de mots (tilhets e apostròfas) : https://abrac.at/corrector
- Diccionari Hunspell (LibreOffice, OpenOffice, Firefox, Thunderbird) entà corrector ortografic (occitan lengadocian), creat per Tot en Òc, 87 000 lèmas e 800 règlas de flexion : https://gitlab.com/taissou/hunspell-files-for-occitan-lengadocian/-/tree/master/files
- Dab ua extension entà Firefox : https://addons.mozilla.org/fr/firefox/addon/diccionari-occitan-lengadocian/
- E lo projècte contributiu Dicollecte entà l'enriquir : 87 000 entradas : https://grammalecte.net/home.php?prj=oc
- Corrector ortografic (occitan gascon) entà OpenOffice e Thunderbird de Per Noste : https://www.pernoste.com/telechargement/corrector-ortografic
- Clavèrs dicodòc deu Congrès entà Android (occitan gascon e lengadocian) : 1,6 milion de mots e 7,2 milions de combinasons de mots (tilhets e apostròfas) : https://abrac.at/clavier
- Clavier SwiftKey entà Android e IOS : https://play.google.com/store/apps/details?id=com.touchtype.swiftkey&referrer=utm_hont%3Dwebsite%26utm_medium%3Dsk%26utm_campaign%3Dfooter-menut
Tipe d'atruna lingüistica : Analisi ortografica e gramaticau
Atruna a crear : Analisaires
Objectius
- Desvolopament d'un analisaire morfologic (tagger) deus hòrts a partir de las òbras hèitas dinc adara.
Realizat
- Analisaire morfologic deu traductor Revirada e deu traductor Apertium (occitan gascon, lengadocian e aranés) realizat per Lo Congrès e Apertium : https://github.com/apertium/apertium-oci
- Analisaire sintaxic Talismane : Analisaire morfosintaxic e sintaxic desvolopat per Assaf Urieli en l'encastre de la soa tèsi au sen deu laboratòri CLLE-ERSS. Que l'entraïnè Marianne Vergez-Couret tà l'occitan : http://redac.univ-tlse2.fr/applications/talismane/talismane_en.html
Analisi semantic
Tipe d'atruna lingüistica : Analisi semantic
Atruna a crear : Basa de coneishença lexicau
Objectius
- Desvolopament d'ua atruna d'analisi sintaxic superficiau/pregonda.
Construccion de la purmèra version de basa de coneishença lexicau entà l'occitan (15 000 concèptes), en utilizar las entradas de la basa de dadas lexicau com hont d'informacion entà las variantas de l'occitan.
Realizat
- Preparacion d'ua basa lexicau e d'un bot entà la versar dens Wikidata Lexèmas. Desvolopament d'un serious game entà que la comunautat religue los lexèmas a l'item Wikidata corresponent au lor sens : https://github.com/aitalvivem
Traduccion automatica
Tipe d'atruna lingüistica : Traduccion automatica
Atruna a crear : Traductors automatics
Objectius
- Desvolopament, en reütilizar las òbras existentas, de las atrunas entà la traduccion automatica :
-
- En prioritat, sens occitan → francés (totas las variantas)
- Francés → occitan (lo sistèma que permeterà a l'utilizator de causir ua o mantua varianta com referéncia(s) entà la traduccion ; utilizar lo transcriptor de variantas au besonh)
- Besonh de las atrunas basicas entau parelh occitan-anglés.
Realizat
- Traductor automatic Revirada occitan<->francés deu Congrès (occitan gascon e lengadocian) : https://revirada.eu/
- Traductor automatic Apertium : francés<->occitan (gascon e lengadocian), catalan<->occitan (aranés e lengadocian), espanhòu <-> occitan (aranés e lengadocian).: https://apertium.org
- Traductor automatic Softcatalà occitan (aranés) <-> catalan : https://www.softcatala.org/traductor/
- Los traductors automatics de la Generalitat de Catalunya et d'Opentrad qu'intègran lo traductor Apertium tà los pars de lenga occitan <-> catalan et occitan <-> espanhòu (occitan aranés e lengadocian) : https://traductor.gencat.cat/
- Que's publiquèn per Softcatalà e Facebook (Fairseq Flores101) modèles o escripts tà entraïnar traductors automatics basats sus l'intelligéncia artificiau ont été publiés par Softcatalà et Facebook.
Tipe d'atruna lingüistica : Traduccion automatica
Atruna a crear : Transcriptor automatic enter variantas
Objectius
- Desvolopament d'un convertidor automatic enter variantas, qui tribalha non solament au nivèu deu lexic mes tanben sus la sintaxi. Que permeterà enter autas causas de realizar daubuas atrunas entà ua sola varianta, e de'us poder utilizar apuish dab totas (èx : [traductor francés → occitan lengadocian] + [transcriptor lengadocian → gascon] = [traductor francés → occitan gascon]).
Realizat
- Possibilitat d'utilizar lo traductor automatic Revirada dab lo francés com lenga pivòt entà passar de l'occitan gascon a l'occitan lengadocian, shens tròp de pèrta de qualitat.
Logiciaus disponibles en occitan
Autas atrunas - logiciaus : Logiciaus disponibles en occitan
Atruna a crear : OS + Aplicacions màgers
Objectius
- Traduccion deus logiciaus mei emplegats e deus logiciaus libres (burotica, navigators, corrics, hialats sociaus...).
Realizat
- Voir la liste actualisée des logiciels traduits sur le site de La Farga.
Huelha de rota
Pendent la configuracion d'ua huelha de rota entà la realizacion deus objectius ací dessús, que devem considerar qu'existeishen dependéncias enter eths. Ací devath, que descrivem las dependéncias mei significativas.
Objectiu : Còrpus monolingüe
Ressorsas / atrunas necessàrias : Numerizacion, OCR e conversion de tèxte a un format estandard tractader per un analisaire
Objectiu : Còrpus web
Ressorsas / atrunas necessàrias : Detector de l'occitan - Detector de las variantas de l'occitan
Objectiu : Còrpus parallèle
Ressorsas / atrunas necessàrias : Colleccion de documents bilingües - Memòrias de traduccion (TMX)
Objectiu : Basa lexicau monolingua
Ressorsas / atrunas necessàrias : Diccionaris monolingües au format electronic (MRD)
Objectiu : Basa lexicau bilingua
Ressorsas / atrunas necessàrias : Diccionaris bilingües au format electronic (MRD)
Objectiu : Correctors ortografics
Ressorsas / atrunas necessàrias : Basa lexicau monolingua
Objectiu : Analisaire morfologic (PoS-tagger, lematizaire)
Ressorsas / atrunas necessàrias : Basa lexicau monolingüa - Basa gramaticau
Objectiu : Analisaire sintaxic
Ressorsas / atrunas necessàrias : Analisaire morfologic - Basa gramaticau/sintaxica
Objectiu : Basa de coneishença lexicau
Ressorsas / atrunas necessàrias : Basa lexicau monolingua
Objectiu : Traductors automatics òc → fr (totas las variantas)
Ressorsas / atrunas necessàrias : Basa lexicau bilingüa - Basa gramaticau/sintaxica
Objectiu : Transcriptor automatic enter variantas
Ressorsas / atrunas necessàrias : Basa lexicau monolingüa - Basa gramaticau/sintaxica
Objectius e interdependéncias
Lo diagrama ací devath que repren los elements en separar los objectius en tres seccions (ressorsas, atrunas intermediàrias, atrunas finaus) e en muishar las interdependéncias enter los « blòcs » : per exemple que hè besonh un analisaire morfosintaxic entà un traductor automatic, en saber que'u hè besonh en amont ua basa lexicau monolingua e modèles gramaticaus. Un còrpus parallèle que pòt tanben ajudar a'u perfeccionar. Aquera lectura que permet ua vision estructurada de las òbras e de considerar la planificacion deus programas operacionaus.
Glossari
Modèles gramaticaus e modèles de lengatge : gramatica descriptiva de l'occitan organizada com un ensemble de règlas entà ua utilizacion informatica (sustot entà çò qui tòca los analisaires morfologics e sintaxic) dab lexics e còrpus anotats.
Basa lexicau monolingua : basa d'ua partida grana de las autas ressorsas e de las atrunas desvolopadas, a la basa lexicau monolingua qu'i caben ua lista de mots occitans, dab la categoria gramaticau (tipe, genre, nombre, etc.), las fòrmas flechidas (femenin, plurau, conjugasons, etc.), la varianta e eventuaument informacions tà çò de l'usatge (maine, registre, etc.). Que i aurà tanben lo ligam enter dus medishs mots entà mantua varianta.
Basa lexicau bilingua : basa principau entà la traduccion automatica. Qu'i caben entradas en occitan qui an los medishs camps com la basa lexicau monolingua, mes tanben la soa (las soas) traduccion(s) en francés (que's pòt considerar a tèrme çò d'equivalent en catalan).
Basa de coneishença lexicau : que s'ageish d'ua basa de coneishença ligant los mots o los concèptes enter eths, dab relacions de categoria (ua poma qu'ei un frut), de camp lexicau (pan e cotèth), de derivacion (passat e passacion), etc. WordNet, per exemple, qu'ei ua basa de coneishença lexicau.
Còrpus : un còrpus qu'ei un ensemble de documents amassats dab ua mira precisa. Dens lo maine deus TAL (Tractament automatic deu lengatge), los còrpus textuaus que son plan utiles entà perfeccionar las atrunas gràcias a estatisticas suus mots e la lenga. Per exemple, entà un traductor automatic, lo còrpus parallèle francés-occitan que permeterà de saber que, estatisticament, lo nom francés « son » qu'ei mei sovent tradusit per « son » que per « bren ».
Còrpus monolingüe especializat : aqueth tipe de còrpus qu'amassa ua massa de tèxtes en occitan qui atèstan d'un usatge referenciau de la lenga dens diferents maines (literatura, premsa, recèrca). Que son indispensables a la creacion de las atrunas e de las autas ressorsas.
Còrpus monolingüe web : colleccion de tèxtes en occitan presents sus Internet, shens seleccion en tèrme de qualitat lingüistica. Que servirà mei que mei a las estatisticas entà perfeccionar las atrunas.
Còrpus parallèle : còrpus qui amassa tèxtes qui an au mensh duas versions corresponent a duas lengas diferentas. Lo còrpus parallèle occitan que serà un còrpus occitan-francés (sites web institucionaus, memòrias, etc.).
Ressorsas entà la reconeishença de la paraula : segon la huelha de rota, qu'ei impossible de crear ua vertadèra atruna de reconeishença de la paraula (creacion d'escriut a partir d'un document orau) abans 2019. Que cau començar per identificar e crear las ressorsas necessàrias a ua tau tecnologia. Que poirà estar utilizada, per exemple, entà har sostitolatge automatic.
Detector de l'occitan : que s'ageish d'ua atruna permetent de detectar automaticament si un tèxte ei en occitan.
Detector de las variantas de l'occitan : que s'ageish d'ua atruna permetent de detectar automaticament la varianta occitana d'un tèxte.
Analisaire morfologic (lematizaire) : un lematizaire qu'ei ua atruna d'analisi morfosintaxic deu contiengut d'un tèxte. Qu'assòcia cada mot a la soa fòrma « canonica » (infinitiu entaus vèrbes, masculin singular entaus adjectius, etc.), la categoria gramaticau o partida d'un discors, lo genre, lo nombre, lo temps e lo mòde, la persona (èx : que parli → purmèra persona/singular, indicatiu present deu vèrbe parlar). Qu'i caben tanben informacions semanticas e referenciaus (definitud, qüantificacion, animat/non animat, uman/non uman, etc.).
Analisaire sintaxic (parser) : que met en evidéncia l'estructura d'ua frasa. L'analisi que balha la faiçon dont los mots son combinats dens un tèxte. Que permet de conéisher las relacions de dependéncia deus sintagmas (grops de mots qui an ua foncion particulara dens la frasa, per exemple lo subjècte).
Traductors automatics : que permeteràn, a partir d'un tèxte en occitan, d'obtiéner automaticament ua traduccion en francés, e invèrsament. Gràcias au transcriptor de variantas, que serà possible d'obtiéner la traduccion en francés en quina varianta e de que quina varianta ençà que sia.
Transcriptor automatic enter variantas : que fonciona segon lo medish principi qu'un traductor automatic. Que permeterà, a partir d'un tèxte dens ua varianta de l'occitan, d'obtiéner automaticament ua version dens ua auta varianta.
Corrector ortografic polivalent : entà muishar l'unitat de la lenga en lo respècte de la soa diversitat, l'idèa qu'ei d'aver un sol corrector ortografic qui perpausa ua correccion dens totas las variantas. L'utilizator que poirà causir la o las varianta(s) qui desira entà la correccion. Lo corrector que serà suus logiciaus mei emplegats dab ua prioritat aus formats libres, shens estremar los comerciaus totun (LibreOffice, OpenOffice, Microsoft Office, navigators, logiciaus clients entaus corrics, seguida Adobe, etc.).
Clavèr predictiu e autocorrection : aquera atruna que servirà entaus telefònes mobiles, per exemple entà suggerir o corregir mots dens los SMS. Que permeterà de causir la soa varianta e que's poirà installar suus sistèmas d'espleitacions mei corrents.
Sintèsi vocau : que consisteish a la creacion de documents oraus a partir de documents escriuts. Qu'ei per exemple emplegada entà léger los noms de carrèra dens los GPS, entaus logiciaus d'assisténcia au monde uelhfebles...
OS e aplicacions màgers : l'idèa qu'ei de perpausar entaus ordenadors un sistèma d'espleitacion sancèrament en occitan, dab los logiciaus mei corrents tanben tradusits (burotica, navigators, clients de corric, etc.).