Lo Congrès permanent de la lenga occitana e lo laboratòri CLLE-ERSS (CNRS / Universitat Tolosa-Jean-Jaurés) qu'avièn ua associacion qui a per mira la creacion d'un lexic obèrt de las fòrmas flechidas de l'occitan (LOFlOc).
Aquera iniciativa que's hè dens l'encastre de Restaure (Ressorsas informatizadas e tractament automatic entà las lengas regionaus), un projècte ANR (Agéncia nacionau de la recèrca) qui ved a s'associar CLLE-ERSS (Universitat de Tolosa), LESCALP (Universitat d'Amiens) e LILPA (Universitat d'Estrasborg) a l'entorn deu desvolopament de las ressorsas informaticas e de las atrunas de tractament automatic entà tres lengas regionaus de França : alsacian, occitan e picard.
Dens la seguida deu Morphalou entau francés o deu Lexic Obert Flexionat de Català, Lofloc que serà un lexic de las fòrmas flechidas d'un lèma, a saber ua basa lexicau monolingua a on cab ua lista de mots occitans dab la categoria gramaticau (tipe, genre, nombre, etc.), las fòrmas flechidas (feminin, plurau, conjugason, etc.) e la varietat.
Inscrivut au demiei deus desvolopaments prioritaris de la huelha de rota de desvolopament numeric de l'occitan, Lofloc qu'ei ua ressorsa indispensabla a l'anotacion deus còrpus textuaus, mes tanben a la creacion d'aplicacions numericas taus com la sasida predictiva e la correccion ortografica.
Dens l'encastre de l'aperet a projèctes 2021 de l'Euroregion Novèla Aquitània/Euskadi/Navarra, qu’estó retiengut lo Congrès dab dus partenaris bascos, las fondacions bascas Elhuyar e Euskokultur, entà un programa triennau de desvolopament de transcriptor automatic de video enter las lengas occitana, basca, francesa e espanhòla. Que s’i parla de desvolopar un transcriptor automatic de la paraula en occitan e en las divèrsas lengas parladas en Navarra (basco e espanhòu). Concrètament, la tecnologia que permeterà, a partir d'ua video enregistrada, de tirar e de transcríver la votz, de l'arrevirar (en foncion deus parelhs de lengas disponibles), puish de generar e d'integrar automaticament sostítols dens la video. A la sortida, que s'obtienerà automaticament ua video dab lo son originau e ua revirada sostitolada.
Sòcis tecnics
Dab lo sostien de
La reconeishença vocau qu'ei l'utís qui analisa la votz e qui la transcriu dab la fòrma d'un tèxte escriut. Que hè partida de las tecnologias de tractament de la paraula qui permeten aus umans d'escambiar oraument dab las maquinas, mercés a interfàcias vocaus.
La reconeishença vocau qu'ei indispensabla tà realizar utís com lo sostitolatge automatic de video, las aplicacions de dictada vocau o los assistents personaus intelligents.
de reconeishença vocau"
Lo Congrès permanent de la lenga occitana que participa a un programa transfronterèr triennau dab lo prètzhèit de dotar l'occitan (tà las soas varietats gascona e lengadociana) d'aquera tecnologia.
Que tribalha en partenariat dab Rolde de Estudios Aragoneses (qui desvolòpa la medisha tecnologia entà la lenga aragonesa), la fondacion basca Elhuyar (en carga de la partida tecnica deu programa) e mei d'ua estructura qui produseishen contienguts multimèdias en occitan.
Perqué la reconeishença vocau en occitan ?
Las tecnologias de la lenga – reconeishença vocau, sintèsi vocau, traduccion automatica o enqüèra analisi semantic – que son un enjòc vitau entà las lengas minorizadas. Entà projectà's de cap a ua societat mei anar mei numerizada, aquestas qu'an de dispausar de ressorsas e apèrs de qui cau entà que los locutors escàmbien en la lor lenga pròpia peu mejan d'interfacis. Mei d'un programa qu'estón realizats en aqueth sens entà la lenga occitana : Linguatec (traduccion automatica e sintèsi vocau), BaTelOc (basa textuau occitana), ROLF (clavèrs predictius).
que permet la transcripcion de la votz en tèxte"
La reconeishença vocau que permet la transcripcion de la votz en tèxte, ua tecnologia qui ei d'ara enlà difusada en abonde en aplicacions gran public, notadament peus assistents personaus (Siri d'Apple, Google Home o enqüèra Alexa d'Amazon entaus mei coneishuts) e tau sostitolatge automatic de video.
Exemples d'utilizacion de la reconeishença vocau
Assistents personaus
« Òc ben, Google ! » Lo desvolopament de la reconeishença vocau que permeterà de passar los assistents personaus en occitan !
Sostitolatge de videos
Un programa de reconeishença vocau que permeterà lo sostitolatge automatic de videos dens mantua lenga.
Transcripcion automatica
Un module de transcripcion automatica basat sus la reconeishença vocau qu'ajudarà lo tribalh deus lingüistas.
Demostracion
Demostracions de la reconeishença vocau basca e espanhòla d'Elhuyar.
La platafòrma de contribucion
Entà atraçar ua quantitat bèra d'enregistraments transcriuts, e qui sian representatius de la diversitat deus locutors de l'occitan, Lo Congrès que desvolopè un utís de contribucion tà la comunautat. Sus aquera platafòrma, cadun que pòt enregistrar frasas qui seràn ajustadas au còrpus bastit dab los partenaris.
La reconeishença vocau, com fonciona ?
La reconeishença vocau qu'utiliza l'intelligéncia artificiau (los hialats neuronaus) tà transcríver automaticament la votz en tèxte escriut.
Abans d'ac poder har, que hè besonh d'entrainar l'IA dab frasas audio dejà transcriutas. Que hè doncas besonh un bèth còrpus audio transcriut, qu'ei a díser ua quantitat bèra de tèxtes dab los enregistraments audios correspondents.
Que cau tanben « har pèisher » la maquina dab còrpus bèth de tèxte e sonque. Atau que pòt apréner quaus fòrmas e son frequentas, quau mot apareish sovent a costat de tau aute...
Enfin, desvolopar que cau mei d'un programa :
- Un tà passar en letras los nombres, los simbèus, las abreviacions, las unitats de mesura... abans de balhar un tèxte a la maquina.
- Un « abreviator » qui hè lo contra, tà har mei legeders los tèxtes prepausats aus utilizators.
- Un fonetizaire tà obtiéner la prononciacion en alfabet fonetic internacionau d'un mot.
- Un programa tà aver tots los mots qui corresponen a ua prononciacion.
Las etapas de l'entrainament e de la transcripcion
Lo calendari
2020 : Definicion de las exigéncias, especificacions foncionaus e constitucion deu còrpus
Que's haràn en ua purmèra etapa las exigéncias tecnicas atau com las especificacions foncionaus.
D'un punt de vista tecnic, los desvolopaments entà l'occitan que seràn realizats en l'estat de l'art, a saber per l'utilizacion deus hialats neuronaus (intelligéncia artificiau). Ad aquesta tecnologia de tria que'u hè totun besonh un nombre hòrt important de dadas. Sonque un còrpus ric, voluminós e variat que guarantirà un resultat de qualitat en fin de cadena.
Entad aquò har, lo Congrès qu'a engatjat un partenariat dab mantuns productors de contienguts textuaus multimèdias en occitan : institucions, mèdias, editors, productors de contienguts audiovisuaus...
Qu'ei pr'amor d'aquò aquesta purmèra fasa que serà essenciaument consacrada a un tribalh de collècta, tractament (alinhament tèxte/son) e enterpausatge de còrpus textuaus e acostics per l'occitan. Que s'estiman a 200 òras haut o baish lo besonh de transcripcions e a 500 milions de mots lo còrpus textuau necessari per cada varietat. Pr'amor d'estar l'occitan ua lenga enqüèra tròp chic dotada, que compensaram per l'utilizacion de còrpus gigants deu francés e de l'espanhòu per obtiéner, mercés a la traduccion automatica, còrpus textuaus occitans importants.
2021 : Finalizacion e desvolopament tecnologic
Ua part bèra deu projècte que's harà ad aqueth moment : acabar la collècta de las dadas necessàrias, realizar tres deus quate lòts de tribalh mei tecnics entà arribar a ua version avançada deu desvolopament. Concrètament, que prevedem au mensh ua mesa en òbra avançada deus modules seguents :
- Creacion deu modèle lingüistic.
- Creacion deu modèle acostic.
- Desvolopament deu transcriptor.
2022 : Desvolopament finau e validacion
Dens la purmèra partida d'aquesta fasa darrèra, tots los desvolopaments tecnologics deu projècte que seràn acabats. La fasa de construccion deus transcriptors que serà tanben acabada. Integradas totas las compausantas tecnologicas, que seràn sosmetudas a ua seria de tèsts intensius d'avaloracion.
Los actors
Sòcis e sostiens
ReVOc qu'ei un programa navèth de desvolopament de la reconeishença vocau en occitan (varietats gascona e lengadociana) engatjat peu Congrès permanent de la lenga occitana. Aqueth programa triennau (2020-2022) que's debana dens l'encastre d'un partenariat transfronterèr qui assòcia l'institucion aragonesa Rolde de Estudios Aragoneses (qui desvoloparà la medisha tecnologia entà la lenga aragonesa) e la fondacion basca Elhuyar (en carga de la partida tecnica deu programa). Qu'a lo sostien financèr de la Region Novèla Aquitània, de la Region Occitània e deu Departament deus Pirenèus Atlantics (aperets a projèctes transfronterèrs).
Lo partenariat tà la constitucion deus còrpus
Tà entrainar l'intelligéncia artificiau, que cau quantitats granas de dadas. L'occitan, lenga dita « pauc dotada », n'a pas generaument aqueths ensembles de dadas. Tà constituir lo còrpus audio e lo còrpus textuau qui hèn mestièr au desvolopament de la reconeishença vocau, Lo Congrès non podè har-s'i solet.
Que's bastí doncas un partenariat d'ua pagèra inedita tà çò de l'occitan, tà constituir ua basa audio e textuau a la quau mei d'ua estructura e vienón portar la lor contribucion.
E tanben
- Miquèu Baris
- Bernat Bergé
- Danís Chapduèlh
- David Escarpit
- David Grosclaude
- Gérard Sabadel
- Lo Blòg Hadiu
Lo Congrès permanent de la lenga occitana qu’a aviat ua aliança transfronterèra – LINGUATEC – dens l’encastre deu dusau aperet a projèctes deu programa 2014-2020 deu POCTEFA (Programa de cooperacion transfronterèra Espanha-França-Andòrra, finançat peus fons europèus FEDER).
LINGUATEC qu’ei un projècte de compte har de desvolopament de las ressorsas e deus utís numerics de las lengas pirenencas qui amassa lo Congrès permanent de la lenga occitana (Navèra Aquitània), Euskaltzaindia-Real academia de la lengua vasca, la Universidad del País vasco/Euskal Herriko Unibertsitatea, la fondacion Elhuyar (Euskadi), la Sociedad de gestión e de promoción del turismo aragonés – SLU (Aragon), lo CNRS-Delegacion regionau de Mieidia-Pirenèus (Occitània). L'Ofici public de la lenga basca, l'Ofici public de la lenga occitana, l'Institut occitan Aquitània et le CIRDÒC (Occitània) que son membres associats deu projècte.
entau dévelopement d'atrunas numericas"
L’objectiu qu’ei - mercés a la cooperacion transfronterèra e lo transferiment de technologias - de desvolopar e espandir ressorsas navèras e aplicacions linguisticas innovantas tà l’aragonés, lo basco e l’occitan : traductors automatics, reconeishença vocau, sintèsi vocau, corrector ortografic, analisi sintaxic e morfosintaxic. Aqueths utís numerics de difusion bèra qu’an l’objectiu de contribuir au desvolopament e a l’intercompreneson numerica enter las divèrsas lengas atau com l’amelhorança de la lor transmission e de la lor difusion.
Aquera iniciativa que repren tanben los èishs màgers deu diagnostic e de la huelha de rota de desvolopament numeric de l’occitan gavidat per l’ADEPFO en 2014. Aqueth document-quadre, au quau èran associats representants deu Ministèri de la Cultura e de collectivitats, que perpausa un programa d’accion tà desvolopar las ressorsas numericas tà l’occitan. Com ac dit l’estudi europèu Meta-Net, qu’ei un enjòc deus màgers tà l’aviéner de las lengas - e donc de las politicas lingüisticas - au quau e’s pòt respóner de faiçon eficaça dab un minimum de metodologia e de mejans.
de Desvolopament Regionau"
LINGUATEC (EFA227/16) « Desvolopament de la cooperacion transfronterèra e deu transferiment de coneishença en tecnologias de la lenga » qu’ei un programa retiengut peu segond aperet a projèctes deu Programa de Cooperacion Territoriau Espanha-França-Andòrra POCTEFA (2014-2020) qui a per objectiu lo transferiment de tecnologias e lo desvolopament de ressorsas e d’aplicacions lingüisticas innovantas en aragonés, basco e occitan.
Mei d'entresenhas sus : linguatec-poctefa.eu
Diagnostic e huelha de rota entau desvolopament numeric de l'occitan
Lo Congrès permanent de la lenga occitana es urós de vos presentar la restitucion del projècte « Diagnostic e fuèlha de rota pel desvolopament numeric de la lenga occitana».
e çò dens mantun maine"
De ressorsas e utisses numerics plan utiles per l’occitan son estats fargats aquestas darrièras annadas dins mai d’un domeni e gràcias a divèrsas iniciativas. Podèm mençonar, per exemple, pel patrimòni, l’informacion, la documentacion, las produccions en linha qualitadosas del CIRDÒC e tanben de l'InÒc Aquitània, totes dos membres del Congrès, pels contenguts enciclopedics e lexicals la Wikipèdia ont l’occitan es de mai en mai representat, de trabalhs universitaris en cors coma lo Thesòc e BaTeLòc, per l’audiovisual la jove OCtele, etc.
L’estudi de la DGLFLF-Ministèri de la Cultura e de la Comunicacion1 sus la plaça de las lengas de França sus l’Internet parla per l’occitan d’una « remarcabla efervescéncia associativa » qu’es pas de bon mesurar e suggerís amb rason que las novèlas iniciativas se fagan « en collaboracion entre los sectors ».
de las atrunas lingüisticas de referéncia"
Lo Congrès per sa part s’es consacrat tre sa creacion a l’ofèrta als usatgièrs, jos forma numerica, d’apleches lingüistics de referéncia : multidiccionari, conjugador, basa terminologica, basa toponimica, nòrmas e òbras normativas.
O sabèm totes ça que la, l’occitan a encara un grand retard dins lo numeric, mai que mai dins las tecnologias avançadas del lengatge que son ara plan importantas per l’estatut, l’utilizacion e l’avenidor d’una lenga. L’abséncia d’aquelas tecnologias avançadas del lengatge per l’occitan, d’estudis o fan plan veire, es un factor suplementari de marginalizacion per la nòstra lenga.
Es per aquò que Lo Congrès decidiguèt l’an passat de prepausar un metòde e un encastre operacional per se mainar d’aquel domeni de la nauta tecnologia. L’integrèt dins lo programa 2014 presentat a sos membres a l’amassada generala.
e los operators de recèrca, de transmission e de difusion de la lenga"
Es amb l’èime que menèt a la constitucion del Congrès que se causiguèt de metre en plaça un dispositiu collegial qu'associèsse a l’encòp los decideires publics2 e los operators de recèrca, de transmission e de difusion de la lenga3. Aquel larg partenariat que Lo Congrès a volgut deuriá permetre de garantir la qualitat e de facilitar l’apropriacion e la difusion pels diferents actors qu'an participat..
Aqueles trabalhs son estats realizats dins l’encastre d’una « recèrca-accion », çò que vòl dire que los estagiaris, ja, per d’unes, sovent implicats dins aquela mena de trabalh, son estats los actors de lor formacion e los productors del document. De meses, son estats confrontats a la tecnicitat d’aquelas questions del numeric e de las tecnologias avançadas del lengatge.
An rescontrat d’expèrts internacionals, manejats de metòdes e tecnicas novèls per arribar a fargar un diagnostic e prepausar de preconizacions. Podèm pensar qu’aquel biais de far e la còla qu’a trabalhat menaràn una presa de consciéncia dels enjòcs, una dinamica e la creacion d’una cultura comuna susceptibla de melhorar la nòstra expertisa e las practicas dins aqueles domenis.
totas las contribucions complementàrias que son las planvengudas"
Vòli quichar tanben sul fach qu’aquela produccion pòt, plan solide, èsser esmendada, enriquida, melhorada per devenir la basa d’ una accion comuna per las annadas que venon. Totas las contribucions complementàrias seràn planvengudas e calrà far benlèu de prioritats.
Mercegi l’ADEPFO (Associacion pel Desvolopament dels Pirenèus per la Formacion) e los membres del comitat de pilotatge del projècte d’aver bravament sostengut Lo Congrès dins aquela iniciativa qu’auriam pas pogut capitar sens eles.
Mercegi la Fondacion basca Elhuyar e la societat Media.Kom qu'an organizat e enquadrat aqueles trabalhs e nos an fach beneficiar de lor granda experiéncia dins aqueles domenis que mestrejan plan mai que non pas nosautres…
Mercegi Benaset Dazeas, director del Congrès e Aura Seguièr, webmèstra del Congrès per aver aprestat e coordonat aquela formacion e capitat a la menar a bona fin dins lo temps previst. Mercegi totes los qu'an participat al projècte.
de las proposicions de desvolopament entà las annadas a viéner"
Avèm ara de proposicions de desvolopament per las annadas que venon. Nos daissèm pas espaurugar per la terminologia tot còp emplegada dins lo rapòrt : fin finala es question de còrpus de bona lenga per far de bons diccionaris e donar de matèria per diferentas aplicacions, traductor automatic, corrector ortografic, clavièr predictiu, d’aplicacions que per totas las lengas son de mai en mai utilas.
Aquel document es una primièra per l’occitan mas somiem pas. Demòra per far. Sabèm ben que « la fe sens òbras mòrta es » mas cal ben dire tanben que « la fe sens mejans mòrta es ».
Daissarem pas aquelas proposicions dins un tirador. Baste sián la font d’una vertadièra entrepresa collectiva amb per clau una programacion budgetària a la nautor dels enjòcs per la lenga.
D’unes projèctes son amodats mas es indispensable per capitar que los diferents actors, de la recèrca universitària a las entrepresas en passant per las institucions que sostenon l’occitan sián plan associats. Es indispensable tanben que se tròbe de crèdits de la recèrca, de las politicas lingüisticas de l’Estat e de las collectivitats territorialas, de l’Euròpa, de la cooperacion interfrontalièra.
Avèm ben aquí tot un programa.
Gilabèrt Mercadièr
President del Congrès permanent de la lenga occitana
1 Inventaire des ressources linguistiques des langues de France, realizat en aliança dab ELDA, 2014. Estudi complet descargader deu site de la DGLFLF ençà.
2 Ministèri de la Cultura e de la Comunicacion, DRAC Aquitania, Regions Aquitània, Miègjorn-Pirenèus, Lengadòc-Rosselhon, Departament dels Pirenèus-Atlantics, Departament dels Pirenèus-Hauts, Vila de Tolosa.
3 Universitat Tolosa-Jean Jaurès, Lo Congrès permanent de la lenga occitana, CFPÒc Aquitània, CFPO Miègjorn-Pirinèus, CIRDÒC, InÒc Aquitània, Capòc, Edicions Reclams, FIMÒc, OCtele, Ràdio País, Vistedit, collectiu Ça-i.
La purmèra etapa de l'estudi qu'èra de har un diagnostic de l'estat deu numeric occitan. Aqueste qu'a servit de sòla a la definicion e la priorizacion deus besonhs tau calendèr de realizacion.
Inventari de las ressorsas e deus utís numerics occitans
Tà aver ua vision çò mei larga possible, qu'estó hèit un inventari de tots los utís e ressorsas numerics occitans coneguts.
Ressorsas lingüisticas
- Còrpus monolingües de tèxtes
- Recensadas : 27
- Utilizablas : 2
- Còrpus monolingües de paraula
- Recensadas : 28
- Utilizablas : 0
- Còrpus parallèles
- Recensadas : 1
- Utilizablas : 1
- Còrpus multimèdia e multimodaus
- Recensadas : 24
- Utilizablas : 0
- Lexics
- Recensadas : 73
- Utilizablas : 8
- Basas terminologicas
- Recensadas : 21
- Utilizablas : 2
- Tesaurus, Wordnets, ontologias
- Recensadas : 1
- Utilizablas : 1
- Toponimia
- Recensadas : 3
- Utilizablas : 3
- Gramaticas, modèles de lengatge
- Recensadas : 30
- Utilizablas : 0
Utís de tecnologia deu lengatge
- Reconeishença de l'escritura
- Recensadas : 0
- Reconeishença de la paraula
- Recensadas : 0
- Sintèsi vocau
- Recensadas : 0
- Analisi gramaticau
- Recensadas : 6
- Analisi semantica
- Recensadas : 0
- Generacion de tèxte
- Recensadas : 0
- Traduccion automatica
- Recensadas : 2
- Recèrca e extraccion d'informacion
- Recensadas : 0
Autes utís
- Logiciaus disponibles en occitan
- Recensadas: 6
- Utís numerics tà apréner l'occitan
- Recensadas: 4
* Las ressorsas lingüisticas que son estadas separadas en duas categorias : las qui son utilizaderas dirèctament tà un usatge informatic e las qui an besonh d'un tractament mei o mensh pesuc tà poder estar utilizadas tà crear un utís.
Conclusions
Que i a chic d'utís de tecnologia de la lenga. Las ressorsas recensadas que son mei nombrosas, mes pauc utilizaderas (còrpus oraus pas transcriuts, diccionaris sovent ancians o pas OCRizats, gramaticas dedicadas a ua utilizacion pedagogica e pas informatica, question de la validitat e de la qualitat lingüistica tà mantun document...). Que caleré doncas crear ressorsas lingüisticas de sòla abans de poder desvolopar utís.
Experiéncias tà las autas lengas
Dens l'encastre de l'estudi, quate expèrts internacionaus qu'an partatjat la lor experiéncia :
- Lenga basca : Xavier Artola (Ixa, Universitat deu País Basco) ;
- Lenga bretona : Olier Ar Mogn (Ofici public de la lenga bretona) ;
- Lenga catalana : Asunción Moreno (TALP, Universitat Politecnica de Catalonha) ;
- Lenga galesa : Francis M. Tyers (Norgga Árktalaš Universitehta).
Tà çò deus besonhs de la lenga occitana, los intervienents que n'an tirat quate linhas màgers :
- Importància de la planificacion e de har las causas en l'òrdi ;
- Que cau desvolopar tant las ressorsas com los utís ;
- Interès de la cooperacion tà mei d'eficacitat ;
- Importància de las licéncias liuras tà poder partatjar los desvolopaments.
La huelha de rota entau desvolopament numeric de l'occitan qu'utiliza lo metòde de l'estudi de MetaNet (site internet), un hialat europèu d'excelléncia dedicat a la promocion de las fondacions tecnologicas d'ua societat multilingua de l'informacion en Euròpa. Realizada per mei de 200 expèrts internacionaus, aqueth estudi que hè l'estat actuau de las ressorsas e tecnologias deu lengatge entà 30 lengas europèas dens 6 maines : la traduccion automatica, la sintèsi e la reconeishença vocaus, la correccion ortografica, l'analisi semantic, l'analisi gramaticau e la generacion automatica de tèxte.
que s'empleguè lo metòde de MetaNet"
Diagnostic e huelha de rota
Diagnostic e huelha de rota entau desvolopament numeric de la lenga occitana
Que perpausa tanben ua grasilha comuna de classificacion e d'avaloracion de las ressorsas e atrunas numericas. Lo diagnostic de sostien tecnologic de la lenga occitana que'ns permetó de recuélher dadas objectivas tà çò de la situacion numerica de l'occitan (inventari), e, après escambis dab expèrts internacionaus (lengas basca, bretona, catalana e galesa), d'identificar los besonhs. Entad aquestas, la huelha de rota ací devath que perpausa ua projeccion de desvolopament 2015-2019.
Resultat sintetic e projeccion sus las accions a realizar
Qu'avetz un estat deus lòcs actualizat de l'ensemble deu TAL occitan au site de La Farga.
Definicion deus besonhs prioritaris
Abans de precisar l'etapa deus objectius, que determinèm los besonhs prioritaris entà la lenga occitana, qui resultan de l'analisi de l'inventari e de las experiéncias d'autas lengas.
Tipe de ressorsa : Còrpus
Ressorsa a crear : Còrpus textuaus
Tipe de ressorsa : Ressorsas lexicaus
Ressorsa a crear : Basa lexicau monolingüa e basa lexicau bilingua
Tipe de ressorsa : Gramaticas
Ressorsa a crear : Basa gramaticau / Sintaxica
En préner aqueth ensemble de prioritats com punt de partença, lo grop de tribalh que devó precisar los objectius estrategics deu desvolopament de las tecnologias lengatgèras entà l'occitan. Que detalham aqueths objectius dens la seccion seguenta.
Definicion deus objectius
Còrpus
Tipe de ressorsa : Còrpus
Ressorsa a crear : Còrpus textuaus
Objectius
- Tres tipes de còrpus especializats :
-
- Còrpus de tèxtes validats, a partir de documents originaument imprimits ; objectiu : 10 a 25 milions de mots
- Còrpus web : còrpus bastit automaticament en utilizar documents publicats sus Internet ; objectiu : 5 milions de mots
- Còrpus parallèle francés-occitan ; objectiu : 2 a 5 milions
- Caracterizacion de tèxtes inclús : variantas, genre, maine de coneishenças, periòdes, qualitat lingüistica (a definir).
Nivèu d'analisi lingüistica : categoria, puish lèma ; analisi sintaxica (dependéncias).
Realizat
- Projècte « Còrpus » deu Congrès : realizacion d'un còrpus multivarietat e multimodau (monolingüe, bilingüe alinhat, audio alinhat) : https://dicodoc.eu/oc/corpus
En aost de 2022 :
-
- Còrpus monolingüe : 8,5 milions de mots
- Còrpus bilingüe : 1 milion de mots occitans alinhats dab lo francés, 9 000 mots occitans alinhats dab ua auta lenga
- Còrpus audio : 1,5 milion de mots, 250 òras
E tanben :
- BaTelÒc, Basa Textuala per la lenga d'Òc de CLLE-ERSS : còrpus monolingüe de 3,3 milions de mots : http://redac.univ-tlse2.fr/bateloc/
- Linguatec Tolosa Treebank de CLLE-ERSS : còrpus monolingüe de 14 000 mots anotats sintaxicament : https://zenodo.org/record/3708268
- Memòrias de traduccion de mejans.fr : còrpus bilingüe anglés-occitan lengadocian de 150 000 frasas : https://www.mejans.fr/article/memoria-de-traduccion.html
- OcWikiDisc : Còrpus TAL generat a partir de pajas de discussion de la Wikipèdia en occitan (430 000 mots).
- Oscar : Corpus TAL amassat deu web ençà tà bèra ua lenga, dont l'occitan (34 000 mots tà l'occitan).
- Còrpus parallèle Softcatalà : Còrpus d'entrainament du sistème de traduccion neuronau de Softcatalà, dab tèxtes alinhats deu catalan de cap a mei d'ua lenga dont l'occitan lengadocian (46 millions de mots).
- ParCoLaF : Còrpus de tèxtes alinhats en occitan, francés e anglés, de consultar en linha : http://parcolab.univ-tlse2.fr/parcolaf/
- Annotated Corpus for Occitan : Córpus de mei de 12 000 tokens anotats dab las categorias gramaticaus e los lemas.
- OcWikiAnnot : Còrpus tirat de Wikipèdia, annoté en POS et lemmatisé (2 millions de mots).
- Mozilla Common Voice : Còrpus alinhat de frasas audio dab la transcripcion (10 000 mots, 1h45). Dadas amassadas mercés a l'utís en linha Mozilla Common Voice.
- ReVoc : córpus alinhat 136 óras en occitan gascon e 123 en occitan lengadocian.
Objectius
- Caracterizacion de tèxtes inclús : varietats, genre, maine de coneishenças, periòdes, qualitat lingüistica (a definir).
Realizat
-
Varietats e grafias etiquetadas dens lo projècte Còrpus : https://corpus.locongres.com
-
Varietats, grafias e genre etiquetats dens BaTelÒc (Qualitat lingüistica hauta) : http://redac.univ-tlse2.fr/bateloc/
Objectius
- Nivèu d'analisi lingüistic : categoria, puish lèma ; analisi sintaxic (dependéncias).
Realizat
-
Tolosa Linguatec Treebank de CLLE-ERSS anotat sintaxicament : https://zenodo.org/record/3708268
Ressorsas lexicaus
Tipe de ressorsa : Ressorsas lexicaus - lexics / Basas terminologicas
Ressorsa a crear : Basa lexicau monolingua
Objectiu
- Basa de dadas lexicau entà l'occitan : a) enter 500 000 e un milion d'entradas a tèrme (dont las fòrmas flechidas) ; b) informacion sus cada entrada : entrada, lèma, categoria gramaticau, informacions morfosintaxicas, varianta, usatge (iperonimia, maine, registre, geografic…) ligam enter variantas.
Realizat
- Basas de fòrmas flechidas deu Congrès (lèma, categoria gramaticau, flexion, varianta) : lengadocian (900 000 fòrmas) e gascon (1,3 milions de fòrmas).
- Lexic lengadocian-gascon de 50 000 entradas entau ligam enter variantas.
- Diccionari Hunspell de Tot en Òc : 87 000 lèmas : https://gitlab.com/taissou/hunspell-files-for-occitan-lengadocian/-/tree/master/files
- Lista de mots occitans de mejans.fr (occitan lengadocian); 2 milions de fòrmas shens informacion morfosintaxic : https://www.mejans.fr/article/corpus-e-listas-de-mots.html
- Diccionari deus sinonimes deu Congrès de 500 000 mots : https://dicodoc.eu/oc/sinonimia
- Diccionari monolingüe d'Apertium e Revirada : Lista de 220 000 lemas dab las categorias gramaticaus e paradigmes de conjugasons/declinasons.
Tipe de ressorsa : Ressorsas lexicaus - lexics
Ressorsa a crear : Basa lexicau bilingua
Objectiu
- Basa terminologica : lo tribalh terminologic que's hè en foncion de las demandas ligadas a las politicas regionaus ; los objectius dens aqueth camp que deven har compte tanben de las demandas deu conselh deus usatgèrs deu Congrès.
Tipe de ressorsa : Basas terminologicas
Ressorsa a crear : Basa lexicau bilingua
Realizat
- tèrm’Òc, basa terminologica deu Congrès de 60 000 tèrmes (varietat etiquetada).
- Creacion d'ua platafòrma terminologica entà facilitar la creacion de lexics especializats, en perméter ua mei bona comunicacion enter usatgèrs e lingüistas/lexicografes : https://www.termoc.eu
Objectiu
- Basa de dadas lexicau bilingua :
-
- Prioritat francés-occitan
- Catalan-occitan
- Medishs camps com la basa lexicau monolingua
- Orientada cap tà la traduccion automatica
Realizat
- Diccionari occitan-francés e francés-occitan deu traductor automatic Revirada deu Congrès : 170 000 parelhs de traduccionsverificadas (gascon e lengadocian)
- Diccionari occitan-francés e francés-occitan deu traductor automatic Apertium, enriquit peu Congrès dens l'encastre de la construccion de Revirada, libre de drets : 100 000 parelhs de traduccions occitan-francés e francés-occitan verificadas (gascon, lengadocian e aranés) : https://github.com/apertium/apertium-oci-fra/blob/master/apertium-oci-fra.oci-fra.dix
- Basa de dada bruta de 500 000 parelhs de traduccions occitan-francés e francés-occitan, tirada deus diccionaris bilingües (gascons e lengadocians) deu Dicodòc.
- Diccionari occitan-catalan deu traductor automatic Apertium : 24 500 pars de traduccions liures de drets.
- Diccionari occitan-espanhòu deu traductor automatic Apertium : 18 700 pars de traduccions liures de drets.
Gramaticas
Tipe de ressorsa : Gramaticas
Ressorsa a crear : Basa gramaticau / sintaxica
Objectius
- Gramatica descriptiva de l'occitan e de las soas diferentas variantas, concebuda com un ensemble de règlas entà la soa utilizacion ulteriora en informatica (analisaires morfologics e sintaxics automatics).
Realizat
- Fichèr de règlas (haut o baish 2 000) entà l'analisi morfosintaxic deu traductor automatic Revirada deu Congrès.
Tractament de la paraula
Tipe de ressorsa : Tractament de la paraula
Ressorsa a crear : Reconeishença de la paraula
Objectius
- Crear ua vertadèra atruna de reconeishença de la paraula en un temps brac en començant d'identificar e de crear las ressorsas necessàrias au son desvolopament tecnologic. L'interès particular d'aquera atruna que seré la soa utilizacion entau sostitolatge automatic.
Realizat
- Projècte ReVoc deu Congrès (gascon e lengadocian) : constitucion d'un còrpus audio e d'un còrpus textuau dens l'encastre deu projècte « Còrpus » en vista d'entrainar ua intelligéncia artificiau : https://contribuir.locongres.com/revoc
- Projète Araina de Col·lectivaT (occitan aranés) : constitucion d'un còrpus audio via Mozilla Common Voice dab l'objectiu d'entraïnar ua intelligéncia artificiau : https://www.projecte-araina.org/
Tipe d'atruna lingüistica : Tractament de la paraula
Atruna a crear : Sintèsi vocau
Objectius
- Atruna de sintèsi vocau (TTS) :
-
- Entà totas las variantas màgers
- Dus locutors minimum, dab paritat.
Realizat
- Votz, sintèsi vocau deu Congrès entà l'occitan gascon (ua locutora) e l'occitan lengadocian (un locutor) : https://votz.eu/
- Fairseq MMS – ASR : Modèle de reconeishença vocau desvolopat per Facebook tà 1 100 lenga, dab lengas pócas dotadas dont l'occitan.
Deteccion automatica de la lenga
Tipe d'atruna lingüistica : Deteccion automatica de la lenga
Atruna a crear : Detector de l'occitan
Objectius
- Desvolopament d'un detector de tèxtes escriuts en occitan, a partir de las òbras hèitas dinc adara.
Realizat
- Redaccion d'ua notícia entau programa LangId, qui permet de detectar l'occitan au demiei d'un nombre gran d'autas lengas : https://pypi.org/project/langid/
- Divèrs : mei d'un detector de lenga (open source, disponibles via des API ou privats) que comprenen l'occitan, dont dus logiciaus de deteccion de lenga parlada. Veder la liste en l'inventari de La Farga.
Tipe d'atruna lingüistica : Deteccion automatica de la lenga
Atruna a crear : Detector de las variantas de l'occitan
Objectius
- Desvolopament d'un detector de las variantas escriutas de l'occitan (entà totas las variantas).
Realizat
- Desvolopament d'un prumèr detector per Eve Séguier.
- Constitucion d'un còrpus textuel multivariétés dens l'encastre deu projècte Còrpus deu Congrès en vista de melhorar lo detector gràcias a l'intelligéncia artificiau
Analisi gramaticau
Tipe d'atruna lingüistica : Analisi ortografica e gramaticau
Atruna a crear : Correctors ortografics
Objectius
- Corrector ortografic polivalent :
-
- Qui permétia a l'utilizator de causir ua o mantua varianta com referéncia entà la correccion
- Entà tota platafòrma, dab prioritat aus logiciaus libres, mes tanben aus logiciaus mei emplegats :
- Open Office, Libre Office, Microsoft Office
- Modules entaus navigators
- Seguida Adobe, PAO
- Clavèr predictiu e autocorrection entà totas las variantas e entaus telefònes mobiles mei emplegats (Android, iPhone, Windows... o los a viéner). Basat sus las frequéncias deus mots dens d'uns còrpus.
Realizat
- Corrector ortografic dicodòc deu Congrès (occitan gascon e occitan lengadocian) entà Chrome, Firefox, Thunderbird, LibreOffice : 1,6 milion de mots e 7,2 milions de combinasons de mots (tilhets e apostròfas) : https://abrac.at/corrector
- Diccionari Hunspell (LibreOffice, OpenOffice, Firefox, Thunderbird) entà corrector ortografic (occitan lengadocian), creat per Tot en Òc, 87 000 lèmas e 800 règlas de flexion : https://gitlab.com/taissou/hunspell-files-for-occitan-lengadocian/-/tree/master/files
- Dab ua extension entà Firefox : https://addons.mozilla.org/fr/firefox/addon/diccionari-occitan-lengadocian/
- E lo projècte contributiu Dicollecte entà l'enriquir : 87 000 entradas : https://grammalecte.net/home.php?prj=oc
- Corrector ortografic (occitan gascon) entà OpenOffice e Thunderbird de Per Noste : https://www.pernoste.com/telechargement/corrector-ortografic
- Clavèrs dicodòc deu Congrès entà Android (occitan gascon e lengadocian) : 1,6 milion de mots e 7,2 milions de combinasons de mots (tilhets e apostròfas) : https://abrac.at/clavier
- Clavier SwiftKey entà Android e IOS : https://play.google.com/store/apps/details?id=com.touchtype.swiftkey&referrer=utm_hont%3Dwebsite%26utm_medium%3Dsk%26utm_campaign%3Dfooter-menut
Tipe d'atruna lingüistica : Analisi ortografica e gramaticau
Atruna a crear : Analisaires
Objectius
- Desvolopament d'un analisaire morfologic (tagger) deus hòrts a partir de las òbras hèitas dinc adara.
Realizat
- Analisaire morfologic deu traductor Revirada e deu traductor Apertium (occitan gascon, lengadocian e aranés) realizat per Lo Congrès e Apertium : https://github.com/apertium/apertium-oci
- Analisaire sintaxic Talismane : Analisaire morfosintaxic e sintaxic desvolopat per Assaf Urieli en l'encastre de la soa tèsi au sen deu laboratòri CLLE-ERSS. Que l'entraïnè Marianne Vergez-Couret tà l'occitan : http://redac.univ-tlse2.fr/applications/talismane/talismane_en.html
Analisi semantic
Tipe d'atruna lingüistica : Analisi semantic
Atruna a crear : Basa de coneishença lexicau
Objectius
- Desvolopament d'ua atruna d'analisi sintaxic superficiau/pregonda.
Construccion de la purmèra version de basa de coneishença lexicau entà l'occitan (15 000 concèptes), en utilizar las entradas de la basa de dadas lexicau com hont d'informacion entà las variantas de l'occitan.
Realizat
- Preparacion d'ua basa lexicau e d'un bot entà la versar dens Wikidata Lexèmas. Desvolopament d'un serious game entà que la comunautat religue los lexèmas a l'item Wikidata corresponent au lor sens : https://github.com/aitalvivem
Traduccion automatica
Tipe d'atruna lingüistica : Traduccion automatica
Atruna a crear : Traductors automatics
Objectius
- Desvolopament, en reütilizar las òbras existentas, de las atrunas entà la traduccion automatica :
-
- En prioritat, sens occitan → francés (totas las variantas)
- Francés → occitan (lo sistèma que permeterà a l'utilizator de causir ua o mantua varianta com referéncia(s) entà la traduccion ; utilizar lo transcriptor de variantas au besonh)
- Besonh de las atrunas basicas entau parelh occitan-anglés.
Realizat
- Traductor automatic Revirada occitan<->francés deu Congrès (occitan gascon e lengadocian) : https://revirada.eu/
- Traductor automatic Apertium : francés<->occitan (gascon e lengadocian), catalan<->occitan (aranés e lengadocian), espanhòu <-> occitan (aranés e lengadocian).: https://apertium.org
- Traductor automatic Softcatalà occitan (aranés) <-> catalan : https://www.softcatala.org/traductor/
- Los traductors automatics de la Generalitat de Catalunya et d'Opentrad qu'intègran lo traductor Apertium tà los pars de lenga occitan <-> catalan et occitan <-> espanhòu (occitan aranés e lengadocian) : https://traductor.gencat.cat/
- Que's publiquèn per Softcatalà e Facebook (Fairseq Flores101) modèles o escripts tà entraïnar traductors automatics basats sus l'intelligéncia artificiau ont été publiés par Softcatalà et Facebook.
Tipe d'atruna lingüistica : Traduccion automatica
Atruna a crear : Transcriptor automatic enter variantas
Objectius
- Desvolopament d'un convertidor automatic enter variantas, qui tribalha non solament au nivèu deu lexic mes tanben sus la sintaxi. Que permeterà enter autas causas de realizar daubuas atrunas entà ua sola varianta, e de'us poder utilizar apuish dab totas (èx : [traductor francés → occitan lengadocian] + [transcriptor lengadocian → gascon] = [traductor francés → occitan gascon]).
Realizat
- Possibilitat d'utilizar lo traductor automatic Revirada dab lo francés com lenga pivòt entà passar de l'occitan gascon a l'occitan lengadocian, shens tròp de pèrta de qualitat.
Logiciaus disponibles en occitan
Autas atrunas - logiciaus : Logiciaus disponibles en occitan
Atruna a crear : OS + Aplicacions màgers
Objectius
- Traduccion deus logiciaus mei emplegats e deus logiciaus libres (burotica, navigators, corrics, hialats sociaus...).
Realizat
- Voir la liste actualisée des logiciels traduits sur le site de La Farga.
Huelha de rota
Pendent la configuracion d'ua huelha de rota entà la realizacion deus objectius ací dessús, que devem considerar qu'existeishen dependéncias enter eths. Ací devath, que descrivem las dependéncias mei significativas.
Objectiu : Còrpus monolingüe
Ressorsas / atrunas necessàrias : Numerizacion, OCR e conversion de tèxte a un format estandard tractader per un analisaire
Objectiu : Còrpus web
Ressorsas / atrunas necessàrias : Detector de l'occitan - Detector de las variantas de l'occitan
Objectiu : Còrpus parallèle
Ressorsas / atrunas necessàrias : Colleccion de documents bilingües - Memòrias de traduccion (TMX)
Objectiu : Basa lexicau monolingua
Ressorsas / atrunas necessàrias : Diccionaris monolingües au format electronic (MRD)
Objectiu : Basa lexicau bilingua
Ressorsas / atrunas necessàrias : Diccionaris bilingües au format electronic (MRD)
Objectiu : Correctors ortografics
Ressorsas / atrunas necessàrias : Basa lexicau monolingua
Objectiu : Analisaire morfologic (PoS-tagger, lematizaire)
Ressorsas / atrunas necessàrias : Basa lexicau monolingüa - Basa gramaticau
Objectiu : Analisaire sintaxic
Ressorsas / atrunas necessàrias : Analisaire morfologic - Basa gramaticau/sintaxica
Objectiu : Basa de coneishença lexicau
Ressorsas / atrunas necessàrias : Basa lexicau monolingua
Objectiu : Traductors automatics òc → fr (totas las variantas)
Ressorsas / atrunas necessàrias : Basa lexicau bilingüa - Basa gramaticau/sintaxica
Objectiu : Transcriptor automatic enter variantas
Ressorsas / atrunas necessàrias : Basa lexicau monolingüa - Basa gramaticau/sintaxica
Objectius e interdependéncias
Lo diagrama ací devath que repren los elements en separar los objectius en tres seccions (ressorsas, atrunas intermediàrias, atrunas finaus) e en muishar las interdependéncias enter los « blòcs » : per exemple que hè besonh un analisaire morfosintaxic entà un traductor automatic, en saber que'u hè besonh en amont ua basa lexicau monolingua e modèles gramaticaus. Un còrpus parallèle que pòt tanben ajudar a'u perfeccionar. Aquera lectura que permet ua vision estructurada de las òbras e de considerar la planificacion deus programas operacionaus.
Glossari
Modèles gramaticaus e modèles de lengatge : gramatica descriptiva de l'occitan organizada com un ensemble de règlas entà ua utilizacion informatica (sustot entà çò qui tòca los analisaires morfologics e sintaxic) dab lexics e còrpus anotats.
Basa lexicau monolingua : basa d'ua partida grana de las autas ressorsas e de las atrunas desvolopadas, a la basa lexicau monolingua qu'i caben ua lista de mots occitans, dab la categoria gramaticau (tipe, genre, nombre, etc.), las fòrmas flechidas (femenin, plurau, conjugasons, etc.), la varianta e eventuaument informacions tà çò de l'usatge (maine, registre, etc.). Que i aurà tanben lo ligam enter dus medishs mots entà mantua varianta.
Basa lexicau bilingua : basa principau entà la traduccion automatica. Qu'i caben entradas en occitan qui an los medishs camps com la basa lexicau monolingua, mes tanben la soa (las soas) traduccion(s) en francés (que's pòt considerar a tèrme çò d'equivalent en catalan).
Basa de coneishença lexicau : que s'ageish d'ua basa de coneishença ligant los mots o los concèptes enter eths, dab relacions de categoria (ua poma qu'ei un frut), de camp lexicau (pan e cotèth), de derivacion (passat e passacion), etc. WordNet, per exemple, qu'ei ua basa de coneishença lexicau.
Còrpus : un còrpus qu'ei un ensemble de documents amassats dab ua mira precisa. Dens lo maine deus TAL (Tractament automatic deu lengatge), los còrpus textuaus que son plan utiles entà perfeccionar las atrunas gràcias a estatisticas suus mots e la lenga. Per exemple, entà un traductor automatic, lo còrpus parallèle francés-occitan que permeterà de saber que, estatisticament, lo nom francés « son » qu'ei mei sovent tradusit per « son » que per « bren ».
Còrpus monolingüe especializat : aqueth tipe de còrpus qu'amassa ua massa de tèxtes en occitan qui atèstan d'un usatge referenciau de la lenga dens diferents maines (literatura, premsa, recèrca). Que son indispensables a la creacion de las atrunas e de las autas ressorsas.
Còrpus monolingüe web : colleccion de tèxtes en occitan presents sus Internet, shens seleccion en tèrme de qualitat lingüistica. Que servirà mei que mei a las estatisticas entà perfeccionar las atrunas.
Còrpus parallèle : còrpus qui amassa tèxtes qui an au mensh duas versions corresponent a duas lengas diferentas. Lo còrpus parallèle occitan que serà un còrpus occitan-francés (sites web institucionaus, memòrias, etc.).
Ressorsas entà la reconeishença de la paraula : segon la huelha de rota, qu'ei impossible de crear ua vertadèra atruna de reconeishença de la paraula (creacion d'escriut a partir d'un document orau) abans 2019. Que cau començar per identificar e crear las ressorsas necessàrias a ua tau tecnologia. Que poirà estar utilizada, per exemple, entà har sostitolatge automatic.
Detector de l'occitan : que s'ageish d'ua atruna permetent de detectar automaticament si un tèxte ei en occitan.
Detector de las variantas de l'occitan : que s'ageish d'ua atruna permetent de detectar automaticament la varianta occitana d'un tèxte.
Analisaire morfologic (lematizaire) : un lematizaire qu'ei ua atruna d'analisi morfosintaxic deu contiengut d'un tèxte. Qu'assòcia cada mot a la soa fòrma « canonica » (infinitiu entaus vèrbes, masculin singular entaus adjectius, etc.), la categoria gramaticau o partida d'un discors, lo genre, lo nombre, lo temps e lo mòde, la persona (èx : que parli → purmèra persona/singular, indicatiu present deu vèrbe parlar). Qu'i caben tanben informacions semanticas e referenciaus (definitud, qüantificacion, animat/non animat, uman/non uman, etc.).
Analisaire sintaxic (parser) : que met en evidéncia l'estructura d'ua frasa. L'analisi que balha la faiçon dont los mots son combinats dens un tèxte. Que permet de conéisher las relacions de dependéncia deus sintagmas (grops de mots qui an ua foncion particulara dens la frasa, per exemple lo subjècte).
Traductors automatics : que permeteràn, a partir d'un tèxte en occitan, d'obtiéner automaticament ua traduccion en francés, e invèrsament. Gràcias au transcriptor de variantas, que serà possible d'obtiéner la traduccion en francés en quina varianta e de que quina varianta ençà que sia.
Transcriptor automatic enter variantas : que fonciona segon lo medish principi qu'un traductor automatic. Que permeterà, a partir d'un tèxte dens ua varianta de l'occitan, d'obtiéner automaticament ua version dens ua auta varianta.
Corrector ortografic polivalent : entà muishar l'unitat de la lenga en lo respècte de la soa diversitat, l'idèa qu'ei d'aver un sol corrector ortografic qui perpausa ua correccion dens totas las variantas. L'utilizator que poirà causir la o las varianta(s) qui desira entà la correccion. Lo corrector que serà suus logiciaus mei emplegats dab ua prioritat aus formats libres, shens estremar los comerciaus totun (LibreOffice, OpenOffice, Microsoft Office, navigators, logiciaus clients entaus corrics, seguida Adobe, etc.).
Clavèr predictiu e autocorrection : aquera atruna que servirà entaus telefònes mobiles, per exemple entà suggerir o corregir mots dens los SMS. Que permeterà de causir la soa varianta e que's poirà installar suus sistèmas d'espleitacions mei corrents.
Sintèsi vocau : que consisteish a la creacion de documents oraus a partir de documents escriuts. Qu'ei per exemple emplegada entà léger los noms de carrèra dens los GPS, entaus logiciaus d'assisténcia au monde uelhfebles...
OS e aplicacions màgers : l'idèa qu'ei de perpausar entaus ordenadors un sistèma d'espleitacion sancèrament en occitan, dab los logiciaus mei corrents tanben tradusits (burotica, navigators, clients de corric, etc.).
Lo Sistèma Internacional d’Unitats (nom abreujat en SI), version modèrna de l’ancian sistèma metric, es lo sistèma d’unitats de mesura mai utilizat al mond. Es d’usatge legal dins gaireben totes los estats, en particular los estats europèus. Es descrich dins la brocadura oficiala1 (en francés, per de rasons istoricas) del Burèu Internacional dels Peses e Mesuras e mai sas traduccions en divèrsas lengas, e integrat a la nòrma internacionala ISO 80000.
Dins lo Sistèma Internacional, existisson d’unitats de basa (o unitats fondamentalas) e d’unitats derivadas. De prefixes permeton de definir de multiples e de sosmultiples d’unitats. Cada unitat a un nom (que depend de la lenga utilizada) e un simbòl (internacional, independent de la lenga). Per exemple, l’unitat de basa SI de la massa a per nom quilograma en occitan, quilogram en catalan, chilogrammo en italian, etc. ; son simbòl, quina que siá la lenga del contèxte, es : kg.
Règlas ortograficas e tipograficas
Escritura dels nombres en chifras
Lo separador decimal (entre la partida entièira e las decimalas) es la virgula o lo punt segon l’usatge corrent dins lo contèxte. Per exemple, l’escritura decimala del nombre 71/50 es 1,42 o 1.42.
Los nombres que comprenon un grand nombre de chifras se pòdon partejar, facultativament, en grops de 3 chifras separats per d’espacis, per fin de facilitar la lectura. Aqueles grops se separan pas jamai per de punts. Per exemple, lo nombre « dètz mila cinc cents » s’escriu en chifras : 10 500 o 10500 (mas pas 10.500).
Unitats
Noms d’unitats
Aqueles noms son de noms comuns : s’escrivon en minusculas e s’acòrdan en nombre (un mètre, trenta mètres). Aquela règla a pas cap d’excepcion : per exemple, l’unitat de basa de la temperatura termodinamica a per nom kelvin, nom comun provenent del nom del fisician William Thomson, melhor conegut coma Lord Kelvin : un kelvin, cent kelvins.
Simbòls d’unitats
Los simbòls d’unitats, invariables en nombre, s’escrivon en caractèrs romans (dreches). Son pas d’abreviacions : s’acaban pas per un punt2. Son en minusculas, exceptat quand lo nom de l’unitat proven d’un nom pròpri de persona : dins aquel cas, la primièira letra del simbòl es una majuscula. Per exemple, lo simbòl del quilograma es : kg (en minusculas) ; lo simbòl del kelvin es : K ; lo simbòl del pascal (unitat de la pression, que son nom proven del nom pròpri Pascal) es : Pa. Los simbòls s’emplegan unicament après un nombre escrich en chifras, e ne son separats per un espaci3 : 1 m (un mètre), 20 K (vint kelvins).
Unitats SI de basa
Remarque : segonda, mòle, candèla sont féminins. Les autres noms sont masculins.
Unitats SI derivadas
Exemples d’unitats derivadas
Unitats derivadas qu’an de noms especials
Remarca : aqueles noms son masculins ; hèrtz a per plural hèrtzes o hèrtz
Multiples e sosmultiples decimals de las unitats
Prefixes SI
Una seria de noms de prefixes e de simbòls de prefixes permeton de formar los noms e los simbòls dels multiples e sosmultiples decimals de las unitats SI de 1024 a 10-24. Los simbòls dels prefixes s’escrivon en caractèrs romans (dreches) e s’estacan sens espaci als simbòls d’unitats per formar un nòu simbòl d’unitat ; per exemple : hm, km, µs, MJ, simbòls de l’ectomètre (100 m), del quilomètre (1000 m), de la microsegonda (0,000 001 s) e del megajoule (1 000 000 J).
Noms e simbòls dels prefixes SI :
Lo quilograma
Per de rasons istoricas, lo quilograma es la sola unitat de basa SI que son nom conten un prefixe. Los noms e los simbòls dels multiples e sosmultiples decimals de l’unitat SI de massa son formats dirèctament a partir del grama : per exemple 10-2 kg = 10 g = 1 dag (dètz gramas o un decagrama).
Unitats exterioras al Sistèma Internacional, mas que lor usatge i es acceptat
Per exemple, s’escriu : 17 h 30 min, o : 17 h 30.
Remarca : ectara es un nom femenin (una ectara, doas ectaras)
1 Brocadura de 2006 : www.bipm.org/utils/common/pdf/si_brochure_8_fr.pdf
2 Mas pòdon èsser seguits d’un punt en fin de frasa per rasons de puntuacion.
3 Excepcionalament, se met pas d’espaci davant los simbòls de las unitats sexagesimalas d’angle : 90°, 30′, 10″.
Lo Basic, lexic referenciau e ortografic
Lo Basic qu'ei un lexic elementari francés-occitan qui's vòu, a tèrme, un diccionari unic entà tots los locutors e usatgèrs de l'occitan, quina que sia la lor varianta. Entà ua entrada en francés, que perpausa la fòrma occitana comuna e/o las fòrmas especificas a las varietats màgers.
Basa lexicau istorica occitana en linha
Lo Congrès que contunha la creacion d'ua basa descriptiva de dadas qui amassa la totalitat de las entradas lexicaus presentas dens los diccionaris, lexics e autes glossaris redigits enter l'Edat Mejana a uei lo dia. Aquesta basa qu'a l'objectiu d'estar un diccionari scientific descriptiu de la lenga occitana, accessibla en linha entaus especialistas e lo public avertit. Que serà de bon consultar e modificar, e extensibla.
Ces tableaux illustrent la prononciation de l'occitan à travers les relations entre la graphie et la phonie de la langue. Ils suivent le qui est de valoriser ce qui est commun en respectant la diversité. Ils proposent, pour chaque graphème, sa prononciation occitane, les principales variations phonétiques et des sons pour entendre le graphème prononcé.
Introduction
« Mai de mila ans nos fa... » chantait Claudi Martí.
Oui, cela fait plus de mille ans qu'on écrit l’occitan.
Il faut bien dire que certains ne le savent pas encore. Une collègue me disait en 2006 : « Mais le patois, enfin je veux dire l’occitan, autrefois, ça s’écrivait pas ! ». Pour « l’autrefois », je lui ai parlé des troubadours, de Godolin qui a sa statue sur une place de Toulouse, de Mistral qui a eu un prix Nobel, de littérature écrite, si, si, et non orale. Je lui ai expliqué calmement que la graphie est la façon d'écrire un mot, un son, et plus généralement un système d'écriture organisé, cohérent, normé disent certains, pour écrire une langue. Si, si, toutes les langues peuvent s'écrire. Je lui ai confirmé qu'il existe des langue ayant plus d'une graphie, que oui on le voit à chaque fois dans La Dépêche pour l'occitan, mais que ce n'est pas parce qu'il y a deux graphies qu'il y a deux langues.
La graphie dite classique de l’occitan que nous présentons ici reprend sur plusieurs points la graphie des troubadours. Oui, cela fait plus de mille ans qu'un échantillon de mots s'écrivent de la même manière.
C'est à la fin du XIXe siècle et au début du XXe siècle que des gens comme Josèp Ros puis Prospèr Estieu, Antonin Perbòsc, Josèp Salvat, ont commencé à travailler à l'unification de la graphie de l’occitan en proposant un système adapté de la graphie des troubadours, différent de la graphie mistralienne.
Puis Loís Alibèrt, en s'appuyant sur les travaux réalisés pour le catalan par Pompeu Fabre et pour l’occitan par Prospèr Estieu et Antonin Perbòsc, a lancé avec sa Gramatica ocitana segon los parlars lengadocians (1935), les grands principes de la nouvelle graphie dite classique. L’Institut d’Études Occitanes, créé en 1945, a organisé l'adaptation de ces principes de la graphie classique aux autres grandes variantes de l’occitan grâce au travail de personnes comme Robèrt Lafont, Pèire Bèc, Josèp Migòt, Joan Rós…
Nous passerons sur les querelles byzantines pour certains changements de graphèmes, « s » et « z » par exemple, ou du système d'accentuation. J'ai vu un jour en classe un pauvre bon professeur qui avait des élèves qui utilisaient deux éditions d'un même manuel avec deux sytèmes d'accentuation différents. Imaginez-vous le bazar... Dès qu'il écrivait quelque chose, une partie de la classe faisait savoir que ce n'était pas ainsi dans son livre et les autres disaient que si.
En 1997 le Conseil de la langue occitane (CLO) a pris la relève pour assurer la gestion de la norme graphique et orthographique. Il a proposé des recommandations en complément des travaux précédents. Elles sont à présent en usage, pour l'essentiel, sur une bonne partie du territoire occitan.
Lo Congrès compte, depuis sa création, dans les missions que lui ont confiées les acteurs associatifs et publics de l'occitan qui l'ont voulu et installé, celle de gérer et de faire connaître la graphie classique.
La graphie classique
C'est la graphie de notre histoire et de la dignité retrouvée de notre langue. Elle fait l'unité des parlers occitans et la continuité de la langue médiévale à aujourd'hui.
C'est une graphie support, englobante. Un même mot écrit partout de la même façon peut avoir des prononciations différentes. La correspondance entre graphie et phonie est différente d'une région à l'autre, mais c'est ainsi en réalité, plus ou moins, dans toutes les langues. Si l'apprenant, le néo-locuteur, ne connaît pas les clés de ces correspondances, il peut se tromper. Bien sûr, la graphie support et englobante a des limites. Il y existe effectivement des différences entre variantes qui sont prises en compte graphiquement. Par exemple, la « hèsta » gasconne ne peut pas s'écrire « fèsta » et « chabra » ne peut pas s'écrire « cabra ».
Enfin, la graphie classique a également le mérite de bien montrer la parenté de l’occitan avec les autres langues romanes.
Dans les nouvelles générations de bonne volonté qui apprennent la langue, mais également dans les autres, les interférences graphie-phonie sont bien trop fortes et amènent un bon nombre d'erreurs et de mauvaises prononciations.
Il ne faut pas se boucher les oreilles. La graphie « paur » fait dire [pawr] a plus d'un, alors qu'elle ne se dit quasiment nulle part de cette manière, et tout le monde sait également que le « a » final et le « o » sont des graphèmes qui en trompent encore beaucoup.
Maîtriser la relation graphie-phonie n'est pas aussi facile a faire que ce qu'on a pu le dire, surtout à présent que les jeunes ne connaissent pas assez la langue, ne l'entendent pas assez, déshérités comme ils sont, et que certains la lisent plus qu'ils ne l'entendent sans avoir assez de références orales solides, bien appuyées sur l'audition, la pratique et des modèles. La graphie classique nécessite comme toute graphie un apprentissage, un bon entraînement. Passer de l'oral à l'écrit et de l'écrit à l'oral n'est pas toujours facile à faire, d'autant plus qu les changements graphiques ont créé une sorte d'insécurité.
Il y a plus d'un élève qui n'ose pas parler en-dehors de la classe. Ils trébuchent à cause de graphèmes mal oralisées et parlent un occitan francisé sans la prosodie qui le caractérise. Les normes graphiques mal assimilées deviennent sources d'erreur, des pièges.
Les objectifs de ces tableaux oralisés
Ce ne sont pas les travaux, dont certains sont très pointus, qui manquent sur le sujet de la graphie classique, mais ils sont éparpillés, souvent partiels (généraux ou pour une seule variante), pas toujours faciles à maîtriser ou à acquérir. La prononciation est donnée avec la graphie française ou avec l'alphabet phonétique international qui, seul, n'est pas une garantie de bonne prononciation.
C'est pour cela — et c'est assez nouveau — que dans l'outil que réalise le Congrès, la prononciation oralisée par des locuteurs vient illustrer, concrétiser, exemplariser, modéliser la théorie.
Et nous savons bien qu'il est mauvais de vouloir faire parler sans son, seulement avec l'écriture. C'est comme de vouloir faire nager sans eau. De plus, des erreurs s'accumulent.
Avec ces tableaux, le Congrès veut :
- faciliter pour les usagers la connaissance, la compréhension, la diffusion et la bonne utilisation de la graphie classique, facteur très important d'unité de la langue occitane. La graphie classique n'est pas encore assez connue et, quand elle l'est, elle n'est pas toujours assez maîtrisée ;
- contribuer à améliorer la relation graphie classique - prononciation et limiter les interférences qui causent une perte de la qualité de la langue orale des apprenants ;
- donner des références écrites et orales ;
- répondre à la demande des collectivités territoriales qui nous ont confié, et qui nous reconnaissent, ce rôle de référence, de régulation, de gestion de la graphie. Ils veulent pouvoir dire à des porteurs de projets qui ne connaissent pas bien la graphie classique : « Allez voir le Congrès ».
Bien sûr, il n'y a pas toutes les variantes, tous les parlers dans ces tableaux. Nous en sommes restés — grand principe du Congrès – à ce qui est commun et aux principales variantes. Il n'y a pas encore toutes les illustrations sonores prévues. Certains conseillers nous ont dit au début, et avec raison, alors qu'il n'y avait pas encore d'illustration sonore, qu' « une chatte n'y retrouverait pas ses petits » mais bien sûr que, quand tous les chatons miauleront, que tout sera oralisé, chaque chatte reconnaîtra bien plus facilement ses petits.
Cette production du Congrès sera améliorée avec l'aide du Conseil linguistique qui travaille sur l'actualisation et la reformulation des normes en usage avec des compléments sonores.
L’illustration sonore des relations graphie-phonie sera complétée en insistant sur ce qui est le plus trompeur, en intégrant les mots dans des phrases pour en voir la structure, en entendre la prosodie, l'accent de phrase, les assimilations... Il faut bien y réfléchir et bien choisir mots, phrases, extraits de textes, dires, locuteurs, pour qu'ils soient d'une langue réelle, significatifs, assez pédagogiques sans trop et pour qu'ils apportent du sens pour être assez agréables et évocateurs.
La Parabòla del filh perdut, nous l'avons reprise et adaptée en hommage à Pèire Bèc, à qui l’occitan doit tant.
Nous ajouterons également des textes littéraires rédigés pour la langue culte, et des extraits de collectage pour la langue populaire souvent maîtresse pour la phonologie.
Des développements pédagogiques préparés par une collaboration entre linguistes et enseignants sont déjà demandés.
J'achèverai en remerciant tous ceux qui ont travaillé d'une manière ou d'une autre pour cette production, avec une mention spéciale pour Maurici Romiu, vice-président du Conseil linguistique du Congrès, qui a accepté la responsabilité, et également le risque, de la direction scientifique de cette première version.
Gilabèrt Mercadier, président du Congrès