Dins lo domeni del TAL, i a mantun estandard internacional per etiquetar las categorias gramaticalas dels mots (Eagles, Grace...). Pasmens, son pas forçadament utilizats per totes los espleches. D'unes, coma lo traductor automatic Apertium, an lor jòc d'etiquetas pròpri. A mai, la màger part dels estandards prenon pas en compte las especificitats pròprias a l'occitan, coma los enonciatius gascons.
Lo Congrès a doncas desvolopat un jòc d'etiquetas de categorias gramaticalas adaptat a la lenga occitana, interoperable amb los estandards internacionals e los espleches TAL liures de dreches mai utilizats.
Aquel jòc d'etiqueta fonciona amb 3 nivèls :
- la categoria generala, que correspond al PoS (Part of Speech) que, en general un lema parteja amb sas formas flechidas : « Adj » per adjectiu, « Vèrb » per vèrbe...
- la categoria detalhada, que correspond al PoS + las informacions morfosintaxicas (genre, nombre, informacions de conjugason...) : « AdjMS » per adjectiu masculin singular, « VerbeIndPres1s » per vèrbe a la 1e persona del singular del present de l'indicatiu...
- dins d'autres lexics, mai que mai los a destinacion del machine learning, se pòt ajustar una etiqueta mai generala de familha gramaticala qu'amassa las categorias generalas qu'an un foncionament plan similar : « Det » amassa los determinants demostratius, exclamatius, indefinits, interrogatius, possessius, relatius e definits.
L'utilizacion d'aquel jòc d'etiqueta per totas las ressorsas del Congrès permet de las far interoperablas. Un mot dins un còrpus de tèxte a la meteissa etiqueta que dins un diccionari. Per exemple, se i a dins un tèxte la frasa « son paire es grand », l'utilizator pòt clicar sus « son » e aver la definicion del determinant possessiu « son » sens riscar d'arribar sus la definicion del nom comun « un son » (un bruch).
Lo jòc d'etiqueta foguèt bastit amb un nivèl de granularitat plan fin. Permet de distinguir, per exemple, un preadvèrbi coma « se » (que pòt pas èsser utilizat que davant un adjectiu o un advèrbi), d'un advèrbi coma « largament » (que pòt èstre utilizat sol). O encara lo pronom personal « nous » emplegat coma pronom tonic (« penser à nous ») o coma COD antepausat (« il nous regarde »).
Descripcion del jòc d'etiquetas
Presentation del jòc d'etiquetas e descripcion de las categorias.
Lista de las categorias
Tablador de las categorias detalhadas e generalas amb lors denominacion.

Devath la tutèla dobla deu C.N.R.S. (seccions 34 e 26) e de l'Universitat Còsta d'Asur, lo laboratòri UMR 7320 Basas, Còrpus, Lengatge (BCL) que compta un seishantenat de sòcis, cercaires, ensenhaires-cercaires, associats, engenhaires, tecnicians, doctorants e administratius. L'objècte d'estudi de BCL qu'ei lo lengatge, de la soa arquitectura cognitiva a las soas realizacions discursivas o textuaus las mei concrètas. Per aqueth espèctre large qui mia deu cervèth a l'esperit, de la lenga a la paraula e deu discors a l'escriut, per l'analisi e la modelizacion deus sistèmas fonologic, morfologic e sintaxic, de las estructuras discursiva e textuau, mes tanben de las foncions psicocognitivas, BCL qu'a un apròchi integratiu e interdisciplinari deu lengatge qui'u permet d'associar dens dinamicas crotzadas lingüistas de la lenga, lingüistas deu discors e psicològues cognitivistas.
Qu'engatgè mantun protocòle experimentau, metòdes de tractament e atrunas de recèrca dont lo THESAURUS OCCITAN (THESOC). La soa creacion que remonta au collòqui de Wégimont organizat per l'AIEO en abriu de 1989 e consacrat a las « Atrunas de la recèrca occitana ». Au demiei de las conclusions d'aqueth collòqui que figura l'idèa que l'ua de las foncions essenciaus de l'AIEO que consisteish a suscitar e a sostiéner quauques obradors especifics dens lo maine deus estudis occitans, susceptibles de dinamizar e de federar las energias de recèrca e de s'i escàder a l'elaboracion d'atrunas de pedagogia e de recèrca a méter a la disposicion de la comunautat. Atau que vadó lo THESOC dab la direccion de Jean-Philippe DALBERA e qu'ei basat au laboratòri « Basas, Còrpus, Lengatge » (UMR 7320 CNRS - Universitat Còsta d'Asur). Que s'ageish d'ua atruna de tribalh a la disposicion deus cercaires, deus pedagògues e deu public. Que i caben duas parts :
1. ressorsas : mots, tèxtes, sons, videos, imatges. Qu'ei un tesaur amassant un ahoalh de dadas lingüisticas occitanas, qui vienen totas de honts oraus, a saber dadas lingüisticas e perilingüisticas gessidas d'enquèstas de terren (cartas e quasernets d'enquèsta deus Atlàs lingüistics, monografias, enregistraments sonòrs e videos, documents iconografics), dadas lingüisticas gessidas d'analisis ja realizats (dens los maines de la lematizacion, dens los maines morfologic, etimologic, etc.), dadas bibliograficas ;
2. atrunas d'analisi : lo THESOC qu'ei actuaument en plea repassada. Las soas foncionalitats que seràn implementadas progressivament suu site.
Lo C.N.R.S. e lo Congrès permanent de la lenga occitana qu'engatgèn ua associacion scientifica e tecnica pluriannau qui a per mira la mesa en interaccion deu THESOC e de l'infrastructura numerica deu Congrès. Ua purmèra garba de desvolopaments qu'ei actuaument en cors :
1. Actualizacion de la lematizacion deu THESOC Melhorar la lematizacion deu THESOC entà un mei bon interfaçatge dab lo dicodòc :
• la notacion deus accents suus lèmas creats ;
• los noms pròpis ;
• l'estatut deus mots compausats vs sintagmas (i.e. dab junhets o shens junhets ?). Determinar si s'ageish d'ua fòrma fixada qui possedeish ua categoria gramaticau e qui auré vocacion a figurar com ua entrada d'un diccionari, o enqüèra si s'ageish meilèu d'ua expression.
• las correccions necessàrias deu punt de vista deu Congrès, dens la perspectiva lexicografica occitana, aus lèmas presents dens lo diccionari d'Alibèrt (sustot dens l'optica de'us poder utilizar ad arron com malhon intermediari entà interfacià's dab los diccionaris deu Congrès).
• proposicions / suggestions de lèmas entà cèrt nombre de fòrmas atestadas dens lo THESOC e presentas dens lo diccionari de Simin Palay mes absentas d'Alibèrt (uei lo dia, aqueths lèmas qu'estón picats dens lo THESOC dab la fòrma grafica perpausada per Simin Palay, ua adaptacion en grafia classica que hè besonh).
2. Ligason THESOC->dicodòc :
• remandament cap au dicodòc si recèrca infructuosa
• remandament cap au dicodòc entà'n saber mei sus un lèma (conjugasons, rimas, sinonimes, exemples en contèxte, etc.)
• Afichar lo lèma pendent ua recèrca per fòrma flechida, entà afichar un bon resultat (possibilitat de passar per la futura API Mots)
• Proposicion de sinonimes (en cas de recèrca infructuosa suu lèma recercat, mes preséncia de resultats entà un lèma sinonime dens lo THESOC), gràcias a l'utilizacion de l'API Sinonimes desvolopada peu Congrès.
3. Ligason dicodòc->THESOC
• Integrar dens los resultats de recèrca ua lista de las traduccions dab quauquas informacions e ligam cap au THESOC.
• Integrar ua cartografia de las ocurréncias (o de las ocurréncias de las traduccions) dens los resultats de recèrca.
L'objectiu qu'ei, per l'armonizacion e l'interfaçatge de las dadas, d'ahortir la complementaritat de duas infrastructuras numericas occitanas de referéncia (l'ua normativa e l'auta descriptiva), dab entau Congrès la perspectiva d'integrar lo THESOC dens la futura platafòrma lexicau, textuau e toponimica. Los usatgèrs deu Congrès qu'auràn atau un accès optimizat (cartografia qui restitueish las ocurréncias) ad aqueth vertadèr tesaur occitan qui ei lo THESOC.
Tutoriau site web dicodòc
Tutoriau aplicacion mobila dicodòc
Tutoriau aplicacion mobila vèrbòc
Tutoriau corrector ortografic
Dab lo sostien de l’euroregion Navèra Aquitània/Euskadi/Navarra, Lo Congrès e la fondacion basca Elhuyar que realizèn un programa de desvolopament de corrector ortografic universau en occitan lengadocian e gascon.
Que s'ageish d'un utís normatiu deu Congrès perpausat a gratis au gran public tà l'editor de tèxtes LibreOffice, los navigators internet Chrome e Firefox, atau com lo logiciau de messatgeria Thunderbird. L’equipa de lexicografia deu Congrès que miè un tribalh de normalizacion grafica e ortografica a partir de las òbras deu Congrès e deus sòcis sons (Basic, vèrb’Òc, tèrm’Òc, top’Òc, o enqüèra Loflòc) entà perpausar un utís de referéncia taus aprenents (escolars, estudiants, adultes) e usatgèrs de la lenga.
Teledescargar :
Chrome
Tutoriau clavèr predictiu
Lo Congrès que sòrt de publicar dus clavèrs predictius en occitan (versions gascona e lengadociana) taus telefonets e tauletas Android (clavèr Anysoftkeyboard, descargaders de la botiga Google Play Store estant) .
Aqueth clavèr deus ergonomics qu'a suenh de la coeréncia lingüistica e deu riquèr lexicau : que caben 931 000 fòrmas flechidas tau gascon e 708 000 tau lengadocian, dab noms pròpis e noms de merca. Anysoftkeyboard qu'ei un clavèr a gratis qui a la licéncia libra.
Que's hasó dens l'encastre de l’aperet a projèctes 2017 « Lengas e numeric » de la Delegacion generau a la lenga francesa e a las lengas de França-Ministèri de Cultura e la Comunicacion, en aliança dab CLLE-ERSS (CNRS/Universitat Tolosa Joan-Jaurès), Habiter le monde (Universitat d’Amiens) e LiLPa (Universitat d’Estrasborg). Lo Congrès que realizè, dab la fondacion Elhuyar, los clavèrs predictius tà l'occitan gascon e l'occitan lengadocian. En parallèle que's hasón versions tà l'alsacian e lo picard.
Tà installar los clavèrs au vòste telefonet :
1) Installar l'aplicacion AnySoftKeyboard deu Google Play Store estant.
2) Installar l'aplicacion Occitan gascon for AnySoftKeyboard o Occitan lengadocian for AnySoftKeyboard (o las duas) disponiblas au Google Play Store.
3) Installar las autas lengas qui'vs hèn besonh (per exemple French for AnySoftKeyboard).
4) Activar AnySoftKeyboard :
- Anar taus paramètres, puish « Lenga e sasida » puish « Clavèr actuau » puish « Seleccionar clavèrs ».
- Activar AnySoftKeyboard (quan non seré la bona lenga marcada).
- Tornar aus paramètres, puish « Lenga e sasida » puish « Clavèr actuau ».
- Causir AnySoftKeyboard (quan non seré la bona lenga marcada).
5) Causir las lengas de sasidas :
- Anar taus paramètres d'AnySoftKeyboard (clicar sus l'icòna de l'aplicacion)
- Anar a la gestion de las lengas (icòna de la planeta) puish « Activar los clavèrs e lengas »
- S'ei activat de com cau l'occitan, que i aurà un simbèu de validacion (✔) au som de l'imatge deu clavèr. Se n'ei pas activat, que'vs cau clicar dessús.
- Activatz totas las autas lengas qui'vs hèn besonh e desactivatz las autas.
La causida de la lenga que's hè quan picatz lo tèxte. Quand utilizatz lo clavèr, que podetz cambiar de lenga de sasida en clicant suu nom de la lenga qui ei afichat en haut a dreta.