Letra de ligason :

Sélectionnez votre langue

Còrpus

Lo Congrès - Projècte Còrpus

Lo projècte Còrpus del Congrès qu'a per tòca la constitucion d'un ensemble de còrpus entau desvolopament d'utís de tractament automatic deu lengatge. Qu'a l'objectiu doble de quantitat (entà poder entrainar intelligéncias artificiaus) e de representativitat de la diversitat de l'espaci lingüistic occitan. Los sons tèxtes que'n son formatats segon los estandards deu Congrès de la nòrma TEI.

Mei de 60 partenaris que hornín dadas entà bastir aquera ressorsa bèra. Mèdias, editors, organismes de formacion, institucions, particulars, associacions culturalas... que transmetón au Congrès contienguts tant variats com libes, emissions de ràdio e de television, vidzos sostitoladas, articles de premsa, contiengut de sites web, compte renduts o documents de comunicacion... Ad aquò que's horní mantun contiengut libre de dret (Wikipèdia, traduccions de logiciaus libres...). Las dadas que vienen de tot lo territòri e que son tant escriutas com oraus.

"mei de 60 partenaris
que hornín dadas"

A l'òra d'ara, que i caben dens la basa deu projècte Còrpus :

  • Un còrpus monolingüe de mei de 8,5 milions de mots
  • Un còrpus parallèle occitan-francés de mei d'un milion de mots
  • Petits còrpus parallèles de l'occitan de cap a d'autas lengas, per un totau de mei de 300 000 mots
  • Un còrpus audio alinhat de mei de 250 òras per quasi 1,5 milion de mots

Los còrpus audio e escriut que serveishen a entrainar l'intelligéncia artificiau deu futur utís de reconeishença vocau dens l'encastre deu projècte ReVoc. D'uns soscòrpus qu'estón tanben hargats entà testar lo traductor automatic Revirada e seleccionar frasas a enregistrar entà la sintèsi vocau Votz.