Lettre de liaison :

Sélectionnez votre langue

Etiquettes de POS

Dans le domaine du TAL, il existe plusieurs standards internationaux pour étiqueter les catégories grammaticales des mots (Eagles, Grace...). Cependant, ils ne sont pas forcément utilisés par tous les outils. Certains, comme le traducteur automatique Apertium, ont leur propre jeu d'étiquettes. De plus, la plupart des standards ne prennent pas en compte les spécificités propre à l'occitan, comme les énonciatifs gascons.

Le Congrès a donc développé un jeu d'étiquettes de catégories grammaticales adapté à la langue occitane, interopérable avec les standards internationaux et les outils TAL libres de droits les plus utilisés.

"un jeu d'étiquettes à 3 niveaux"

Ce jeu d'étiquette fonctionne avec 3 niveaux :

  • la catégorie générale, correspondant au PoS (Part of Speech) que partagent en général un lemme et ses formes fléchies : « Adj » pour adjectif, « Verbe » pour verbe...
  • la catégorie détaillée, correspondant au PoS + les informations morphosyntaxiques (genre, nombre, informations de conjugaison...) : « AdjMS » pour adjectif masculin singulier, « VerbeIndPres1s » pour verbe à la 1e personne du singulier du présent de l'indicatif...
  • dans d'autres lexiques, notamment ceux à destination du machine learning, on peut ajouter une étiquette plus générale de famille grammaticale qui rassemble les catégories générales ayant un fonctionnement très similaire : « Det » rassemble les déterminants démonstratifs, exclamatifs, indéfinis, interrogatifs, possessifs, relatifs et définis.

L'utilisation de ce jeu d'étiquette pour toutes les ressources du Congrès permet de les rendre interopérables. Un mot dans un corpus de texte a la même étiquette que dans un dictionnaire. Par exemple, si on a dans un texte la phrase « son paire es grand », l'utilisateur peut cliquer sur « son » et avoir la définition du déterminant possessif « son » sans risquer d'atterrir sur la définition du nom commun « un son » (un bruit).

"niveau de granularité très fin"

Le jeu d'étiquette a été construit avec un niveau de granularité très fin. Il permet de distinguer, par exemple, un préadverbe comme « si » (qui ne peut être utilisé que devant un adjectif ou un adverbe), d'un adverbe comme « énormément » (qui peut être utilisé seul). Ou encore le pronom personnel « nos » (« nous ») employé comme pronom tonique (« penser à nous ») ou comme COD antéposé (« il nous regarde »).

Description du jeu d'étiquettes

Presentation du jeu d'étiquettes et description des catégories.

Voir le document

Liste des catégories

Tableur des catégories détaillées et générales avec leurs dénomination.

Voir le document

En savoir plus

Formatage TEI

Le Congrès utilise la norme TEI dans le cadre de son projet Lexics, qui a pour but de formater tous ses lexiques

Voir la page

Codes IANA de variétés

Codes standardisés afin d'identifier les langues, leurs variétés, leurs graphies et leurs alphabets.

Voir la page

Etiquettes de POS

Jeu d'étiquettes grammaticales adapté à la langue occitane.

Voir la page