En informatique, on utilise des codes standardisés pour identifier les langues, leurs variétés, leurs graphies et leurs alphabets. Il s'agit là de standards internationaux permettant la compatibilité entre la systèmes d'exploitation, les logiciels, les sites web... Par exemple, un site web multilingue peut aller identifier la langue par défaut d'un navigateur afin de proposer son contenu dans la langue de l'utilisateur. C'est possible parce que les deux codes des langue (celui donnant les paramètres du navigateur et celui pour la langue de la page web) sont les mêmes.
Les « étiquettes d'identification des langues IETF » ont été développées par l'Internet Engineering Task Force à partir des normes ISO. Elles sont rassemblées dans un registre géré par l'IANA (Internet Assigned Numbers Authority) dans lesquels les concepteurs de logiciels ou de sites web vont chercher les codes nécessaires pour leurs développements.
Ces étiquettes sont constituées des sous-étiquettes (subtags) suivantes :
- Une sous-étiquette de langue obligatoire, sur deux ou trois lettres, basée sur la norme ISO 639. Pour l'occitan est « oc ». On ne peut pas en changer car elle est enregistré définitivement.
- Une à trois sous-étiquettes d'extension de langues, facultatives, sur 3 lettres. Elles sont utilisées par les macrolangages (ex. : arabe, chinois), mais elles ne sont désormais plus recommandées.
- Une sous-étiquette du système d'écriture, optionnelle, sur 4 lettres, issue de la norme ISO 15924. Pour l'alphabet latin, est « Latn ».
- Une sous-étiquette de région, optionnelle, sur deux lettres majuscules. Il correspond à un État officiel et est basée sur la norme ISO 3166-1.
- Une ou plusieurs sous-étiquettes de variété, optionnelle, sur 5 à 8 caractères. Elles servent à coder des variantes dialectales ou orthographiques spécifiques à une langue.
- Une sous-étiquette d'extension, optionnelle, sur une lettre. Elle est peu utilisée. Il y en a une, par exemple, qui sert à encoder le format de date.
- Une sous-étiquette éventuelle d'extension d'utilisation privée, la lettre x suivie de 1 à 8 caractères, que chacun peut utiliser pour indiquer, par exemple, des variantes pas normalisées ou d'autres sortes de données.
La procédure
en compte la variété interne de l'occitan
dans le développement informatique"
Avant 2018, il n'existait pas d'indication normalisée des variétés de l'occitan donnant les logiciels. L'occitan aranais était, d'habitude, différencié par le code « oc-ES » (sous-étiquette de langue suivie de celle sous-étiquette de pays) et le surplus était encodé en « oc-FR ». Pour répondre aux demandes des développeurs pour pouvoir encoder les variétés géographiques et de la graphie pour l'occitan, le Congrès a engagé une démarche pour en vue d'ajouter les codes standards internationaux afin de prendre en compte la variation interne de l'occitan dans le développement informatique.
Pour ce faire le Congrès a réalisé une enquête auprès des acteurs développant des outils ou ressources informatiques pour l'occitan. Il fit ainsi l'inventaire des besoins en sous-étiquettes pour l'occitan. Cette liste n'avait pas pour but principal de correspondre à une vérité ou à une exhaustivité linguistique. Son objectif était de couvrir les besoins informatiques et applicatifs de différenciation de variétés et de sous-variétés. Par exemple il existait un besoin de pouvoir différencier l'aranais en plus du gascon pour développer des traducteurs automatiques plus efficaces, mais il n'y avait pas, à ce moment-là, de logiciel informatique qui ait besoin de différencier le languedocien oriental du languedocien occidental.
Une première liste fut ainsi établie pour couvrir les besoins applicatifs recensés. Le Congrès déposa les sous-étiquettes pour 10 variétés et sous-variétés et pour 3 graphies de l'occitan, accompagnées de leur bibliographie justificative. Les demandes furent acceptées et les sous-étiquettes sont désormaisintégrées au registre de l'IANA.
Les sous-étiquettes
Les sous-étiquettes (subtags) de variété et de sous variété sont :
- auvern : occitan auvergnat
- gascon : occitan gascon
- lengadoc : occitan lengadocian
- limosin : occitan limousin
- provenc : occitan provençal
- vivaraup : occitan vivaro-alpin
- creiss : variétés du croissant
- aranes : occitan gascon aranais
- cisaup : occitan vivaro-alpin cisalpenc
- nicard : occitan provençal niçois
Les sous-étiquettes de graphie sont :
- grclass : graphie classique
- grit : graphie italianizanta
- grmistr : graphie mistralienne et dérivées (febusiana, Escòla dau Pô)
Si la graphie n'est pas mentionnée dans un sous-étiquette, le texte/logiciel est supposé être en graphie classique. Si un texte est dans une graphie non normalisée, le Congrès préconise d'utiliser un code qui en est pas déposé à l'IANA, « grautres » suivi, si besoin, d'une sous-étiquette d'extension d'utilisation privée (-x) suivie d'une numérotation.
Quelques exemples :
- Pour un texte en occitan provençal en graphie mistralienne : oc-provenc-grmistr
- Pour un texte en occitan gascon en graphie fébusienne : oc-gascon-grmistr
- Pour un texte en occitan languedocien en graphie classique : oc-lengadoc
- Pour un texte en occitan gascon aranais en graphie inconnue : oc-aranes-grautres (pour nous)
- Pour un texte en occitan auvergnat en graphie classique qu'il faut préciser : oc-auvern-grclass
- Pour un texte en occitan provençal niçois en graphie italianisante: oc-nicard-grital
- Pour un texte en occitan cisalpin méridional : oc-cisalp quelque part une information géographique qui précise qu'il est donnant le sud de la zone concernée.
Pour en savoir plus
Document de présentation des codes de l'IANA
Document expliquant les choix et les préconisations pour les sous-étiquettes de variété et de la graphie.
Vous pouvez aussi consulter le registre de l'IANA avec tous les codes de langue, variété, système d'écriture...