IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La version 13.0 de la norme Unicode est disponible,
Avec 5390 nouveaux caractères, y compris 4 nouveaux scripts et 55 nouveaux caractères émoji

Le , par Stan Adkens

591PARTAGES

6  0 
Un an après qu’Unicode Inc. ait publié la version 12.0 du standard informatique qui permet des échanges de textes dans différentes langues à un niveau mondial, le Consortium Unicode a publié mardi la version 13.0 de la norme Unicode, y compris la spécification de base, les annexes et les fichiers de données. Selon un article publié hier sur le blog d’Unicode, cette dernière version ajoute 5 390 nouveaux caractères, portant le total de caractères dans la norme à 143 859 caractères, contre un total de 137 912 au lancement d’Unicode 12.0. Ces ajouts comprennent quatre nouveaux scripts, pour un total de 154 scripts, ainsi que 55 nouveaux caractères emoji.

Ces caractères sont disponibles pour aider le travail du Consortium Unicode sur les langues numériquement défavorisées. Les nouveaux scripts et caractères de la version 13.0 prennent en charge les groupes de langues modernes d'Afrique, du Pakistan, d'Asie du Sud et de Chine. Cette version ajout des caractères arabes pour écrire le haoussa, le wolof et d'autres langues en Afrique, et d'autres ajouts pour écrire le hindko et le panjabi au Pakistan. Un caractère a été ajouté pour Syloti Nagri, un script en voie de disparition utilisé pour écrire la langue Sylheti en Asie du Sud, et un autre pour Bopomofo, un alphabet créé pour être utilisé dans la transcription du mandarin à des fins pédagogiques et didactiques pour le cantonais.


Les mises à jour dans Unicode 13.0 étendent le soutien aux travaux universitaires à l’échelle mondiale, notamment :

  • Yezidi, utilisé historiquement en Irak et en Géorgie à des fins liturgiques, avec un certain renouveau de l'usage moderne
  • Chorasmian, historiquement utilisé en Asie centrale en Ouzbékistan, au Kazakhstan et au Turkménistan pour écrire une langue iranienne orientale éteinte
  • Dives Akuru, historiquement utilisé aux Maldives jusqu'au 20e siècle
  • Khitan Small Script, historiquement utilisée dans le nord de la Chine.


Les ajouts de symboles populaires comprennent :

Mises à jour des émojis : 55 caractères emoji, dont plusieurs nouveaux emoji pour les smileys, les personnes neutres, les animaux et la plante en pot. Ces mises à jours font suite à l'annonce du mois dernier de la liste finale des 117 nouveaux emojis pour 2020, et ouvre la voie à l'ajout d'un nouveau support des emojis sur les principales plateformes tout au long de l'année, selon un article de blog d’Emojipedia. Les nouveaux caractères émoji incluent des ajouts tels que "Smiling Face with Tear", "People Hugging", "Bubble Tea" et "Ninja".

La documentation relative à la norme Unicode publiée mardi ne fournit que des glyphes en noir et blanc et, de par leur nature, les implémentations d'emoji en couleur seront différentes de ces modèles. Parmi les nouvelles entrées, un piston, une mouche, un cœur anatomique et des myrtilles et autres.


Selon Emojipedia, la sortie d'Unicode 13.0 ne signifie pas que les utilisateurs peuvent accéder ou utiliser les nouveaux emoji 2020. Selon le site Web, ce que les mises à jour du Consortium Unicode indiquent, c'est quand les principaux fournisseurs tels qu'Apple, Google ou Samsung pourront mettre en œuvre ces nouveaux émojis dans leurs logiciels.

Symboles de licence Creative Commons : Six symboles de licence Creative Commons utilisés pour décrire les fonctions, les autorisations et les concepts liés à la propriété intellectuelle qui sont largement utilisés sur le web. A ces derniers, le Consortium Unicode ajoute d'autres glyphes connexes pour les licences non commerciales, ou pour indiquer où l'attribution est requise. Ces nouveaux ajouts aideront les créateurs à répertorier les informations appropriées sur les licences sous forme de texte, de la même manière que © ® et ™ peuvent déjà être insérés dans le texte, lorsqu'ils sont soutenus par les principaux fournisseurs.


Nouvelles marques de lecture vietnamiennes: deux marques de lecture vietnamiennes ajoutées qui marquent les idéogrammes comme ayant une lecture distincte et familière.

214 nouveaux caractères graphiques : 214 caractères graphiques qui assurent la compatibilité avec divers ordinateurs domestiques du milieu des années 70 au milieu des années 80 et avec les premières normes de diffusion du télétexte. Ces derniers permettront aux émulateurs d'afficher correctement le texte qui serait apparu sur les ordinateurs pendant ces périodes-là, s'ils sont réintroduits en 2020, d’après l’article de blog. Beaucoup de ces glyphes s'assemblent en séquence horizontale pour créer des formes ou des symboles plus grands.


Le support des idéogrammes unifiés chinois, japonais et coréens (CJK) a été amélioré dans la version 13.0 par l'ajout de 4 939 caractères dans l'extension G, qui est le premier bloc à être encodé dans le plan 3, ainsi que par des corrections et des améliorations importantes de la base de données Unihan. Les modifications apportées à Unihan comprennent la mise à jour des expressions régulières pour de nombreuses propriétés, l'ajout de plusieurs nouvelles propriétés et la suppression de trois propriétés provisoires obsolètes.

Unicode 13.0 vient aussi avec des mises à jour importantes des polices de caractères des graphiques, notamment : une mise à jour des tableaux de codes pour le script Adlam, qui utilise désormais la police Ebrima. Cette police a une conception améliorée et a été largement acceptée par la communauté des utilisateurs ; et une police complètement mise à jour pour les blocs CJK Radicals Supplement et Kangxi Radicals. Un soutien supplémentaire a été accordé aux langues moins utilisées et aux travaux universitaires, notamment un caractère utilisé en cinghalais pour écrire le sanskrit.

Les propriétés et les spécifications d'Unicode déterminent le comportement du texte sur les ordinateurs et les téléphones. Dans la version 13.0 du standard Unicode, les annexes standards Unicode suivantes présentent des modifications notables liées aux modifications apportées aux propriétés des caractères. En particulier, cinq annexes Unicode importantes ont été mises à jour :

  • UAX n° 14 : algorithme de rupture de ligne Unicode
  • UAX n° 29 : segmentation de texte Unicode
  • UAX n° 31 : identificateur Unicode et syntaxe des motifs
  • UAX n° 38 : base de données Han Unicode (Unihan)
  • UAX n° 45 : idéogrammes de source U

Trois importantes spécifications Unicode ont également été mises à jour pour la version 13.0 :

  • UTS n° 10 : algorithme de collationnement Unicode - tri du texte Unicode
  • STE n° 39 : mécanismes de sécurité Unicode - réduire l'usurpation d'identité Unicode
  • UTS n° 46 : traitement de la compatibilité Unicode IDNA - traitement compatible des URL non ASCII

Le standard Unicode est la base de tous les logiciels et communications modernes dans le monde, y compris les systèmes d'exploitation, les navigateurs, les ordinateurs portables et les téléphones intelligents, ainsi que l'Internet et le Web (URL, HTML, XML, CSS, JSON, etc.). La norme Unicode, les normes qui lui sont associées et les données constituent la base des versions CLDR et ICU. L'émergence de la norme Unicode et la disponibilité des outils qui la prennent en charge comptent parmi les tendances les plus récentes de la technologie logicielle mondiale.

Source : Unicode

Et vous ?

Que pensez-vous des nouveaux ajouts Unicode 13.0 ?

Lire aussi

La version 12.0 du standard Unicode est disponible, apporte 554 nouveaux caractères, et prend en charge les langues moins utilisées
Unicode donne la liste finale des emoji avec la version Emoji 12.0, l'un d'eux est bien parti pour s'ajouter dans la liste des emoji suggestifs
La version 9.0 du standard Unicode est disponible et apporte 7500 nouveaux caractères, parmi lesquels 72 emojis

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de esperanto
Membre émérite https://www.developpez.com
Le 12/03/2020 à 10:21
Citation Envoyé par Steinvikel Voir le message
Par " support des idéogrammes unifiés chinois, japonais et coréens (CJK) ", qu'entends-t-on ?
Un support unifié, ou l'unification d'une part commune de leur système d'écriture ?
Unicode a décidé depuis ses débuts que puisqu'on leur attribuait déjà une grande plage de valeurs disponibles, on n'allait pas en plus attribuer un code différent si un caractère d'origine chinoise s'écrit différemment en japonais ou en coréen (ce n'est pas le cas de tous les caractères mais il y en a quelques-uns). "Vous n'avez qu'à avoir des polices de caractères différentes", qu'ils disent. Le souci c'est que du coup, ça devient compliqué d'avoir une citation en chinois au milieu d'un texte en japonais, ou l'inverse.
Ce n'est pas nouveau, c'est le cas depuis les toutes premières versions d'Unicode, et ils ne semblent pas avoir décidé d'en changer depuis, même de façon optionnelle (dans l'article ils disent qu'ils ont ajouté des caractères dans le plan 3, réservé aux caractères chinois rares, mais ils ne semblent toujours pas décidés à y ajouter des variantes coréennes ou japonaises par exemple). Quelques exemples ici (ici les exemples marchent bien parce qu'on a spécifié la langue dans une balise HTML; mais si tu veux écrire en texte brut alors aucun moyen...)
Entre ce choix historique controversé et l'obstination des occidentaux à préférer UTF-8 (qui nécessite 3 octets pour les caractères chinois!) plutôt qu'UCS-2 ou UTF-16, on comprend pourquoi Unicode reste assez peu utilisé dans les pays asiatiques (le plus souvent ils continuent d'utiliser les encodages spécifiques qui existaient avant Unicode). En fait quand un programme utilisé en Asie fonctionne avec Unicode, il y a de grandes chances qu'il ait été conçu en occident...
2  0 
Avatar de Steinvikel
Membre expert https://www.developpez.com
Le 11/03/2020 à 19:08
Par " support des idéogrammes unifiés chinois, japonais et coréens (CJK) ", qu'entends-t-on ?
Un support unifié, ou l'unification d'une part commune de leur système d'écriture ?
0  0 
Avatar de Steinvikel
Membre expert https://www.developpez.com
Le 13/03/2020 à 2:40
Va-t-on finir par déboucher sur un Unicode "latin", + un Unicode remanié "Asicode" ?
...c'est la sensation que ça me laisse. ^^'
Quel joyeux bordel... et on a même pas abordé les polices d'écritures ! x)
0  0 
Avatar de esperanto
Membre émérite https://www.developpez.com
Le 13/03/2020 à 8:16
Citation Envoyé par Steinvikel Voir le message
Va-t-on finir par déboucher sur un Unicode "latin", + un Unicode remanié "Asicode" ?
Même pas, parce qu'en plus ces pays ne s'apprécient pas trop et donc ne collaborent pas entre eux!
Du coup on a un encodage spécifique en Chine, un autre au Japon, un autre en Corée, encore un à Taiwan... bref, tout le contraire d'une unification.
Et bien sûr les encodages japonais ne contiennent pas les caractères n'existant qu'en Chine et inversement.

Quand on y pense, hors de toute considération politique, l'initiative UniHan n'est pas stupide mais le problème est plutôt qu'Unicode refuse toute indication contextuelle (idée: qu'un numéro ait une signification différente suivant les caractères ou octets qui le précèdent) et ne propose pas pour autant une solution quand il faut réellement faire la distinction (cas de la phrase en japonais au milieu d'un texte en chinois). Pourtant ils l'avaient fait pour l'écriture arabe (voir "formes de présentation arabe" dans Unicode).
0  0 
Avatar de Steinvikel
Membre expert https://www.developpez.com
Le 13/03/2020 à 20:02
L'idée d'Unicode, c'est d'avoir un répertoire exhaustif de caratère unique, je comprend donc leur position.
Ce qu'il faudrait ajouter, c'est à l'image d'un dictionnaire, plusieurs sens à un unique caractères, pour avoir une interprétation contextuelle.
Et il me semble que c'est déjà le cas ...mais pas pour tout les caractères. ^^'
0  0 
Avatar de esperanto
Membre émérite https://www.developpez.com
Le 15/03/2020 à 19:14
Citation Envoyé par Steinvikel Voir le message
L'idée d'Unicode, c'est d'avoir un répertoire exhaustif de caractère unique, je comprend donc leur position.
Hélas ce n'est pas si simple car tout dépend de la définition du mot caractère. Même la définition proposée par Unicode (au chapitre 1 de la spécification) est sujette à interprétation, et comme tu le verras dans les exemples qui suivent, ils ne s'en privent pas.

Même sans s'intéresser aux caractères chinois, on peut déjà parler de caractères français, comme par exemple notre ê. Une première approche est de le considérer comme un caractère unique, et c'est ce qu'a initialement fait Unicode en lui attribuant le numéro 00EA.
Maintenant, pense au fait que pour taper ce caractère il faut actuellement utiliser deux touches, la première étant qualifiée de "touche morte". On pourrait faire remonter ça à l'époque des machines à écrire, certaines touches frappant le papier sans entraîner de mouvement juste après. Mais en fait ça remonte même aux débuts de l'imprimerie: à l'époque on appelait "caractères mobiles" des plaques qu'on mettait les unes à côté des autres pour former le texte, et parfois au dessus ou en dessous des autres. Notre ê était alors généralement formé de 2 caractères mobiles posés un au dessus de l'autre. Donc le ê, ce n'était pas un caractère, mais deux.
Au risque de surprendre, Unicode supporte également cette deuxième forme qu'il appelle forme canonique: le ê peut aussi s'écrire avec les deux caractères 0065 0302: le premier code un e, le second un ^ mais avec la particularité de se superposer au caractère qui le précède. On obtient alors ê et en principe on ne doit pas voir la différence, même si certaines polices de caractère risquent de mal l'interpréter (bizarrement chez moi ça marche sous linux mais pas sous windows!).
Beaucoup de gens préfèrent la forme originale, soit pour des raisons historiques soit parce qu'elle occupe moins de mémoire; mais en réalité, la forme canonique a aussi des avantages: elle rend bien plus facile l'écriture de nombreux algorithmes, tels qu'une recherche sans tenir compte des accents, ou le classement alphabétique.
D'ailleurs, même d'un point de vue linguistique ça se tient: en français le ê n'est pas considéré comme une lettre distincte du e, la preuve en est que quand tu tries par ordre alphabétique, on est sensé le considérer comme identique (du moins en première passe). Après je ne généralise pas, certaines langues considèrent les lettres accentuées comme des lettres à part entière (en espéranto, ĉ sera entre c et d; en suédois, å vient après le z; etc.) mais généralement, c'est bien plus facile d'implémenter l'ordre alphabétique, quelle que soit la règle, quand on utilise des formes canoniques.
Tout ça pour dire que même en se limitant à l'alphabet latin, l'unicité promise par Unicode en prend déjà un coup. En réalité la seule unicité de cet encodage, c'est sa volonté de supplanter tous les autres!!!

Citation Envoyé par Steinvikel Voir le message
Ce qu'il faudrait ajouter, c'est à l'image d'un dictionnaire, plusieurs sens à un unique caractères, pour avoir une interprétation contextuelle.
Pour en revenir aux caractères chinois, ici c'est plutôt le contraire: dans cette page, tous les caractères d'une même ligne ont la même signification (celle qui est donnée sur la dernière colonne), c'est plutôt la forme qui varie d'un pays (ou plus exactement d'une langue) à l'autre.
Il faudrait donc, justement, ajouter des contextes, c'est à dire un moyen d'indiquer que le caractère qui suit doit être écrit sous sa forme chinoise ou japonaise. Mais la notion de contexte, c'est à dire l'idée qu'une suite d'octets ne code pas un caractère mais le contexte à utiliser pour le caractère qui va suivre, est justement l'idée qu'Unicode refuse depuis le début.
Après tout pourquoi pas, mais le problème c'est qu'ils n'offrent aucune alternative. J'aurais bien voulu écrire dans ce message la question « est-ce que 今 et 今 sont deux caractères distincts ou pas? » mais comme le forum ne permet pas de mettre une balise HTML autre que celles prédéfinies (ou alors je n'ai pas trouvé comment) ils risquent fort d'apparaître identiques chez toi. Donc tu vois, même sans écrire en chinois, le seul fait de vouloir donner un exemple suffit à illustrer le problème!

Citation Envoyé par Steinvikel Voir le message
Et il me semble que c'est déjà le cas ...mais pas pour tout les caractères. ^^'
Il y a bien des solutions pour d'autres caractères, mais pas un système de contextes.
Un bon exemple est l'écriture arabe. Dans cet alphabet, chaque lettre a jusqu'à 4 formes différentes suivant la position dans le mot. Unicode propose deux manières de traiter le problème (et hop encore un cas où l'unicité des caractères en prend un coup!)
A l'origine, ISO-8859-6 n'encodait pas le contexte, c'était à l'ordinateur de déterminer tout seul quelle forme était adéquate. Unicode a utilisé cette méthode dans le bloc "arabe". Puis ils se sont rendus compte que dans certains cas il est impossible de déterminer le contexte (par exemple dans ce texte, avec le bloc original je serais incapable d'écrire la phrase « ﭑ et ﭐ sont deux variantes d'une même lettre », ce qui peut être utile dans un manuel scolaire. Alors ils ont créé les « formes de présentation arabe ». Mais évidemment pas question d'utiliser un contexte: chaque forme de chaque caractère a un numéro différent, ce qui fait qu'on passe de 20 lettres arabes à 611 valeurs distinctes!
Alors pourquoi le faire pour l'arabe et pas pour les caractères chinois? Trop nombreux ou pas assez utilisés?
0  0 
Avatar de Steinvikel
Membre expert https://www.developpez.com
Le 16/03/2020 à 15:17
Citation Envoyé par esperanto Voir le message
D'ailleurs, même d'un point de vue linguistique ça se tient: en français le ê n'est pas considéré comme une lettre distincte du e, (...)
Tout ça pour dire que même en se limitant à l'alphabet latin, l'unicité promise par Unicode en prend déjà un coup. En réalité la seule unicité de cet encodage, c'est sa volonté de supplanter tous les autres!!!
(...)
Il faudrait donc, justement, ajouter des contextes, c'est à dire un moyen d'indiquer que le caractère qui suit doit être écrit sous sa forme chinoise ou japonaise. Mais la notion de contexte, c'est à dire l'idée qu'une suite d'octets ne code pas un caractère mais le contexte à utiliser pour le caractère qui va suivre, est justement l'idée qu'Unicode refuse depuis le début.
--> pour moi ê ne devrait pas être codé comme un caractère unique, mais comme deux caractère uniques, à savoir : la lettre 'e' suivis de la diacritique '^' qui la précise. Car c'est l'accent et son contexte qui a du sens, non la lettre. L’hébreu et l'arabe est composé de nombreuses diacritiques à usage canonique.
Comme tu l'évoques, ce que je trouve compliqué, c'est qu'une même lettre peux présenter plusieurs graphies bien distinctes suivant le pays qui l'emploie (lorsque le système d'écriture, voir la langue, est commune).

...et va savoir la différence qu'il subsiste entre certaine graphies vraisemblablement identique en latin --> ^ = U+02C6 +0302

Citation Envoyé par esperanto Voir le message
Alors pourquoi le faire pour l'arabe et pas pour les caractères chinois? Trop nombreux ou pas assez utilisés?
--> trop nombreux... quand ils ont virés les point de clonage, ils se sont privé des 2/3 de leur espace technique. Je pense que depuis cela affecte certains de leurs choix /vision.
0  0