Developpez.com

Le Club des Développeurs et IT Pro

L'Unicode utilisé pour près de 50% de l'Internet mondial

D'après des statistiques de Google

Le 2010-01-29 05:28:23, par Katleen Erna, Expert éminent sénior
L'Unicode utilisé pour près de 50% de l'Internet mondial, d'après des statistiques de Google

Google vient de publier un graphique analysant les divers encodages de caractères sur Internet (ASCII, Latin-1, Windows 1252 ou l'Unicode). La plupart des encodages ne sont compatibles qu'avec un (ou une poignée) de langages, alors que l'Unicode les prend tous en charge, du chinois au zoulou.

Longtemps, l'Unicode a été utilisé en interne par le géant de Mountain View pour tous les textes recherchés. Tout autre encodage est préalablement converti en Unicode avant que le moteur de recherche ne se mette en marche.

La graphique suivant est tiré de données de Google obtenues lors de l'indexation des pages webs. La position dominante de l'Unicode s'y voit clairement. Son utilisation majoritaire autour du globe ne fait aucun doute, et allège pour Google le processus de prise en charge des différents langages.



Mais l'Unicode ne s'étend pas qu'en terme d'usage, mais aussi par le nombre de caractères qu'il prend en charge. Sa dernière version, la 5.2, en rajoute plus de 6.000 nouveaux.

Source : Le blog de Google
  Discussion forum
4 commentaires
  • s4mk1ng
    Membre expérimenté
    Bah ce qui m'etonnes c'ets pourquoi il n'a "que" 50% si il prend en cherge un panel de languages assez importants.
  • Uther
    Expert éminent sénior
    Certainement parce que ce n'est pas l'encodage par défaut de pas mal d'OS et d'outils de développement.
  • khayyam90
    Rédacteur
    Envoyé par Uther
    Certainement parce que ce n'est pas l'encodage par défaut de pas mal d'OS et d'outils de développement.
    Et parce que ça nécessite des objets particuliers puisque traditionnellement en développement un caractère équivaut à un octet, ce qui n'est plus toujours vrai si on travaille en utf8.
    La progression en flèche de l'Unicode montre bien que c'est la voie à suivre pour tous les futurs développements web.
  • Aurelien.Regat-Barrel
    Expert éminent sénior
    Envoyé par Katleen Erna 
    [B][SIZE="3"]La plupart des encodages ne sont compatibles qu'avec un (ou une poignée) de langages, alors que l'Unicode les prend tous en charge, du chinois au zoulou.

    Apparement le Zoulou est un mauvais exemple, puisqu'il semble que ce soit une des rares langues qui puissent s'écrire en bon vieux ASCII ! Pour le fun, voici la liste des langues qu'on peut écrire en ASCII constituée par cet auteur :
    http://blogamundo.net/dev/2006/12/06...nly-languages/

    Bali
    Basque
    Bemba
    Bicolano, Central
    Bislama
    Bugis
    Cebuano
    Chokwe
    Chuukese
    English
    Ganda
    Hiligaynon
    Hmong Njua
    Hmong, Northern Qiandong
    Hmong, Southern Qiandong
    Ido
    Ilocano
    Indonesian
    Interlingua
    Inuktitut, Greenlandic
    Javanese
    K'iche', Central
    Kaonde
    Konjo
    Koongo
    Latin
    Latin (1)
    Lozi
    Luba-Kasai
    Lunda
    Luvale
    Madura
    Malagasy, Plateau
    Mam, Northern
    Marshallese
    Ndebele
    Ndonga
    Nyanja (Chechewa)
    Nyanja (Chinyanja)
    Nyankore
    Oromo, Borana-Arsi-Guji
    Palauan
    Pampangan
    Pidgin, Nigerian
    Pijin
    Pohnpeian
    Q'eqchi'
    Rundi
    Rwanda
    Shona
    Somali
    Sotho, Southern
    Sunda
    Swahili
    Swati
    Tagalog
    Tetun
    Tonga
    Totonac, Papantla
    Uzbek, Northern (Latin)
    Waray-Waray
    Xhosa
    Yao
    Zhuang, Northern
    Zulu