Web sémantique : Microsoft, Google et Yahoo collaborent sur un microformat pour structurer le HTML pour les moteurs de recherche

Le 03/06/2011, par Idelways, Coordinateur publications
Microsoft, Google et Yahoo! annoncent conjointement une nouvelle initiative de Web sémantique qui propose aux webmasters un vocabulaire nouveau à utiliser dans leurs balises HTML afin de mieux structurer les données qu'ils présentent aux moteurs de recherche.

Ces microdonnées seront utilisées par les moteurs pour identifier les informations utiles et améliorer la pertinence et l'affichage des sites qui les utilisent sur les résultats de recherche.

Le site de ce microformat (Schema.org) propose plus d'une centaine de concepts à représenter. Des concepts qui vont de l'abstraite entité « chose » aux notions les plus spécialisées comme le casting d'une série TV et les horaires d'ouverture du zoo.

L'ajout de ces données se fait sur les balises habituelles du HTML ou en rajoutant si nécessaire des balises sémantiquement neutres (<div> et <span>) imbriquées selon le besoin. Les microdonnées sont concrètement insérées dans des attributs de HTML5 : itemprop, itemscope, itemtype...

Google reconnait dans son annonce que l'ajout de ces microdonnées nécessitera beaucoup de temps et d'effort de la part des développeurs Web, mais estime que cette manipulation nécessaire « serait beaucoup plus difficile si chaque moteur de recherche demandait ces données à sa manière ».

Et c'est d'ailleurs jusque-là le cas pour Yahoo! et Google qui proposent depuis 2009 d'ajouter des microdonnées différentes : Search Monkey pour Yahoo! et Rich snippets pour Google. Cette nouvelle spécification dérive justement en partie de ces recommandations-là.

Le catalogue de Schema.org sera étoffé en fonction des retours d'expériences des Webmasters, affirme Google, les développeurs ayant déjà mis au point les microformats RDFa continueront à les voir s'afficher sur les Rich snippets de ses résultats.

Cette annonce de collaboration couronne des décennies de recherches sur les bases de données de représentation, par des communautés diverses telles que les projets SDSS Skyserver, Cyc, dbpedia.org et Linked Data.

Si les annonces de cette initiative ne parlent que des intérêts pour les moteurs de recherche, les usages qui peuvent découler de sa large utilisation sont incalculables.

Pour mémoire, ce n'est pas là première fois que ces trois rivales (ou plutôt deux depuis l’annonce du partenariat de Yahoo! et Bing) collaborent pour améliorer l'indexation des sites.
En 2006, les trois géants des services en ligne avaient allié leurs efforts pour établir une norme pour les Sitemap, ces fichiers texte ou XML qui orientent les crawlers (ou sniffeurs) des moteurs de recherche lors de l'indexation des pages.

Site officiel de l'initiative Schema.org
Toute la hiérarchie des types représentés

Source : annonce de Google, de Bing, de Yahoo

Merci à Claude Leloup pour la relecture orthographique !

Et vous ?

Que pensez-vous de cette nouvelle initiative ?
Allez-vous commencer à insérer ces microdonnées dans vos pages Web ?

Les rubriques (actu, forums, tutos) de Développez


Poster une réponse Retrouver la discussion sur le forum

Avatar de jpvincent jpvincent
Membre chevronné
le 03/06/2011

Citation:





Envoyé par nazoreen
Voir le message

En effet, ça va être long à apprendre tout ça !



Ça n'est jamais complètement gratuit de se conformer à une norme, mais en l'occurrence inutile d'apprendre par coeur les dizaines de formats, il suffit de repérer les quelques uns qui concernent ton site et d'adapter tes templates HTML en fonction.

Après comme tous les essais de Web sémantique jusqu'ici (RDFa, microdata et des dizaines d'initiatives), ce qui va compter, c'est l'adoption par la communauté. Si cette annonce trouve un gros écho, ça vaut la peine de s'y mettre non seulement pour les moteurs de recherche mais en plus pour tout ce qui est capable de lire du HTML (navigateurs et plugins, moteurs de recherche spécialisés comme les comparateurs de prix...).


Citation:





Envoyé par jl54
Voir le message

Question: c'est réservé aux documents en HTML5 ou aussi à d'autres ex XHTML ?



C'est du HTML normal auquel on ajoute trois propriétés, donc ça passe partout y compris en XML.
Avatar de Ouaibou Ouaibou
Candidat au titre de Membre du Club
le 03/06/2011
Ils sont juste en train de réinventer RDFa. C'est d'autant plus incompréhensible que Google supporte déjà les annotations décrites sur schema.org avec RDFa (cf. http://www.google.com/support/webmas...&answer=146898).
Avatar de psychadelic psychadelic
Membre expérimenté
le 04/06/2011
Qu'importe si certains estiment qu'ils ne font que réinventer la roue;

Si utiliser leurs microformats fait monter le pageRank d'un site, ce sera incontournable.

Du reste, améliorer le PageRank d'un site est un tel parcours du combattant, si on peut enfin avoir quelque chose de cohérent et d'impartial pour classer les sites, moi, je suis pour .
Avatar de tomlev tomlev
Responsable .NET
le 05/06/2011

Citation:





Envoyé par jpvincent
Voir le message

C'est du HTML normal auquel on ajoute trois propriétés, donc ça passe partout y compris en XML.


Pas tout à fait quand même... par exemple ceci :
Code HTML :
123
<div itemscope itemtype="http://schema.org/Movie">
    ...
</div>


n'est pas du XML valide (un attribut doit avoir une valeur).

Mais bon, de toute façon ça ne change pas grand-chose, vu qu'un document HTML n'était déjà pas un document XML valide avant ça (sauf XHTML)
Avatar de dourouc05 dourouc05
Responsable Qt & Web sémantique
le 05/06/2011

Citation:





Envoyé par Ouaibou
Voir le message

Ils sont juste en train de réinventer RDFa. C'est d'autant plus incompréhensible que Google supporte déjà les annotations décrites sur schema.org avec RDFa (cf. http://www.google.com/support/webmas...&answer=146898).



Ils ne réinventent rien du tout. Juste comme ça, ils se basent sur HTML5 et les microdonnées qu'il introduit (http://tcuvelier.developpez.com/tuto.../introduction/). Rien de réinventé ou autre, c'est juste que le W3C aime faire les choses en plusieurs exemplaires, ça n'a strictement rien à voir avec schema.org. (En fait, RDFa est plus pour les documents XML, les microdonnées pour du HTML).


Citation:





Envoyé par jpvincent
Voir le message

C'est du HTML normal auquel on ajoute trois propriétés, donc ça passe partout y compris en XML.



Ce n'est autorisé par le schéma que pour HTML5 ; avant, point de salut en dehors des microformats. Si tu veux du compatible XML, tu n'as qu'un seul choix : RDFa. Le HTML est un lointain cousin du XML, il n'en est pas enfant...
Avatar de dasdeb dasdeb
Membre régulier
le 12/09/2011
schema.org est une bonne initiative, mais...
  1. C'est contradictoire avec le fait de réclamer des pages plus légères étant donné qu'il faut ajouter des éléments (assez importants) dans les tags.

  2. Il est impossible (à ma connaissance) de les utiliser avec les CSS.


A côté de ça nous avons les microformats hxxxx qui, eux, sont des classes, prennent moins de place et sont utilisable avec les CSS.
Donc, même si j'aime bien le concept de schema.org, les microformats sous forme de classes sont bien plus pratique, tant du point de vue du développeur que du point de vue du visiteur (page moins lourde à charger).

Pour conclure, je dirai que c'est un constat d'échec de la part des robots/moteurs de recherche à analyser le contenu des pages qu'ils indexent/proposent en résultat, d'autant plus que c'est, là encore, en contradiction avec leur recommandation :
faites vos pages pour les humains, pas pour les robots
qui devient donc :
faites vos pages pour les humains et les robots.
Avatar de dourouc05 dourouc05
Responsable Qt & Web sémantique
le 12/09/2011

Citation:





Envoyé par dasdeb
Voir le message

[*]C'est contradictoire avec le fait de réclamer des pages plus légères étant donné qu'il faut ajouter des éléments (assez importants) dans les tags.



De même, XHTML n'est pas à utiliser, il faut fermer ses balises, c'est beaucoup trop de place perdue.
De même, mettre autre chose que du texte, c'est une perte de place, retournons donc aux pages avec exclusivement du texte.
De même, il est inutile de mettre des <head> et des <body>, des <thead>, <tfoot> et <tbody> et bien d'autres, ça prend de la place inutilement et les pages sont toujours lisibles.


Citation:





Envoyé par dasdeb
Voir le message

[*]Il est impossible (à ma connaissance) de les utiliser avec les CSS.



Ah ? Depuis quand ? Rien ne vient interférer avec ce qui concerne CSS... sauf les microformats, que tu plébiscites justement.

Aussi, les microformats ne sont pas vraiment standardisés, alors que Schema.org veut se baser sur le standard HTML5. Les microformats réutilisent quelque chose qui existait et qui semblait libre. Une pratique exemplaire du développement, il me semble. Sans oublier que, si tu dois ajouter des microformats à un site existant, il faut presque prier pour ne rien casser, surtout en cas de templates personnalisables (auquel cas tu n'as aucun contrôle sur les classes définies par l'utilisateur, qui peut très bien venir piétiner sur ce que tu espérais utiliser).


Citation:





Envoyé par dasdeb
Voir le message

qui devient donc :
faites vos pages pour les humains et les robots.



L'objectif n'a pas changé : tu ne viens que marquer de nouvelles choses pour les robots, qui étaient déjà disponibles à l'humain - à prix de la lecture du texte, ce qui peut être dur pour certains (notamment, fatigue oculaire, due à la vieillesse).
Avatar de dasdeb dasdeb
Membre régulier
le 12/09/2011

Citation:





Envoyé par dourouc05
Voir le message

De même, XHTML n'est pas à utiliser, il faut fermer ses balises, c'est beaucoup trop de place perdue.
De même, mettre autre chose que du texte, c'est une perte de place, retournons donc aux pages avec exclusivement du texte.
De même, il est inutile de mettre des <head> et des <body>, des <thead>, <tfoot> et <tbody> et bien d'autres, ça prend de la place inutilement et les pages sont toujours lisibles.




Gné ? Je parle du fait que, d'un côté Google et compagnie veulent des pages rapides à charger et que de l'autre ils préconisent de les alourdir...


Citation:





Envoyé par dourouc05
Voir le message

Ah ? Depuis quand ? Rien ne vient interférer avec ce qui concerne CSS... sauf les microformats, que tu plébiscites justement.



Les microformats type vcard utilisent les classes, c'est donc facile de les styler directement.
Peut-on faire de même avec les microformats de type schema.org ?


Citation:





Envoyé par dourouc05
Voir le message

Aussi, les microformats ne sont pas vraiment standardisés, alors que Schema.org veut se baser sur le standard HTML5. Les microformats réutilisent quelque chose qui existait et qui semblait libre. Une pratique exemplaire du développement, il me semble. Sans oublier que, si tu dois ajouter des microformats à un site existant, il faut presque prier pour ne rien casser, surtout en cas de templates personnalisables (auquel cas tu n'as aucun contrôle sur les classes définies par l'utilisateur, qui peut très bien venir piétiner sur ce que tu espérais utiliser).




Je suis bien d'accord avec toi. Ce que je dis c'est que réclamer des pages rapides à charger tout en préconisant leur alourdissement par des tonnes d'éléments purement destinés à l'usage des robots est contradictoire.


Citation:





Envoyé par dourouc05
Voir le message

L'objectif n'a pas changé : tu ne viens que marquer de nouvelles choses pour les robots, qui étaient déjà disponibles à l'humain - à prix de la lecture du texte, ce qui peut être dur pour certains (notamment, fatigue oculaire, due à la vieillesse).



Et tu ne fais que confirmer ce que j'ai dit, Google (pour ne citer que lui) se contredit et avoue qu'il n'est pas à même d'analyser correctement les pages qu'il parcoure.

Le problème de tout ça, c'est que les webmaster qui ont pris le parti d'utiliser d'autres formes de microformats vont se retrouver dans la panade (même s'il est précisé par Google qu'ils continuent à interpréter ces autres microformats... ce qui n'engage pas les autres moteurs) car ce sont quand même Google, Bing et yahoo! qui participent à schema.org. Manquerait plus que Baidu et Yandex se joignent à eux et c'est terminé...
Avatar de dourouc05 dourouc05
Responsable Qt & Web sémantique
le 12/09/2011

Citation:





Envoyé par dasdeb
Voir le message

Gné ? Je parle du fait que, d'un côté Google et compagnie veulent des pages rapides à charger et que de l'autre ils préconisent de les alourdir...



Et que, de toute façon, respecter les standards, c'est déjà alourdir les pages, encore plus si on est en XML.


Citation:





Envoyé par dasdeb
Voir le message

Les microformats type vcard utilisent les classes, c'est donc facile de les styler directement.
Peut-on faire de même avec les microformats de type schema.org ?



Les microformats sont propres et ne mélangent pas les genres. Qu'ils soient Schema.org ou autre, ça ne change rien (juste le vocabulaire employé).


Citation:





Envoyé par dasdeb
Voir le message

Le problème de tout ça, c'est que les webmaster qui ont pris le parti d'utiliser d'autres formes de microformats vont se retrouver dans la panade (même s'il est précisé par Google qu'ils continuent à interpréter ces autres microformats... ce qui n'engage pas les autres moteurs) car ce sont quand même Google, Bing et yahoo! qui participent à schema.org. Manquerait plus que Baidu et Yandex se joignent à eux et c'est terminé...



Et les webmasters qui ont pris le parti d'utiliser autre chose (RDFa, eRDF) ?
Et les nouveaux venus ?

Au contraire, c'est mieux de tout uniformiser : on ne devra plus se poser la question de savoir quelle technologie utiliser, quels vocabulaires, tout sera directement compris par les moteurs de recherche, navigateurs et autres. On a eu beaucoup de divergences de JS, par exemple, qui ont finies (à peu près) résorbées (par les navigateurs récents, du moins, IE6 ne compte pas), sans que ce soit un grand mal : c'est la même chose.
Avatar de Macmillenium Macmillenium
Rédacteur/Modérateur
le 22/09/2011

Citation:





Envoyé par dasdeb
Voir le message

[*]Il est impossible (à ma connaissance) de les utiliser avec les CSS.


Si, exemple:
Code css :
12
 
span[itemprop="name"] { color:red }


fonctionne sur tous les navigateurs qui implémentent les sélecteurs d'attributs. Tu peux même utiliser les microformats ET les microdata comme sélecteurs CSS:

Code css :



1
2
 
.fn[itemprop="name"] { color:red }

 
 
 
 
Partenaires

Hébergement Web