Developpez.com

Le Club des Développeurs et IT Pro

Web sémantique : Microsoft, Google et Yahoo collaborent sur un microformat

Pour structurer le HTML pour les moteurs de recherche

Le 2011-06-03 11:42:52, par Idelways, Expert éminent sénior
Microsoft, Google et Yahoo! annoncent conjointement une nouvelle initiative de Web sémantique qui propose aux webmasters un vocabulaire nouveau à utiliser dans leurs balises HTML afin de mieux structurer les données qu'ils présentent aux moteurs de recherche.

Ces microdonnées seront utilisées par les moteurs pour identifier les informations utiles et améliorer la pertinence et l'affichage des sites qui les utilisent sur les résultats de recherche.

Le site de ce microformat (Schema.org) propose plus d'une centaine de concepts à représenter. Des concepts qui vont de l'abstraite entité « chose » aux notions les plus spécialisées comme le casting d'une série TV et les horaires d'ouverture du zoo.

L'ajout de ces données se fait sur les balises habituelles du HTML ou en rajoutant si nécessaire des balises sémantiquement neutres (<div> et <span> imbriquées selon le besoin. Les microdonnées sont concrètement insérées dans des attributs de HTML5 : itemprop, itemscope, itemtype...

Google reconnait dans son annonce que l'ajout de ces microdonnées nécessitera beaucoup de temps et d'effort de la part des développeurs Web, mais estime que cette manipulation nécessaire « serait beaucoup plus difficile si chaque moteur de recherche demandait ces données à sa manière ».

Et c'est d'ailleurs jusque-là le cas pour Yahoo! et Google qui proposent depuis 2009 d'ajouter des microdonnées différentes : Search Monkey pour Yahoo! et Rich snippets pour Google. Cette nouvelle spécification dérive justement en partie de ces recommandations-là.

Le catalogue de Schema.org sera étoffé en fonction des retours d'expériences des Webmasters, affirme Google, les développeurs ayant déjà mis au point les microformats RDFa continueront à les voir s'afficher sur les Rich snippets de ses résultats.

Cette annonce de collaboration couronne des décennies de recherches sur les bases de données de représentation, par des communautés diverses telles que les projets SDSS Skyserver, Cyc, dbpedia.org et Linked Data.

Si les annonces de cette initiative ne parlent que des intérêts pour les moteurs de recherche, les usages qui peuvent découler de sa large utilisation sont incalculables.

Pour mémoire, ce n'est pas là première fois que ces trois rivales (ou plutôt deux depuis l’annonce du partenariat de Yahoo! et Bing) collaborent pour améliorer l'indexation des sites.
En 2006, les trois géants des services en ligne avaient allié leurs efforts pour établir une norme pour les Sitemap, ces fichiers texte ou XML qui orientent les crawlers (ou sniffeurs) des moteurs de recherche lors de l'indexation des pages.

Site officiel de l'initiative Schema.org
Toute la hiérarchie des types représentés

Source : annonce de Google, de Bing, de Yahoo

Merci à Claude Leloup pour la relecture orthographique !

Et vous ?

Que pensez-vous de cette nouvelle initiative ?
Allez-vous commencer à insérer ces microdonnées dans vos pages Web ?
  Discussion forum
14 commentaires
  • dourouc05
    Responsable Qt & Livres
    Envoyé par xurei
    C'est quoi la différence avec la balise META, que les moteurs de recherche n'utilisent plus parce trop de sites en abusent ?
    Elle est énorme : la balise META concerne toute la page, les microdonnées ne concernent que des éléments bien précis. Pour plus d'infos, http://tcuvelier.developpez.com/tuto.../introduction/.
  • Macmillenium
    Rédacteur
    Envoyé par dasdeb 
    [*]Il est impossible (à ma connaissance) de les utiliser avec les CSS.

    Si, exemple:
    Code css :
    1
    2
      
    span[itemprop="name"] { color:red }

    fonctionne sur tous les navigateurs qui implémentent les sélecteurs d'attributs. Tu peux même utiliser les microformats ET les microdata comme sélecteurs CSS:
    Code css :
    1
    2
      
    .fn[itemprop="name"] { color:red }
  • xurei
    Membre averti
    C'est quoi la différence avec la balise META, que les moteurs de recherche n'utilisent plus parce trop de sites en abusent ?
  • nazoreen
    Membre averti
    En effet, ça va être long à apprendre tout ça !
    C'est peut-être plus simple pour les moteurs mais beaucoup moins pour les webmasters, il va falloir travailler en binôme avec une personne dédiée à cette partie parce qu'à moins d'utiliser un IDE qui fera des suggestions il va falloir taper énormément de code !!! (sans compter les vérifications)
  • jl54
    Nouveau Candidat au Club
    Question : c'est réservé aux documents en HTML5 ou aussi à d'autres, comme XHTML ?
  • jpvincent
    Membre éclairé
    Envoyé par nazoreen
    En effet, ça va être long à apprendre tout ça !
    Ça n'est jamais complètement gratuit de se conformer à une norme, mais en l'occurrence inutile d'apprendre par coeur les dizaines de formats, il suffit de repérer les quelques uns qui concernent ton site et d'adapter tes templates HTML en fonction.

    Après comme tous les essais de Web sémantique jusqu'ici (RDFa, microdata et des dizaines d'initiatives), ce qui va compter, c'est l'adoption par la communauté. Si cette annonce trouve un gros écho, ça vaut la peine de s'y mettre non seulement pour les moteurs de recherche mais en plus pour tout ce qui est capable de lire du HTML (navigateurs et plugins, moteurs de recherche spécialisés comme les comparateurs de prix...).

    Envoyé par jl54
    Question: c'est réservé aux documents en HTML5 ou aussi à d'autres ex XHTML ?
    C'est du HTML normal auquel on ajoute trois propriétés, donc ça passe partout y compris en XML.
  • Ouaibou
    Nouveau membre du Club
    Ils sont juste en train de réinventer RDFa. C'est d'autant plus incompréhensible que Google supporte déjà les annotations décrites sur schema.org avec RDFa (cf. http://www.google.com/support/webmas...;answer=146898).
  • psychadelic
    Expert confirmé
    Qu'importe si certains estiment qu'ils ne font que réinventer la roue;

    Si utiliser leurs microformats fait monter le pageRank d'un site, ce sera incontournable.

    Du reste, améliorer le PageRank d'un site est un tel parcours du combattant, si on peut enfin avoir quelque chose de cohérent et d'impartial pour classer les sites, moi, je suis pour .
  • tomlev
    Rédacteur/Modérateur
    Envoyé par jpvincent 
    C'est du HTML normal auquel on ajoute trois propriétés, donc ça passe partout y compris en XML.

    Pas tout à fait quand même... par exemple ceci :

    Code HTML :
    1
    2
    3
    <div itemscope itemtype="http://schema.org/Movie"> 
        ... 
    </div>

    n'est pas du XML valide (un attribut doit avoir une valeur).

    Mais bon, de toute façon ça ne change pas grand-chose, vu qu'un document HTML n'était déjà pas un document XML valide avant ça (sauf XHTML)
  • dourouc05
    Responsable Qt & Livres
    Envoyé par Ouaibou
    Ils sont juste en train de réinventer RDFa. C'est d'autant plus incompréhensible que Google supporte déjà les annotations décrites sur schema.org avec RDFa (cf. http://www.google.com/support/webmas...;answer=146898).
    Ils ne réinventent rien du tout. Juste comme ça, ils se basent sur HTML5 et les microdonnées qu'il introduit (http://tcuvelier.developpez.com/tuto.../introduction/). Rien de réinventé ou autre, c'est juste que le W3C aime faire les choses en plusieurs exemplaires, ça n'a strictement rien à voir avec schema.org. (En fait, RDFa est plus pour les documents XML, les microdonnées pour du HTML).

    Envoyé par jpvincent
    C'est du HTML normal auquel on ajoute trois propriétés, donc ça passe partout y compris en XML.
    Ce n'est autorisé par le schéma que pour HTML5 ; avant, point de salut en dehors des microformats. Si tu veux du compatible XML, tu n'as qu'un seul choix : RDFa. Le HTML est un lointain cousin du XML, il n'en est pas enfant...