Developpez.com

Le Club des Développeurs et IT Pro

Le fichier Robots.txt célèbre sa vingtième année

Google opte pour l'humour tandis que Forecheck fait passer un message

Le 2014-07-05 19:47:23, par Stéphane le calme, Chroniqueur Actualités
Il y a déjà vingt ans que le fichier robots.txt, ce protocole d’exclusion des robots adopté en 1994, qui permet de donner des indications aux moteurs de recherche, notamment pour empêcher les robots d'indexation (web crawlers) d'accéder à toute ou une partie d'un site web, a été adopté.

Pour rappel, voici un exemple de contenu du fichier :

Code :
1
2
User-agent: *
Disallow:
L'instruction User-agent: * signifie que la ou les instruction(s) qui suivent s'appliquent pour tous les robots. L'instruction Disallow: signifie que le moteur peut parcourir l'ensemble des répertoires et des pages du site. Note : cela revient au même que de ne pas mettre de robots.txt sur le site.

Google a donc décidé de célébrer les vingt ans de ce protocole sur une pointe d’humour. Pour mieux vous faire profiter de la blague, nous ferons un petit rappel. Ceux qui ont regardé la saga Terminator ont probablement entendu parler des T-1000 et T-800, deux Terminator créés par le super ordinateur militaire Skynet. Le T-800, modèle le plus ancien des deux, est un humanoïde aux capacités de régénération et de mimétisme. Le second, T-1000, est constitué d’un alliage « poly mimétique » dont les propriétés lui permettent de se liquéfier et de se reformer à une très grande vitesse.


Les instructions ont donc été données aux robots T-1000 et T-800 qui ont pour ordre de ne pas s’attaquer aux deux co-fondateurs de Google.

Du côté du spécialiste en SEO Forecheck, l’entreprise fait un petit clin d’œil à Matt Cutts, chargé de la communication sur le référencement/SEO, mais également de l'équipe Webspam chez Google qui a décidé de prendre un long congé de quelques mois pour des raisons personnelles mais également pour se rapprocher de sa femme.



Sources : blog Matt Cutts, Forecheck (fichier Robots.txt), Google (fichier Robots.txt), Nike (fichier Robots.txt)

Et vous ?

Quelles sont les trouvailles que vous avez faites sur le sujet ? Laquelle/lesquelles préférez-vous ?

Partagez vos interprétations des fichiers Robots.txt ...
  Discussion forum
9 commentaires
  • ILP
    Membre confirmé
    Celui que j'adore, ça reste celui du site de Castorama. 27 Mio…
    http://www.castorama.fr/robots.txt
  • Sicyons
    Membre régulier
    Le T800 n'a pas de "capacité de régénération". Quant au mimétisme, il peut simplement imiter toute voix humaine...

    Je sais, on s'en fout .
  • pmithrandir
    Expert éminent
    Et moi je clique betement...

    bizarre que ca soit accepté 27Mo quand même...
  • pcaboche
    Rédacteur
    Envoyé par ILP
    Celui que j'adore, ça reste celui du site de Castorama. 27 Mio…
    http://www.castorama.fr/robots.txt
    En effet, ça ne fait pas très professionnel.

    À ce niveau, on dirait que c'est du... ...bricolage.

    YEAAAAAAAAHHH... We don't get fooled again...
  • Grabeuh
    Membre éclairé
    Vous êtes surtout passés à côté de la vraie référence de cette "blagounette" :
    Lors de la dernière conférence Google I/O, un activiste a interrompu une des présentations en hurlant "Assassins ! Google fabrique des robots tueurs ! Vous voulez tous nous tuer !" avant de se faire sortir par la sécurité.

    Ils ont voulu rigoler un peu à partir de cet incident.
  • Envoyé par ILP
    Celui que j'adore, ça reste celui du site de Castorama. 27 Mio…
    http://www.castorama.fr/robots.txt
    C'est quoi l'intérêt pour eux ? On dirait qu'ils bloquent leur catalogue...
  • esired
    Membre averti
    Pour Castorama, 27Mio c'est Castoche...
  • Steph82
    Membre actif
    On dirait qu'ils ont confondu sitemap et robots.txt
  • Slylord
    Futur Membre du Club
    Mdr le robots.txt de castorame