Meta robots

Syntaxe : Utilisation : Code installé dans le head sur une page et non un lien individuel. Il interdit l'indexation du document en cours. Attention en l'utilisant sur des templates pouvant s'appliquer à plusieurs types de documents différents.
Ce tag n'interdit le crawl et l'indexation que si les moteurs le respectent (en principe oui). A priori il reste fonctionnel, mais n'est pas totalement robot proof.

robots.txt

Syntaxe : voir robotstxt.org pour plus de détails. Attention, certains éléments ont été modifiés (cf ci dessous) Utilisation : Au départ, la syntaxe des robots.txt ne permettait pas d'interdire autre chose que des URLs débutant par une chaîne de caractères identifiée. Les choses ont évoluées depuis, mais tous les robots ne prennent pas les mêmes choses en compte. Cette méthode d'interdiction de crawl n'est également valable que si les robots la respectent et ne les empêche pas de relever la liste des URLs interdites. Elle n'est donc pas non plus robot proof.

Attribut rel="nofollow"

Syntaxe : cet attribut est ajouté dans les balises href des liens dont on veut interdire le crawl Utilisation : Les liens nofollow sont utilisés dans plusieurs cas différents :
  • Pour des liens sortants dont on n'est pas sûr
  • Pour éviter qu'un lien payant ne soit crawlé
  • Pour modifier la répartition du PR sur un site (nofollow sculpting)
Quelques bémols par rapport à ces éléments :
  • Le Google Webmaster Central à longtemps listé dans les liens de sites ceux qui provenaient de Wikipédia (qui sont en nofollow)
  • Matt Cuts a récemment laissé entendre que le PR normalement attribué aux liens en nofollow et qu'on tente de rediriger sur des pages pertinentes "s'évapore" (cf ce post sur le blog de Sébastien Billard)
  • Yahoo ignore cet attribut
Il ne s'agit donc pas d'une solution fiable pour interdire le craw, à part sur les liens sortants (et encore).

Javascript simple

Syntaxe : Le principe consiste à remplacer les liens href vers une page par des appels en Javascript, qu'il s'agisse d'événements OnClick ou d'écrire le code du lien via un document.write Utilisation : Il faut appliquer ce principe à tous les liens pour que le document ciblé ne soit pas indexé. Ce type d'astuce à fonctionné pendant un temps, mais il est désormais évident que Google indexe les liens JavaScript dont l'URL est indiquée en clair. Par exemple, des liens placés dans des menus déroulants sont pris en compte et listés dans le Google Webmaster Central et des URLs accessibles uniquement par des liens écrits en document.write sont indexées.
Cette méthode n'est donc pas (plus) du tout robot proof.

Javascript complexe et obfuscation

Syntaxe : tout lien javascript dans lequel l'URL est suffisamment dissimulée. On peut distinguer deux méthodes en gros :
  • L'URL est mentionnée dans un fichier externe et appelée en passant un argument
  • L'URL est tronçonnée en plusieurs parties qui sont regroupées via un script
Il est même possible de combiner les deux méthodes.
Utilisation : Ce type de moyen de contrôle de l'indexation est utilisé depuis des années par certains sites qui ont pris l'habitude de javascripter leurs liens non pertinents. Elle fonctionnera probablement jusqu'à ce que les robots des moteurs de recherche exécutent le Javascript. Elle a pour inconvénient de bloquer également les internautes qui naviguent sans Javascript, mais de toutes façons ils sont assez limités dans leurs actions sur le web...