Un point sur les méthodes d'interdiction du crawl
Par Olivier Ffrench, lundi 15 juin 2009 à 14:30 :: Optimisation structurelle :: #87 :: rss
Il est essentiel de contrôler les documents auxquels les moteurs de recherche ont accès sur un site afin d'optimiser le crawl des robots et d'améliorer le rapport signal bruit du site. Pour cela, il faut souvent interdire le parcours et la détection de pages inutiles pour le référencement. Plusieurs méthodes existent pour y parvenir, avec une efficacité variable. Un petit point sur les principales.
Meta robots
Syntaxe :
Utilisation : Code installé dans le head sur une page et non un lien individuel. Il interdit l'indexation du document en cours. Attention en l'utilisant sur des templates pouvant s'appliquer à plusieurs types de documents différents.Ce tag n'interdit le crawl et l'indexation que si les moteurs le respectent (en principe oui). A priori il reste fonctionnel, mais n'est pas totalement robot proof.
robots.txt
Syntaxe : voir robotstxt.org pour plus de détails. Attention, certains éléments ont été modifiés (cf ci dessous) Utilisation : Au départ, la syntaxe des robots.txt ne permettait pas d'interdire autre chose que des URLs débutant par une chaîne de caractères identifiée. Les choses ont évoluées depuis, mais tous les robots ne prennent pas les mêmes choses en compte.- Les instructions pour GoogleBot
- Les instructions pour Yahoo Slurp
- Les instructions concernant MSN/Bing
Attribut rel="nofollow"
Syntaxe : cet attribut est ajouté dans les balises href des liens dont on veut interdire le crawl Utilisation : Les liens nofollow sont utilisés dans plusieurs cas différents :- Pour des liens sortants dont on n'est pas sûr
- Pour éviter qu'un lien payant ne soit crawlé
- Pour modifier la répartition du PR sur un site (nofollow sculpting)
- Le Google Webmaster Central à longtemps listé dans les liens de sites ceux qui provenaient de Wikipédia (qui sont en nofollow)
- Matt Cuts a récemment laissé entendre que le PR normalement attribué aux liens en nofollow et qu'on tente de rediriger sur des pages pertinentes "s'évapore" (cf ce post sur le blog de Sébastien Billard) Yahoo ignore cet attribut
Javascript simple
Syntaxe : Le principe consiste à remplacer les liens href vers une page par des appels en Javascript, qu'il s'agisse d'événements OnClick ou d'écrire le code du lien via un document.write Utilisation : Il faut appliquer ce principe à tous les liens pour que le document ciblé ne soit pas indexé. Ce type d'astuce à fonctionné pendant un temps, mais il est désormais évident que Google indexe les liens JavaScript dont l'URL est indiquée en clair. Par exemple, des liens placés dans des menus déroulants sont pris en compte et listés dans le Google Webmaster Central et des URLs accessibles uniquement par des liens écrits en document.write sont indexées.Cette méthode n'est donc pas (plus) du tout robot proof.
Javascript complexe et obfuscation
Syntaxe : tout lien javascript dans lequel l'URL est suffisamment dissimulée. On peut distinguer deux méthodes en gros :- L'URL est mentionnée dans un fichier externe et appelée en passant un argument
- L'URL est tronçonnée en plusieurs parties qui sont regroupées via un script
Utilisation : Ce type de moyen de contrôle de l'indexation est utilisé depuis des années par certains sites qui ont pris l'habitude de javascripter leurs liens non pertinents. Elle fonctionnera probablement jusqu'à ce que les robots des moteurs de recherche exécutent le Javascript. Elle a pour inconvénient de bloquer également les internautes qui naviguent sans Javascript, mais de toutes façons ils sont assez limités dans leurs actions sur le web...
Commentaires
1. Le lundi 15 juin 2009 à 15:25, par Celine
2. Le lundi 15 juin 2009 à 16:10, par Ramenos
3. Le lundi 15 juin 2009 à 16:37, par Kilroy
Ajouter un commentaire