L'idée du rapport signal / bruit est venue d'un article d'Aaron wall sur le linking interne intitulé : internal architecture made easy. L'un des chapitres est intitulé Keep the Noise Out of the Index et indique clairement qu'il y a deux types de pages : celles qu'il faut faire indexer et les autres ! En fait, il y a pas mal de cas différents et des critères simples pour déterminer quelles pages faire indexer ou non.

Pages qu'il faut impérativement exclure de l'indexation

Parmi les pages qui doivent être éliminées on peut trouver :
  • Les pages présentant des risques de sécurité pour le site.
  • Toutes les pages en duplicate content. L'équation à respecter est toujours la même : 1 contenu = 1 page = 1 URL.
  • Les pages permettant aux internautes d'effectuer certaines actions : envoyer à un ami, imprimer, afficher le contenu au format PDF, mettre un article dans le panier...
  • Les popups (qui peuvent avoir un lien crawlable) car l'internaute qui aboutirait dessus ne pourrait plus naviguer sur le site.
Toutes ces pages peuvent à terme causer de gros problèmes au site qui permettrait leur indexation. Deux cas me reviennent à l'esprit :
  • Un site d'e-commerce qui permettait l'indexation de pages "mise dans le panier". Les internautes pouvaient donc arriver d'un moteur de recherche et avoir un article dans leur panier dès leur entrée sur le site.
  • Un forum qui permettait l'indexation des pages "répondre à ce message". Il y avait une page supplémentaire par message sur le forum !

Pages qu'il vaut mieux ne pas faire indexer

Tous les contenus d'un site ne sont pas utiles pour le référencement. Il y a des pages qui ne sont pas centrées sur un mot clef particulier et ne seront donc pas intéressantes pour les moteurs de recherche. Permettre l'accès à l'ensemble des pages diminue le rapport signal bruit du site en augmentant le nombre de documents sans rapport avec son sujet principal dans l'index des moteurs. On peut généralement se passer de faire indexer les formulaires de contact par exemple. Aaron Wall recommande d'ajuster le linking interne des sites pour privilégier les zones du site qui ont le meilleur ROI. Les pages les moins performantes restent donc indexables, mais sont moins mises en avant dans le site.

Interdire l'indexation

Pour interdire l'indexation des pages, un meta robots ou un robots.txt suffira dans la plupart des cas, mais d'autres méthodes peuvent être utilisées, comme le "javascriptage" des liens. Pour les duplicate content, le problème est souvent structurel et doit être traité comme tel : il faut que tous les liens vers les URLs incriminées disparaissent. Enfin, l'interdiction d'accès à certains contenus pourra nécessiter des ajustements au niveau du serveur, comme la désactivation du directory browsing.