Les pièges à robots ou spider traps
Par Olivier Ffrench, mardi 27 octobre 2009 à 12:49 :: Gestion de l'indexation :: #94 :: rss
Il existe des configurations de site qui rendent le travail difficile pour les robots des moteurs de recherche et les empêchent de crawler. Dans d'autres cas, c'est l'inverse. Ce type de site présente une liste apparemment dans fin de documents avec des URLs toutes différentes : un véritable piège à robots !
Ce que j'appelle ici un piège à robots est l'équivalent SEO d'une boucle infinie en programmation. Le système de gestion de contenu du site va générer un nombre infini (ou très important) d'URLs, en général inutiles pour le référencement, que le robot va tenter d'identifier et de suivre.Quelques exemples de Spider traps :
Des URLs contextuelles
Une ancienne version de Websphere portal proposait une gestion assez particulière des contenus avec des URLs très longue de plus de 200 caractères.Aucun moyen de se repérer avec le contenu de ces URLs démentes et surtout, il était difficile de voir qu'elles changeaient au fur et à mesure de la navigation ! En partant d'un document A, on accédait à un document B. Une fois sur le document B, l'URL du document A changeait, probablement parce qu'on y accédait à partir d'une autre page.
Avec un tel principe, les robots des moteurs de recherche n'avaient aucune chance : WebSphere leur générait automatiquement un nombre d'URLs théoriquement égal au carré du nombre de documents effectivement présent sur le site.
Les calendriers
Sur certains sites, des calendriers sont proposés pour lister des événements à venir, montrer des disponibilités, etc.Dans certains cas par exemple, on peut naviguer d'un mois à l'autre via un lien bien pratique et parcourir rapidement les pages. Mais si l'application n'est pas correctement paramétrée, on peut accéder à des pages de calendrier (toutes vides évidemment) sur tous les jours ou mois jusqu'en 2038... voire plus !
Les liens relatifs au document
Dans certains CMS, les liens sont relatifs au document et non à la racine du site. Et il n'y a pas de base href.Dans de rares cas, et suite à une erreur utilisateur, cela peut créer des choses intéressantes.
Imaginons qu'un rédacteur crée un lien avec un espace (%20) sur le début de l'URL. Un lien dont l'URL serait du type : http://www.domaine.tld/%20index.php.
Si cette page est accessible, tous les liens qui y figureront auront un %20 au début de leur URL. Un robot de moteur de recherche pourra donc les suivre et réindexer l'intégralité du site avec des URLs de ce type.
Au bout d'un moment, il retombera sur le lien malformé, qui, étant donné qu'il est relatif au document deviendra : http://www.domaine.tld/%20%20index.php. Une belle boucle infinie.
Commentaires
1. Le lundi 2 novembre 2009 à 16:16, par Eddy
2. Le mardi 10 novembre 2009 à 10:31, par classe découverte
Ajouter un commentaire