spider trapCe que j'appelle ici un piège à robots est l'équivalent SEO d'une boucle infinie en programmation. Le système de gestion de contenu du site va générer un nombre infini (ou très important) d'URLs, en général inutiles pour le référencement, que le robot va tenter d'identifier et de suivre.

Quelques exemples de Spider traps :

Des URLs contextuelles

Une ancienne version de Websphere portal proposait une gestion assez particulière des contenus avec des URLs très longue de plus de 200 caractères.
Aucun moyen de se repérer avec le contenu de ces URLs démentes et surtout, il était difficile de voir qu'elles changeaient au fur et à mesure de la navigation ! En partant d'un document A, on accédait à un document B. Une fois sur le document B, l'URL du document A changeait, probablement parce qu'on y accédait à partir d'une autre page.
Avec un tel principe, les robots des moteurs de recherche n'avaient aucune chance : WebSphere leur générait automatiquement un nombre d'URLs théoriquement égal au carré du nombre de documents effectivement présent sur le site.

Les calendriers

Sur certains sites, des calendriers sont proposés pour lister des événements à venir, montrer des disponibilités, etc.
Dans certains cas par exemple, on peut naviguer d'un mois à l'autre via un lien bien pratique et parcourir rapidement les pages. Mais si l'application n'est pas correctement paramétrée, on peut accéder à des pages de calendrier (toutes vides évidemment) sur tous les jours ou mois jusqu'en 2038... voire plus !

Les liens relatifs au document

Dans certains CMS, les liens sont relatifs au document et non à la racine du site. Et il n'y a pas de base href.
Dans de rares cas, et suite à une erreur utilisateur, cela peut créer des choses intéressantes.

Imaginons qu'un rédacteur crée un lien avec un espace (%20) sur le début de l'URL. Un lien dont l'URL serait du type : http://www.domaine.tld/%20index.php.
Si cette page est accessible, tous les liens qui y figureront auront un %20 au début de leur URL. Un robot de moteur de recherche pourra donc les suivre et réindexer l'intégralité du site avec des URLs de ce type.
Au bout d'un moment, il retombera sur le lien malformé, qui, étant donné qu'il est relatif au document deviendra : http://www.domaine.tld/%20%20index.php. Une belle boucle infinie.

Le fin mot de l'histoire

Si je parle de ce sujet, c'est que je suis en train de crawler un site qui comporte un spider trap. Je vais arrêter le crawl alors que mon robot à découvert 12000 pages... dont 11000 de calendrier (une page par jour) !