Qu'est ce qu'une simulation de crawl ?

Une simulation de crawl est un procédé qui permet de lister l'ensemble des pages d'un site web avec certaines de leurs caractéristiques. Idéalement il révèle pour chaque document présent sur le site :
  • son url
  • son type (html ou non)
  • son title
  • le code http qu'il renvoie (avec un affichage des pages en erreur et le code de l'erreur)
On peut aussi éventuellement avoir plus d'informations et notamment :
  • le poids du document en ko
  • son niveau de profondeur
  • son nombre de liens entrants et sortants
Le listing doit pouvoir être extrait dans un format tabulaire et examiné sous Excel.

Quand et pourquoi la faire ?

Il y a deux cas dans lesquels on peut recourir à une simulation de crawl :
  • lors d'un audit de référencement : pour se faire rapidement une idée de ce qu'un site à dans le ventre
  • en phase de recettage avant la mise en ligne d'un site
Dans les deux cas, la simulation permet de voir ce qui se passe "sous le capot" du site et de détecter des erreurs et des anomalies qui seraient impossible à voir en navigant simplement dessus.

Que peut on voir avec une simulation de crawl ?

La première chose qu'on peut valider avec une simulation de crawl c'est... si le site est crawlable ! Un site avec des temps de réponse trop importants, qui génère des timeouts lors du chargement de documents ou qui possède un nombre énorme de pages inutiles, voire crée une "boucle infinie" pour les robots posera des problèmes à votre crawler et donc probablement à ceux des moteurs de recherche !
Si le site est crawlable correctement, on pourra ensuite vérifier les points suivants :
  • les entêtes : trop d'erreurs 404 ? Des 302 à la place de 301 ? Des redirections en pagaille ?
  • les contenus dupliqués : typiquement des pages qui ont le même title et la même taille, mais des URLs différentes
  • les pages inutiles pour le référencement indexables : si votre crawler les voit, les moteurs pourront les indexer
  • le nombre de niveaux de profondeur et le nombre de pages pour chacun
Toutes ces constatations peuvent amener des corrections. Une fois les changements effectués, il est utile de les valider par un nouveau crawl.

Quels outils utiliser ?

Le principal souci c'est qu'il n'existe pas d'outil de simulation de crawl dédié au référencement. Mais un grand nombre de générateurs de sitemap XML font parfaitement l'affaire. Il faut juste vérifier qu'ils fournissent les informations voulues, sont paramétrables (pour interdire le crawl de certaines URLs), respectent les interdictions (robots.txt, meta robots) et permettent d'exporter les données. Personnellement j'utilise l'application en ligne XML Sitemap (en Java et très capricieuse),GSite Crawler (qui ne donne pas toutes les informations) ou même Xenu Link Sleuth.