Autant le dire tout de suite pour ceux qui seraient avides d'infos croustillantes, l'article de Google donne des conseils de base, parfois contestables. C'est d'ailleurs ce que relève Olivier Duffez dans son post sur la semaine du netlinking.

Il y a quelques infos pour qui souhaiterais lire entre les lignes (GoogleBot exécuterait le JavaScript), mais je préfère donner ici de vrais conseils sur l'architecture de sites.

Optimiser son architecture de site

Définir la structure interne des liens d'un site est critique pour le référencement. Il faut s'assurer :
  • Qu'on donne accès aux documents intéressants pour le référencement
  • Que ces documents ont suffisamment de link juice pour se positionner
  • Qu'on interdit l'indexation des documents sans intérêt
Les documents importants pour le référencement doivent donc :
  • disposer de liens crawlables, idéalement en texte (conseil donné par Google)
  • avoir suffisamment de liens provenant de pages différentes
  • ne pas être trop profonds dans le site : il faut qu'ils soient découverts en un nombre raisonnable de clics à partir de la homepage
Ce dernier critère va influer sur la capacité du moteur à indexer et rafraîchir les pages. Avec un meilleur PR et moins d'étapes pour le crawl, les pages seront bien plus performantes.

Le graphique ci dessous montre le nombre de pages découvertes à chaque niveau lors d'un crawl à partir de la homepage d'un site qui comporte environ 14000 documents. rythme de crawl
Sur ce site, la majorité des pages est découverte en quatre clics à partir de la homepage. C'est très bien, sauf que pour des raisons de lisibilité, j'ai enlevé du graphique les 360 niveaux de profondeur qu'il y avait après ! Ils étaient dus à une navigation séquentielle sur une section du site.

Autre souci pour ce site : en classant les pages en différentes zones (les couleurs sur le graphique), j'ai constaté qu'on servait aux moteurs un grand nombre de documents inutiles pour le référencement. La couleur jaune ci dessus correspond à des pages utilitaires : imprimer un article, envoyer à un ami, etc. Elles sont très nombreuses et peuvent donc être indexées aux dépends de pages utiles !
L'interdiction du crawl via des attributs rel="nofollow" ou un robots.txt est ici cruciale pour améliorer le rapport signal/bruit du site.

Voir aussi : méthodologie de référencement