Définition du duplicate content

Dans son incarnation la plus problématique, un contenu dupliqué sur un même site est un document qui apparaît sous deux URLs différentes. Il y a plusieurs degrés de sévérité :
  • Page identique à l'octet près
  • Contenu identique, mais quelques différences dans le code
  • Contenu principal identique, mais différences dans les autres zones de la page (navigation, mises en avant)
En bref, ce qui compte c'est le contenu principal, celui sur lequel on tente de positionner la page. La règle à respecter est simple :
règle anti duplicate content
Mais dans certains cas, ce n'est pas si évident.

Quelques cas d'école

Il y a pas mal de causes possibles aux contenus dupliqués au sein d'un site. Plutôt que de toutes les lister, je vais parler de quelques cas rencontrés sur des sites de clients.

Cas N°1 : les sous domaines
Le site d'une compagnie d'assurance avait fourni à ses agences des sous domaines qui leur permettaient de personnaliser leurs mini-sites. Il y avait au total environ 500 agences, donc autant de sous domaine. Le principal problème c'est que chaque sous domaine donnait accès non seulement aux pages du mini site mais à TOUTES les pages du site principal. Le référencement de ce site a été impossible, car les pages des sous domaines sont restées indexées pendant longtemps.

Cas N°2 : domaines différents
Un site international est installé sur un serveur OracleAS qui gère un grand nombre de pays différents. Chaque pays à un ou deux sous répertoires basés sur la langue, et un nom de domaine. Problème : chaque nom de domaine utilisé permet l'accès à l'ensemble des sous répertoires. Il y a environ 20 pays (et donc 20 noms de domaines) sur le serveur. Qui plus est, les liens entre sites sont faits en relatif, ce qui permet aux moteurs de recherche d'indexer chaque page de chaque site vers lequel un lien a été fait.

Cas N°3 : les fiches produit
Sur un site de vente en ligne, les fiches produits sont accessibles via une URL paramétrée qui contient l'ID du produit, l'ID de la catégorie de produit, et un ID pour la couleur. Chaque fiche est donc accessible par plusieurs URLs alors que seule la couleur de l'article change. De plus, les paramètres ne sont pas toujours passés dans le même ordre, ce qui crée encore des variantes. Enfin, les ID de produits sont différents suivant que le produit est compris ou non dans un bundle. Au final certains produits sont accessibles via 6 URLs différentes et il y en a des centaines sur le site.

Cas N°4 : galerie d'images
Sur ce site, une galerie d'images, la réécriture d'URL est mal gérée et chaque image à au final 2 URLs différentes. En plus de cela, les pages de catégories d'images (premier niveau du catalogue) sont accessible par 4 URLs différentes suivant les liens que l'on suit. Au final, le site propose environ 1/3 d'URLs en duplicate content soit plus de 4000 pages

Quels problèmes cela pose t'il ?

L'article du Google Webmaster Central détaille les problèmes créés par ces contenus dupliqués.
En multipliant les pages de cette façon, on oblige les moteurs de recherche :
  • A crawler bien plus de pages que nécessaire
  • A faire un travail de déduplication
En outre, les doublons perturbent la répartition interne de la popularité sur le site et diminuent donc la capacité des pages à se positionner correctement.

Au final, il est donc préférable de faire très attention aux contenus dupliqués et de faire une simulation de crawl avant le lancement d'un site pour vérifier qu'il n'y a pas de problème.