Définitions

Quelques définitions pour commencer :
  • Anchor text
    Texte d'un lien contenu dans une balise href
  • Link reputation
    Pertinence conférée à un document sur une expression par les textes des liens qui pointent vers lui
  • Google bombing
    Action qui consiste à placer de nombreux liens vers une page avec un texte précis, de façon à positionner le document cible sur une expression précise n'ayant rien à voir avec ses contenus.

Link reputation : un facteur essentiel pour le positionnement

Les liens entre documents transmettent deux choses : de la popularité (link popularity) via le mécanisme du PageRank et de la pertinence (link reputation). Depuis quelques années déjà, Google donne un poids important à l'anchor text des liens externes d'un site, et donc au second facteur. Avec quelques dizaines de liens de qualité au texte pertinent, un site peut ainsi se positionner plus facilement qu'avec des centaines de liens entrants sur des images ou des textes non pertinents. Leslie Rhodes démontre cela dans un article intitulé Link Popularity vs. Link Reputation - you decide. Je viens d'ailleurs de lui rendre service en lui donnant un lien dont l'anchor text est parfait :-)

Cette importance donnée à l'anchor text pose toutefois quelques problèmes lorsque le nombre de liens augmente : ce facteur finit par avoir plus de poids que les contenus réels de la page, rendant possible des dérives comme les Google bombings.

Le filtre mis en place par Google

Le plus connu des Google bombings est "miserable failure" qui affichait la biographie de Georges Bush sur le site de la Maison Blanche. Aujourd'hui il ne fonctionne plus : www.whitehouse.gov est absent des 100 premiers résultats sur cette requête. Mais comment Google a t'il filtré les résultats pour parvenir à éliminer cette anomalie ?

Pour répondre à cette question, il faut d'abord analyser les caractéristiques des Google bombings :

  • Les expressions choisies sont assez spécifiques et peu concurrentielles
    L'article de Matt Cutts A quick word about Googlebombs précise : Googlebombs very rarely happen for common queries, because the lack of any relevant results for that phrase is part of why a Googlebomb can work.
  • Elles sont totalement absentes des contenus de la page cible
    Sur son billet la fin du Google Bombing, Olivier Duffez analyse cela comme une distance importante entre les thématiques du texte du lien et de la page cible, ce qui est également vrai, mais peut être plus difficile à évaluer.
  • Une grande proportion des liens externes vers la page cible contiennent le texte de l'expression.
    Cela est assez inhabituel (en tous cas pour une page interne d'un site) et facilement détectable.
Comme on peut le voir, ces liens ont des caractéristiques bien particulières et établir un filtrage qui puisse éliminer les pages ciblées des résultats n'est pas très compliqué à condition qu'on ait stocké toutes les informations nécessaires.

Reste à tester le fonctionnement du filtre et à vérifier notamment ce qui se passe lorsque l'expression ciblée est entièrement ou partiellement dans les contenus de la page.