Kalooga, robot indélicat
Par Olivier Ffrench, vendredi 20 mars 2009 à 14:54 :: Cas particuliers :: #84 :: rss
Pour la deuxième fois en trois ans, j'ai reçu de Sivit un email m'indiquant que mon hébergement partagé avait été suspendu car mon site générait plus de 5% de toutes les requêtes du cluster (soit plusieurs milliers de sites). Cette fois ci, c'est dû à la voracité du robot d'un moteur de recherches d'images : Kalooga.
La première fois que j'ai eu cette alerte, mon site France in Photos avait été la victime de hotlinkers sauvages. 26 photos du site avaient été envoyées à plusieurs milliers de personnes au moyen orient. Aucun impact visible sur le trafic, si ce n'est une augmentation vertigineuse de la bande passante consommée.
La solution avait été d'interdire le hotlinking via le .htaccess, ce qui me semble désormais indispensable si on veut contrôler l'utilisation de ses images.
Cette fois ci, le robot du moteur de recherche d'images Kalooga a entrepris de faire 21896 requêtes en deux sessions de courte durée. Sa première tentative s'étant soldée par la fermeture de mon site, il a recommencé quelques minutes après sa réouverture pour capturer le reste.
Si vous avez un site contenant des images ou des photos, je vous recommande d'interdire le crawl à ce malotru en ajoutant les lignes suivantes dans votre robots.txt :
En regardant le moteur de recherche, j'ai vu pas mal d'images issues de Pbase et d'autres sites communautaires. Je ne sais pas comment ils font pour gérer ce nombre de requêtes !
La solution avait été d'interdire le hotlinking via le .htaccess, ce qui me semble désormais indispensable si on veut contrôler l'utilisation de ses images.
Cette fois ci, le robot du moteur de recherche d'images Kalooga a entrepris de faire 21896 requêtes en deux sessions de courte durée. Sa première tentative s'étant soldée par la fermeture de mon site, il a recommencé quelques minutes après sa réouverture pour capturer le reste.
Si vous avez un site contenant des images ou des photos, je vous recommande d'interdire le crawl à ce malotru en ajoutant les lignes suivantes dans votre robots.txt :
User-agent: kalooga
Disallow: /
En regardant le moteur de recherche, j'ai vu pas mal d'images issues de Pbase et d'autres sites communautaires. Je ne sais pas comment ils font pour gérer ce nombre de requêtes !
Commentaires
Aucun commentaire pour le moment.
Ajouter un commentaire