Nos amis les bots

Notez cet article

Il y a des études qui disent qu’une bonne proportion des gens qui viennent sur votre beau site web ne sont en fait pas des personnes, mais des bouts de code destinés à des usages divers et variés. Lorsque l’on voit l’incroyable quantité de vers, virus, scrapers , bots spamco, moteurs de recherche, scripts-truc-machin-bidule d’exploration de statistiques, d’archivage et de blast, ou autres éleveurs de bots qui pullulent dans les bas fonds de l’Internet, on ne peut que donner raison à cette étude.

Comme j’aime bien comprendre pourquoi sur certains de mes sites, j’ai plusieurs milliers de « visites » par jour qui me rapportent des cacahuètes alors que sur d’autres, bien moins pourvus, les revenus sont un peu plus conséquents, j’ai décidé de me livrer à une petite expérience pendant quelques semaines, histoire d’étayer un peu plus cette histoire de bots qui viennent régulièrement nous rendre visite.

L’expérience est toute simple: je dépose un premier petit bout de code PHP sur le site qui va tout bonnement enregistrer l’adresse IP du visiteur dans une base de données. Un peu plus bas dans la page HTML, j’insère une image qui est en fait un autre bout de code PHP qui récupère l’adresse IP dans la base de données et y insère quelques autres informations. Un bot ne s’occupe que très rarement des images: il s’en moque même ouvertement et préfère se concentrer sur le contenu de la page. On peut donc en conclure que si un visiteur passe sur ma page spécialement modifiée et qu’il ne se préoccupe pas d’aller chercher les belles images qui la compose, alors il y a de très grandes chances que nous soyons en présence d’un bot.

Pour mon expérience, j’ai choisi quatre de mes sites; 3 sont des blogs WordPress et le 4eme est un développement pur PHP de ma composition. Leur nature est assez différente en terme de trafic et au vue des conversions effectuées, j’avais déjà une petite idée du résultat de l’expérience.

Le premier site est tout simplement Pagasa, le blog que vous lisez actuellement, au cas où vous l’ignorez. A priori, celui-ci devrait tout de même contenir un trafic « humain » conséquent. Si j’ai cette idée, c’est que Pagasa a un trafic moteur relativement conséquent mais aussi  du trafic en provenance d’autres sites, comme par exemple Wikipedia ou commentcamarche.net. J’aime bien ce genre de trafic, beaucoup moins aléatoire que tout ce qui vient de Google.

Le deuxième est le site dont je vous ai déjà parlé et qui dispose d’un trafic de très bonne qualité avec beaucoup de requêtes en provenance de Google

Le troisième est un site de communiqués de presse en anglais sur lequel il y a beaucoup de trafic avec relativement peu de trafic moteur. Les visiteurs sont essentiellement des gens qui viennent poster leurs articles de promotion.

Finalement le quatrième est un nœud de la Coop que j’ai commencé à développer et sur lequel il y a un peu de trafic moteur.

J’ai fait ci-dessous un graphique avec le ratio Bots / Visiteurs. Ces données sont en fait la compilation de plusieurs semaines d’analyses et représentent le nombre de pages visitées par les deux catégories des sujets étudiés.

 

En moyenne, j’obtiens 75% en faveur des bots, mais on constate que ce nombre est disparate en fonction du type de site. La différence est particulièrement flagrante entre le site 2 (30% de bots) et le 3 qui totalise un score effrayant totalisant 98% d’utilisation par les bots ! Il y a tout de même une explication logique à cela. Cette étude porte sur le nombre de pages, or lorsqu’un bot arrive sur le site, il ne se contente pas d’absorber uniquement une seule page mais bien plusieurs. Il n’est pas rare de voir un bot crawler pratiquement tout l’ensemble du site. Un visiteur se contente généralement d’un nombre beaucoup plus restreint de pages, de une, à deux et rarement plus.

Il y a certain bots qui ont le même comportement, comme par exemple le bot Adsense ou Infolink. Ils cherchent à mieux déterminer les informations pertinentes d’une seule page pour y insérer leurs encarts publicitaires. On ne peut donc être totalement surpris de ce ratio.

Je constate aussi que la structure même d’un site à une influence directe sur la nature de la visite: un blog WordPress implique de facto plus de pages, donc plus de bots. Le site numéro deux est exempt de toutes les pages satellites que l’on trouve habituellement sur WordPress: catégories, tag, archives, etc. Ce qui réduit passablement son exposition aux visites des bots.

J’en viens maintenant à une consolidation différente de mon étude. Ci-dessous, j’ai tout simplement construit des graphes en omettant le nombre de pages et en la restreignant à des visites uniques, qu’elles soient en provenance de bots ou bien de personnes.

Bots uniques

 

J’obtiens en moyenne un ratio de 50/50 avec comme précédemment quelques disparités que je vais détailler. Les sites 1 et 4 sont des blogs WordPress que je qualifierai de « normaux ». Normaux dans le sens où le trafic organique y est suffisamment développé; ceci est particulièrement vrai pour le 1 (Pagasa) mais pourrait être plus contestable pour le 4 qui est un nœud de la Coop. Ce genre de site reçoit généralement beaucoup de connexions automatiques à base de XML/RPC que l’on considère comme du trafic bot. Mais il faut relativiser ceci car j’ai commencé à le développer en y ajoutant mes propres articles et faire quelques liens, ce qui aboutit à plus de trafic moteur.

Le site numéro 3 comporte beaucoup de visites bot; comme je l’ai déjà expliqué, il s’agit d’un site de communiqués de presse en anglais avec en moyenne 1000 visites par jour. Le trafic moteur y est très pauvre, et les visiteurs qui y passent sont là essentiellement pour y déposer leurs articles afin d’améliorer leur SEO. La chose intéressante que j’ai observée est que beaucoup d’entre eux utilisent des scripts automatiques, style Link Farm Evolution ou autres. Les conversions y sont dramatiquement faibles, et je suis en droit de me demander si cela vaut le coup de continuer à maintenir ce type de site. Je vous répond « oui pour le moment car j’ai une idée pour le futur. » :-)

Le site numéro 2 attire une majorité de visiteurs, soit plus de 90% du trafic ramené en visiteurs uniques. Le trafic moteur y est très important et tourne en moyenne à 1000 visites par jour, avec les conversions qui en découlent forcément. Il est intéressant de constater qu’il n’y a que 600 pages présentes dans l’index de Google contre plus de 65000 pour le site numéro 3. J’ai souvent lu que plus il y avait de pages indexées et mieux c’était; on voit bien que cette étude dément cet argument.

En conclusion, l’étude confirme que les bots représentent effectivement la majorité du trafic Web. On est tout de même en droit de se demander si tous ont une certaine forme de légitimité, car une visite sur un site Web coute de l’argent.

4 commentaires sur “Nos amis les bots

  1. Etude très sympa.
    Ta conclusion est intéressante, mais interdire « manuellement » l’accès au bot c’est un peu se tirer une balle dans le pied non?

  2. Etude intéressante !
    J’avais déjà lu que la moitié du trafic des sites provenait des bots, en voilà l’illustration !

    Cela amène une autre question que je me pose parfois, Google Analytics exclus t’il tous ces bots, ou prend-t-il en compte certains d’entre eux ?

  3. @xavier: il y a des Bots qui sont utiles comme ceux des principaux moteurs de recherches; mais en définitive, il ne représente qu’une petite partie de ce trafic.

Laisser un commentaire