Blackhat: la grosse méchante bouillie

Notez cet article

Il y a quelques années, un Blackhatter américain, génialissime nous gratifiait régulièrement de techniques innovantes, sorties tout droit d’une imagination débordante. Il m’a beaucoup inspiré dans certains de mes « coups » et dans sa démarche, je retrouve des qualités que j’apprécie tout particulièrement, comme le refus de l’establishment, l’extrême témérité du discours sur l’argent ainsi qu’un langage de charretier.

C’est en faisant un peu de tri l’autre jour sur une de mes machines infernales, que je suis retombé sur la relique de l’un de ces coups. Comme ceci remonte à 3 ans déjà, j’en profite pour vous dévoiler ce coup et y apporter une analyse. Avec le temps, on murit et on est certainement plus critique quand à ses expériences passées.

L’idée était toute simple et maintes fois réutilisée: automatiser la création d’un site, rediriger le trafic vers ma Money Page, l’URL qui me permet d’acheter des Petshops à ma petite fille, puis multiplier cela à l’infini.

La création se faisait tout simplement via un bête script en PHP: depuis un dictionnaire anglais, je construisais des phrases à partir de mots tirés aléatoirement. Cela faisait une belle grosse méchante bouillie, incompréhensible bien entendu par le commun des mortels; mais je m’en moquais, étant donné que ces pages n’étaient là que pour nourrir mes amis, les moteurs de recherche.

A l’époque, ce n’était pas grave d’avoir des pages avec des contenus irrationnels, plein de gens le faisaient; depuis lors, de nouvelles lois ont été votées par ceux qui font la pluie et le beau temps sur la cyber-planète.
Dans une page, j’incorporais quelques liens vers d’autres pages qui se construisaient au fur et à mesure des visites. Si bien qu’au bout de quelques temps, je me suis retrouvé avec plusieurs centaines de pages auto générées.

Ces pages étaient quand même optimisées grâce à une astuce du très productif Blackhatter cité en début de l’article. Un agrégateur Web mettait à disposition une liste de blogs fraichement mis à jour, et il me suffisait d’aller récupérer régulièrement ces informations et de les utiliser pour construire mes pages. Ce qu’il faut savoir, c’est qu’un nombre impressionnant de scrapers utilisait cet agrégateur pour pratiquer en masse le spam à base de Trackback: vous publiez un article sur le viagra, et immédiatement la moitié de la planète des spammeurs vous pingeront avec comme espoir d’obtenir un retour sur leur Trackback. En clair, les spammeurs vous construisent gracieusement vos liens !

Parallèlement, un autre script construisait toutes les heures un feed RSS à partir du site auto généré, et lançait quelques pings vers des sites comme pingomatic.com afin de faire venir les moteurs de recherche.

Je ne peux pas dire que les liens se construisaient rapidement avec cette méthode; en fait, c’était bien en dessous de mes attentes et des affirmations du collègue.

Proverbe Blackhat: lorsque quelqu’un dévoile une nouvelle technique,
c’est qu’elle est déjà périmée depuis belle lurette.

Néanmoins, j’arrivais à faire venir des visiteurs, essentiellement grâce à la longue traine et Blogsearch. Les visiteurs étaient alors redirigés vers la money page, un produit « Rock&Roll » à télécharger.

Je suis alors passé à la vitesse supérieure, en créant une grande quantité de sous-domaines. Dans les bons jours, j’arrivais à générer plusieurs centaines de visiteurs, toujours grâce à Blogsearch. En multipliant toujours les domaines, je serai rapidement arrivé au millier de visiteurs, j’en suis convaincu.

Un jour, j’ai eu la visite de la Quality Team, et une semaine après l’ensemble du domaine ainsi que tous les sous-domaines ont été blacklistés.

Le site hébergeant la money Page n’a pas été pénalisé, mais Google m’a demandé d’y retirer les Adsenses, car jugé trop « Rock&Roll ». Pas porno, ni même érotique mais un peu limite quand même, je dois bien le reconnaitre après coup.

Au final, certes j’y ai gagné de l’argent, mais comme tout projet BlackHat, cela restera un simple coup et une expérience bien amusante.

Mais cela reste formateur, et j’ai appris beaucoup de choses:

– Tout d’abord, la durée: il se sera passé 3 mois entre le lancement du projet et le bannissement. Cela laisse quand même du temps pour faire rapidement de l’argent. Mais encore une fois, vivre sur ce genre de coup me laisse perplexe. Et puis, comme je l’ai déjà expliqué, je suis convaincu qu’un site banni peut avoir des conséquence sur le profiling d’un Webmaster par Google dans le futur.

– Des erreurs techniques: « oubli » du cloacking pour rediriger les visiteurs, et ne pas prévoir la venue prévisible de la Quality Team, en leur affichant un faux 404 ou plus marrant un compte désactivé pour spam :-)
Ce qui me fait dire qu’il faut vraiment une bonne préparation, avoir un script impeccable que l’on teste longuement avant sa « mise en production ». Je ne vous explique pas la galère lorsque vous devez corriger un bug sur des centaines de sites !

– Une erreur fondamentale: utiliser le même nom de sous-domaine avec un nombre: machin01, machin02, etc. Ça sent quand même le spam à plein nez ! Et puis avoir des milliers de sous-domaines qui apparaissent comme cela, du jour au lendemain, avec plein de pages, cela reste assez bourrin. Il faut être plus subtil, utiliser plusieurs domaines pour se couvrir, et faire cela tout doucement, lentement, insidieusement.

– Le contenu « scrambled », c’est bien fini, et d’après-moi, cela ne peut qu’accélérer le bannissement ou le spam-report

– Le spam à base de Trackback fonctionne encore, mais il faut faire quelques recherches pour bien les utiliser …

– Les liens sont toujours aussi compliqués et pénibles à construire.

– La longue traine est une excellente alternative à exploiter « puissamment ».

E Finita la Commedia !

3 commentaires sur “Blackhat: la grosse méchante bouillie

  1. C’est le principal problème du Blackhat.. c’est que le projet / la rentabilité n’est qu’éphémère. Avec le temps, le site fini toujours par être détecté (et d’autant plus vite s’il y a eu une annonce officielle de la technique)

  2. « et puis, comme je l’ai déjà expliqué, je suis convaincu qu’un site banni peut avoir des conséquence sur le profiling d’un Webmaster par Google dans le futur. »

    Une hypothèse qui fait sens, et qui me fait encore hésiter avant de m’écarter des guidelines du tout puissant GéGé.

    Si je comprends bien ton « coup », tu as créé des centaines de fake blogs, nourris de contenu aléatoire basé sur des dictionnaires de mots, et enrichi par du contenu scrappé c’est ça ?

    Mais à quoi te servait le contenu scrappé ? A améliorer ton contenu généré aléatoirement, ou à faire du faux contenu en rapport avec l’actualité ?

    Je pose la question, car je découvre tout juste le principe du scrapping et je suis encore un peu perplexe sur ce que ça permet de faire…

    Si tu passes par là, je veux bien une petite explication de ta part :)

    Bonne journée !

  3. @Baptiste, le contenu scrappé me sert essentiellement à construire les feeds RSS qui doivent être quand même plus propre que de la « bouillie » si l’on veut les distribuer.

Laisser un commentaire