spam – ø Les Carnets Web de Thibaut ø

Lier ou ne pas lier

Thibaut — Tue, 25 Jan 2011 13:42:36 +0000

Pas de lien = pas de trafic = pas d’argent.

Ce n’est pas un prédicat mais bien une réalité. On nous a souvent dit, que nevermind s’il n’y a pas de liens, du moment que le contenu est de qualité, les gens vous en feront gratuitement. A cette affirmation, en provenance de soi-disant experts, je dis: « des clous ».

Certes, il y a les copains qui n’hésitent pas à vous en faire, et puis de temps en temps un de vos articles sort du lot, mais dans l’ensemble les gens vous font rarement des liens gratuitement, du moins c’est mon sentiment. Vous n’avez qu’à compter le nombre de nouveaux liens qui apparaissent tous les mois et qui pointent sur votre beau site. Même s’il est de qualité, je n’ai franchement pas l’impression que c’est la panacée. D’ailleurs sur les forums, ne voit-on pas souvent ce genre de question:

Vous connaissez un site qui s’appelle Pagasa et qui parlent des botnets ?

Et la réponse massue qui s’ensuit:

Tu vas sur Google, et tu tapes Pagasa botnet.

Ou pire encore, cette horrible machine à tuer les liens:

http://lmgtfy.com/?q=pagasa+botnet

Pagasa existe depuis maintenant 8 années. J’ai eu le temps de constater ces faits durant tout ce temps. Même si vous faites quelque chose de bien, il est de plus en plus difficile de sortir du lot, de percer et surtout de dépasser les sites institutionnalisés.

C’est là aussi, je trouve une grande hypocrisie de notre grand ami à tous, l’inoxydable G qui dit que finalement, il faut toujours privilégier les liens dits « naturels », ceux qui se font parce qu’ils le valent bien et surtout parce qu’ils sont beaux. Quelle est la proportion maintenant entre les liens naturels et les liens artificiels, ceux qui sont construits juste à des fins de SEO: 10% de « bons » liens et 90% de spams liens issus de la diversité.

A l’instar de ce qui se passe dans votre messagerie, il y a quelques années, on trouvait un peu de spam parmi les bons liens; de nos jours, on trouve quelques bons liens parmi le spam.

Et puis, il est peut-être judicieux de rappeler quels sont les enjeux financiers qu’impliquent la construction des liens:

liens = trafic = argent

Si nous prenons en compte les directives recommandations de G:

bon contenu = peut-être des liens = peut-être du trafic = peut-être de l’argent

La trop grande fréquence du mot « peut-être » risque tôt au tard d’inquieter votre banquier, n’est-il pas vrai ?

Si vous reprenez mon expérience « Objectif Classement« , que constatez-vous ? Que j’ai passé des mois à construire la notoriété d’un article. Pour écrire ce dernier, j’ai du mettre quelque chose comme deux bonnes heures. Pour le reste, nous en sommes à plusieurs mois maintenant, et ce n’est pas encore fini. J’y travaille d’ailleurs encore et les résultats sont là.

C’est là un dilemme intéressant finalement et qui pour ma part se rapproche beaucoup de ce qui se fait dans la vrai vie. Construisez un produit ou un service de M., mais collez-lui un commercial d’enfer, que se passera-t-il ? C’est dommage finalement car ce que l’on cherche avant tout, c’est un bon produit ou un bon service, peu importe la manière dont il est vendu.

Alors lorsque l’on est un petit webmaster de rien du tout, la question se pose: quelle doit être notre priorité ? Faire du bon contenu, en espérant un jour lointain être enfin reconnu ou bien se focaliser sur le marketing et sur de rapides bénéfices ? Je peux tenter de répondre à cette question en vous parlant de ce que je connais bien: la communauté des méchants.

Au sein de cette communauté, la plupart des produits et services proposés font la belle part à la construction des liens: logiciels comme Xrumer, LFE, services de « blast », coopératives de blogs, etc. Ceci se fait généralement au détriment des services de rédaction de contenu, dont le nombre est beaucoup plus restreint. Les gens ont choisi de se focaliser sur l’aspect purement marketing des choses. Maintenant l’aspect purement court-terme de ce genre d’activité fait aussi que le contenu n’est qu’une variable sans véritable importance et qui doit prendre un minimum de temps.

Sur ces brèves paroles, je vous laisse méditer et terminer votre mémoire de fin d’étude de 900 pages qui ne sera lu que par trois personnes dont vous même.

Blackhat: la grosse méchante bouillie

Thibaut — Wed, 10 Feb 2010 19:58:34 +0000

Il y a quelques années, un Blackhatter américain, génialissime nous gratifiait régulièrement de techniques innovantes, sorties tout droit d’une imagination débordante. Il m’a beaucoup inspiré dans certains de mes « coups » et dans sa démarche, je retrouve des qualités que j’apprécie tout particulièrement, comme le refus de l’establishment, l’extrême témérité du discours sur l’argent ainsi qu’un langage de charretier.

C’est en faisant un peu de tri l’autre jour sur une de mes machines infernales, que je suis retombé sur la relique de l’un de ces coups. Comme ceci remonte à 3 ans déjà, j’en profite pour vous dévoiler ce coup et y apporter une analyse. Avec le temps, on murit et on est certainement plus critique quand à ses expériences passées.

L’idée était toute simple et maintes fois réutilisée: automatiser la création d’un site, rediriger le trafic vers ma Money Page, l’URL qui me permet d’acheter des Petshops à ma petite fille, puis multiplier cela à l’infini.

La création se faisait tout simplement via un bête script en PHP: depuis un dictionnaire anglais, je construisais des phrases à partir de mots tirés aléatoirement. Cela faisait une belle grosse méchante bouillie, incompréhensible bien entendu par le commun des mortels; mais je m’en moquais, étant donné que ces pages n’étaient là que pour nourrir mes amis, les moteurs de recherche.

A l’époque, ce n’était pas grave d’avoir des pages avec des contenus irrationnels, plein de gens le faisaient; depuis lors, de nouvelles lois ont été votées par ceux qui font la pluie et le beau temps sur la cyber-planète.
Dans une page, j’incorporais quelques liens vers d’autres pages qui se construisaient au fur et à mesure des visites. Si bien qu’au bout de quelques temps, je me suis retrouvé avec plusieurs centaines de pages auto générées.

Ces pages étaient quand même optimisées grâce à une astuce du très productif Blackhatter cité en début de l’article. Un agrégateur Web mettait à disposition une liste de blogs fraichement mis à jour, et il me suffisait d’aller récupérer régulièrement ces informations et de les utiliser pour construire mes pages. Ce qu’il faut savoir, c’est qu’un nombre impressionnant de scrapers utilisait cet agrégateur pour pratiquer en masse le spam à base de Trackback: vous publiez un article sur le viagra, et immédiatement la moitié de la planète des spammeurs vous pingeront avec comme espoir d’obtenir un retour sur leur Trackback. En clair, les spammeurs vous construisent gracieusement vos liens !

Parallèlement, un autre script construisait toutes les heures un feed RSS à partir du site auto généré, et lançait quelques pings vers des sites comme pingomatic.com afin de faire venir les moteurs de recherche.

Je ne peux pas dire que les liens se construisaient rapidement avec cette méthode; en fait, c’était bien en dessous de mes attentes et des affirmations du collègue.

Proverbe Blackhat: lorsque quelqu’un dévoile une nouvelle technique,
c’est qu’elle est déjà périmée depuis belle lurette.

Néanmoins, j’arrivais à faire venir des visiteurs, essentiellement grâce à la longue traine et Blogsearch. Les visiteurs étaient alors redirigés vers la money page, un produit « Rock&Roll » à télécharger.

Je suis alors passé à la vitesse supérieure, en créant une grande quantité de sous-domaines. Dans les bons jours, j’arrivais à générer plusieurs centaines de visiteurs, toujours grâce à Blogsearch. En multipliant toujours les domaines, je serai rapidement arrivé au millier de visiteurs, j’en suis convaincu.

Un jour, j’ai eu la visite de la Quality Team, et une semaine après l’ensemble du domaine ainsi que tous les sous-domaines ont été blacklistés.

Le site hébergeant la money Page n’a pas été pénalisé, mais Google m’a demandé d’y retirer les Adsenses, car jugé trop « Rock&Roll ». Pas porno, ni même érotique mais un peu limite quand même, je dois bien le reconnaitre après coup.

Au final, certes j’y ai gagné de l’argent, mais comme tout projet BlackHat, cela restera un simple coup et une expérience bien amusante.

Mais cela reste formateur, et j’ai appris beaucoup de choses:

– Tout d’abord, la durée: il se sera passé 3 mois entre le lancement du projet et le bannissement. Cela laisse quand même du temps pour faire rapidement de l’argent. Mais encore une fois, vivre sur ce genre de coup me laisse perplexe. Et puis, comme je l’ai déjà expliqué, je suis convaincu qu’un site banni peut avoir des conséquence sur le profiling d’un Webmaster par Google dans le futur.

– Des erreurs techniques: « oubli » du cloacking pour rediriger les visiteurs, et ne pas prévoir la venue prévisible de la Quality Team, en leur affichant un faux 404 ou plus marrant un compte désactivé pour spam :-)
Ce qui me fait dire qu’il faut vraiment une bonne préparation, avoir un script impeccable que l’on teste longuement avant sa « mise en production ». Je ne vous explique pas la galère lorsque vous devez corriger un bug sur des centaines de sites !

– Une erreur fondamentale: utiliser le même nom de sous-domaine avec un nombre: machin01, machin02, etc. Ça sent quand même le spam à plein nez ! Et puis avoir des milliers de sous-domaines qui apparaissent comme cela, du jour au lendemain, avec plein de pages, cela reste assez bourrin. Il faut être plus subtil, utiliser plusieurs domaines pour se couvrir, et faire cela tout doucement, lentement, insidieusement.

– Le contenu « scrambled », c’est bien fini, et d’après-moi, cela ne peut qu’accélérer le bannissement ou le spam-report

– Le spam à base de Trackback fonctionne encore, mais il faut faire quelques recherches pour bien les utiliser …

– Les liens sont toujours aussi compliqués et pénibles à construire.

– La longue traine est une excellente alternative à exploiter « puissamment ».

E Finita la Commedia !

Si j’étais de l’équipe qualité de Google

Thibaut — Wed, 04 Nov 2009 18:10:30 +0000

Dans l’incessante partie de cache-cache qui m’oppose à Google, j’ai récemment commencé à m’intéresser de plus près à la façon dont leur équipe qualité évolue et bannit les sites qui ~~gagnent plein d’argent~~ ne rentrent pas dans leur critère.

Il se fait que ma situation professionnelle m’a justement amené à travailler dans la qualité au sein d’un très gros service informatique. Avec le temps, il m’est souvent arrivé de me dire que Google est certainement confronté aux mêmes problématiques que je rencontre tous les jours.

Mon travail consiste à évaluer les performances des différents prestataires informatiques évoluant au sein de l’entreprise. J’ai à ma disposition un gigantesque ensemble d’informations provenant de sources variées: fichiers, téléphones, bases de données, etc.

A partir de cela, je construis des indicateurs et fait des rapports, la plupart du temps sous forme de graphes et tableaux. Je fais aussi des analyses détaillées sur les chiffres que j’obtiens. Je peux aussi déclencher des alertes en fonction de critères bien précis.

La première chose à savoir, c’est que la production de ces indicateurs est généralement bien automatisée. En effet, des outils aussi géniaux que PHP, Oracle, Excel (Et oui !) ou encore XML permettent de traiter n’importe quel type de données. Mais la seconde chose que je constate, c’est qu’une bonne analyse ne pourra jamais être remplacée par un algorithme aussi puissant soit-il.

Je vous donne un exemple basique. Un technicien helpdesk gère une dizaine d’incidents par jour. Le technicien est bien noté et perçoit une prime en fonction du nombre d’incidents qu’il résout. Cette prime peut être automatiquement produite par un indicateur que je crée via un script qui va interroger la base de données des incidents. Un jour, je m’aperçois que cet indicateur s’est complètement effondré. Si je voulais agir à la manière d’un ordinateur, sa prime aurait dû être automatiquement réduite par l’algorithme. Mais après analyse, il s’avère que trois nouveaux techniciens sont arrivés au cours du mois et qu’ils ont été pris en charge par le technicien senior. Celui-ci a bien évidemment été forcé de réduire sa tâche de travail opérationnel (son nombre de tickets) pour former les jeunes recrues.

Il en ressort donc que l’on ne peut pas appliquer systématiquement une pénalité sur la seule base d’un indicateur calculé: il faut parfois une analyse complémentaire pour obtenir un résultat fiable.

Maintenant, je profite de ma situation pour me mettre à la place de l’équipe qualité de Google, puisque nous faisons un travail similaire. Tout ce que je vous livre est le pur fruit de ma réflexion professionnelle et n’est donc que spéculation. Mais je pense que cela vous amènera à réfléchir plus longuement sur leur problématique ~~pour mieux la contourner~~.

Pour évaluer le résultat d’une requête, j’ai tout d’abord une problématique de taille: la volumétrie absolument gigantesque de l’information à traiter.

Le premier point est que je ne peux me permettre de mettre derrière chaque expression un analyste qui va décortiquer les résultats: il me faut des indicateurs, des alertes et surtout trier l’information. Je ne vais pas partir arbitrairement sur quelques mots clés. Après tout, il est très difficile d’évaluer le comportement d’un Internaute lambda: dans la vie de tous les jours, il ne passe pas son temps à chercher des vidéos ou acheter du viagra.

Pour ce faire, je commence par créer un indicateur de vigilance par expression. Celui-ci se calculera en fonction de la dynamique des liens et surtout des alertes que j’aurais généré dans mes analyses des backlinks. Ce dont je m’aperçois, c’est qu’il existe une grosse pression dans la construction des liens sur certains mots clé. C’est là que vont se dégager les « achat viagra » et autre « cialis », pourvoyeurs de très grosses quantités de liens.

Sur ce type d’expression, j’ai positionné mon indicateur à 5000. A côté du viagra, une longue traine comme « viagra pas cher à Douchy Les Mines » recevra une note de seulement 20. Grâce à la vigilance, je sais désormais où je dois appuyer mes analyses et mes efforts pour lutter contre le spam. J’ai ainsi résolu mon problème de volumétrie.

L’indicateur de vigilance va devoir évoluer avec le temps; dans la seconde partie où je détaillerai le fonctionnement de mon autre indicateur, j’aurai la possibilité d’augmenter ma vigilance. Chaque mois verra aussi la diminution arbitraire de ma vigilance, ceci pour pallier à une anomalie du système que l’on appelle le Buzz. Celui-ci est le résultat d’une actualité exceptionnelle mais qui ne représente pas véritablement un danger pour la pertinence des résultats: avec le temps, il finit par s’estomper. C’est le cas par exemple, d’un concours de référencement dont la vigilance va rapidement atteindre des sommets, avec un score de 4500 par exemple pour finir par dégringoler pratiquement à zéro quelques mois après la fin du concours.

Mon second indicateur est la vélocité. Les liens naturels sont variés et se construisent doucement au fil du temps. Le fait de passer de un à plus de 1000 backlinks en l’espace de quelques jours est un déclencheur élémentaire d’alerte. A chaque ajout de backlink, ma vélocité va augmenter. Mais tout comme ma vigilance, elle va aussi diminuer lentement au cours des jours à cause de l’effet Buzz.

Si ma vélocité dépasse un seuil alors je peux commencer par lancer une analyse automatique des backlinks. Il n’est pas bien difficile de déterminer la qualité d’un lien:

– les nouveaux liens sont-il uniformes ou pas (même mot clé sur même URL)
– combien d’OBL (liens sortants) sont présents sur la page ?
– la page contient-elle des mots clés disposant d’une vigilance importante (Viagra, Cialis) ?
– le lien est-il une ancre ou une url ?
– l’âge du domaine
– le profil du Webmaster (Voir Google, tu m’ennuies)
– etc.

A ce niveau, je peux déjà choisir de retirer automatiquement ou de pénaliser un site rien que sur quelques critères. Et si cela n’est pas probant, j’ai toujours la possibilité de me tourner vers la vigilance qui m’indique si je dois oui ou non engager une analyse manuelle.

Si l’une des analyses tranche en défaveur du sondé, qu’elle le déclare spammeur, alors la vigilance sera augmentée et assurera la pérennité de mon système de filtrage.

Voilà, vous avez désormais une idée de la façon dont j’aurai à gérer le filtrage si je faisais partie de l’équipe qualité de Google: en construisant un mécanisme composé de quelques indicateurs formant un scoring, et dans lequel l’analyse manuelle aurait toute sa place. Car comme, je vous l’ai déjà expliqué jamais un programme informatique ne sera capable de reproduire l’une des plus puissantes qualités de l’homme: le jugement.

Le Botnet Storm

Thibaut — Fri, 10 Oct 2008 15:44:14 +0000

Suite à l’attaque par mail dont j’ai été la victime, je me suis penché un peu plus en profondeur sur l’inquiétant phénomène Botnet qui est sans nulle doute la pire menace jamais créée sur Internet.

Même si le chiffre me semble ridiculement bas, il existe une bonne dizaine de Botnets clairement identifiés par des « chasseurs » : le Kraken, composé de plus de 400000 machines capable de générer 9 milliards de spams par jour, le Srizbi autrefois responsable de 60% du spam sur Internet, etc.

Parmi tout cela, l’un de ces Botnet a retenu toute mon attention pour le très haut niveau de technicité employé dans son utilisation: il s’agit du Botnet Storm.

Le Storm, encore appelé Storm Worm, de part son étroite relation avec un cheval de Troie du même nom, a été identifié pour la première fois en Janvier 2007. Les médias prétendent que ce Botnet serait composé de 1 à 50 millions de machines, mais les experts estiment que « seulement » 160000 machines forment ce Botnet.

Bien entendu, il est très difficile de déterminer l’origine du Storm: certains pensent qu’il serait contrôlé directement depuis le sol Américain alors que d’autres estiment, qu’à l’instar de plusieurs de ces « confrères », il serait Russe et même l’œuvre du sinistre Russian Business Network, une occulte organisation cyber-criminelle.

Comme tous les autres Botnet, le but principal du Storm est de générer du spam de nature différente: fichiers PDF ou Excel contenant des images, enregistrement vocal de MP3, texte brut, et email d’hameçonnage (Phishing). Au mois de mars 2008, 20% des spams sur Internet proviendrait du Storm.
Il est également à noter qu’une partie des machines est exclusivement dédiée à l’extension du Botnet, en envoyant par mail des chevaux de Troie chargés d’infecter les machines sur Internet.

Outre le spam, le Botnet est également capable de lancer des attaques DDOS contre d’autres groupes et organisations mais aussi en direction de ceux qui le traquent.

Si le Storm est particulier, c’est que son anatomie est différente des autres Botnet. Au fil du temps, ces auteurs semblent s’être durement focalisés sur la survie de leur création, passant d’une organisation relativement simple et classique à quelque chose de beaucoup plus sophistiquée.

Dans un Botnet rudimentaire, vous trouvez toujours un serveur principal appelé Command and Control (C&C) qui se charge de contacter et de contrôler ces milliers de machines contaminées sur tout le réseau. Pour casser ce type de Botnet, il suffit donc de trouver le C&C et de le désactiver: les machines Zombies sont alors privées de toute commande à distance et rendues partiellement inoffensives.

Le Storm a une approche foncièrement différente et s’organise en différentes couches. Tout en haut de la pyramide, vous avez un C&C tournant sous Apache, et vraisemblablement placé en Russie, selon les dires des experts. Au niveau inférieur, vous trouvez un proxy Nginx chargé de dissimuler la présence du C&C.
Au troisième niveau, vous trouvez une collection de Nginx qui masque le proxy principal du niveau supérieur. Au quatrième niveau se trouvent les nœuds publiques qui agissent comme des reverse proxies et qui renvoient les communications vers le C&C, agissant comme des serveurs DNS fast flux. La technique du fast flux consiste à associer un même nom de domaine à plusieurs IP différentes, et ce rapidement. Finalement, le dernier niveau se compose de milliers de machines serviles, réparties sur tout l’ensemble du réseau.

Le processus d’infection se fait généralement par mail mais peut aussi être déclenché via le réseau P2P. Lorsque la victime a cliqué sur le lien situé dans son mail, le programme va télécharger un fichier exécutable directement depuis un nœud du quatrième niveau. Une fois infectée, la machine compromise et le nœud s’échangent l’adresse IP du nouveau Zombie. L’information est alors envoyée au troisième niveau, puis au second pour finalement parvenir au C&C.

Au deuxième et troisième niveau, les proxies Nginx écoutent le trafic P2P des réseaux Overnet et eDonkey. Overnet est un réseau à base de table de hachage distribuée (DHT) basé sur l’algorithme Kademlia. Il s’agit du même protocole utilisé par les anciennes versions de eDonkey. Depuis octobre 2007, le Storm a changé son protocole: non seulement il utilise Overnet pour communiquer, mais les dernières versions du programme utilisent désormais leur propre réseau P2P. Ce réseau est quasiment identique à Overnet si ce n’est que l’information qui y circule y est encryptée.

Pour identifier les nœuds ainsi que le contenu sur le réseau Overnet, l’algorithme DHT utilise une clé linéaire (Généralement 128 bits) . Tous les algorithmes DHT ont leur propre façon de calculer la distance logique entre deux nœuds ou entre un nœud et du contenu distribué.

Kademlia calcule la distance entre les nœuds en effectuant un ou exclusif entre leur hachage publié.
Lorsqu’une machine souhaite trouver du contenu sur le réseau, elle calcule (ou reçoit) le hachage du contenu et recherche des machines adjacentes à elle même. Ces dernières répondent également en annonçant leurs propres machines adjacentes. Le processus est répété jusqu’à ce qu’une machine soit à même de répondre à la requête de la recherche du contenu.

C’est parce que le réseau Overnet fonctionne sur un modèle de distribution qu’il n’existe aucun annuaire des machines. La liste des machines actives ainsi que le contenu publié sont distribués en petits morceaux directement dans la mémoire de toutes les machines du réseau. C’est toujours l’absence d’annuaire centralisé ainsi que la nature dynamique de ce qui est stocké dans la DHT qui rend le Storm tellement résistant à son démantèlement.

En conclusion, je dirai qu’à la vue de tout ce que j’ai pu lire sur le sujet, ce botnet est un véritable chef d’œuvre de technologie au service du mal. Sa complexité et son architecture lui ont valu le privilège d’être le sujet de plusieurs études, voir même de thèses écrites par des chercheurs de haut niveau. Maintenant, loin de moi de vouloir faire l’apologie du cybercrime, on ne peut que rester perplexe devant un tel déchainement de recherches techniques, de réflexions et d’efforts, surtout pour de si noirs desseins.

Le Spam referer

Thibaut — Fri, 12 Sep 2008 15:07:04 +0000

Sur votre beau site de tricot, vous avez récemment installé un programme qui vous permet de générer des statistiques Web. Lorsque l’on est un super hackerz-2-la-mort-ki-kill, on tourne sous Apache et on génère ses stats avec un machin comme AWStats.

C’est bien les stats, car elles vous donnent tout plein d’informations sur les gens qui viennent, les robots, les mots clé utilisés, etc. En bref, un très bon outil qui vous permet de bien optimiser votre beau site de tricot. Vous savez désormais que la page la plus fréquentée de celui-ci est celle qui décrit votre week-end au festival du tricotin à Crottes-en-Pithiverais, dans le Loiret.

Dans la partie referer, autrement dit l’url de la page vue précédemment par le visiteur, vous constatez la présence de nombreux sites complètement inconnus de votre part. Eperdu de joie (Wouhaaa, des gens font des liens vers mon site !), vous les visitez et nulle part, vous ne trouvez trace de votre site. Par ailleurs, ces sites n’ont strictement rien à voir avec le votre. On y parle de choses incompréhensibles comme « gambling », « mortgage », « viagra » et « loan ». Et en plus, ils sont en anglais, mais qu’est ce que c’est que ce binz ??

Vous êtes la malheureuse victime d’un spam referer, il ne vous reste plus qu’à aller vite pleurer sur un forum pour y épancher votre colère, à dire tout le mal que vous pensez de ce que l’on s’est permit de vous faire, à proposer que l’on fasse voter une loi contre le spam referer, à en appeler à la cour européenne de justice, à blablablablabla …, interdit, blablablabla …, illégal, blablablabla …, maison à gagner…, blablablabla …

Alors, c’est quoi ce machin de spam referer ? c’est tout simplement une petite technique Blackhat pour faire tout plein de liens vers un beau site qui vend des pilules radis. Des pilules radis, qu’est-ce que c’est encore que cette histoire ? Et bien à l’instar du radis, les pilules sont rouges à l’extérieur et blanches à l’intérieur, un peu comme certains politiciens ;-)

L’idée, c’est d’aller visiter votre site de tricot en faisant croire que vous venez d’un autre site, donc que vous arrivez au moyen d’un lien extérieur. Après ce lien apparaitra dans vos statistiques, et si ces dernières sont visibles, alors elles seront indexées par les moteurs de recherche, ce qui implique l’obtention d’un backlink vers le site du spammeur, tout bénéf, quoi. Mais c’est du spam, ça ! Oui, bien sur, et en plus c’est mal !

Un programme comme PRStorm utilise cette technique: en bombardant une multitude de sites avec un referer fabriqué de toute pièce, et ce pendant plusieurs heures, un spammeur peut facilement générer plusieurs centaines de backlinks.

Vous voulez des preuves ? Facile, il suffit d’utiliser l’arme absolue sur Internet pour récupérer des statistiques publiques; faites cela en lançant cette requête. Ici, on cherche l’empreinte (Footprint) de AWStats, et on se focalise sur la période de septembre 2008. On peut être plus restrictif en précisant par exemple un mot clé particulier afin de travailler uniquement sur la niche qui nous intéresse. Et puis bien entendu, il n’y a pas qu’AWStats comme logiciel de statistiques. Il suffit d’isoler l’empreinte du logiciel et rien ne vous empêche d’utiliser d’autres moteurs comme Yahoo ou Live par exemple.

Une fois que vous avez récolté des milliers d’URLs, vous n’avez plus qu’à lancer un simple wget, ou générer du trafic de M (encore !) en direction du site. Ici, les statistiques de www.tartopom.com sont spammées par l’infâme Pagasa:

# wget –referer=http://www.pagasa.net www.tartopom.com

Bien sûr, il manque plein de choses: un faux UserAgent et puis quelques proxy pour ne pas trop se faire remarquer.

Et la boucle, hein la boucle ? Parce que là, tu nous donnes l’instruction juste pour une seule URL. Mais moi, j’ai acheté 1500000 URL à utiliser et toi, tu nous dis pas comment faire pour utiliser toutes les URL. C’est simple, vous prenez Excel ou Calc et vous faites du copier-coller, un peu comme pour le trafic de M.

Voilà, à noter tout de même qu’il s’agit d’une technique assez ancienne et que les dernières versions des programmes de statistiques ont tendance à supprimer les URL des referer; il reste toutefois largement de quoi faire.

Attaque par mail: botnet et zombie

Thibaut — Sat, 23 Aug 2008 12:07:11 +0000

Il y a quelques jours, j’ai subi une attaque par mail assez violente. J’en profite pour la détailler, et y apporter des commentaires. C’est toujours intéressant de connaitre les techniques des méchants, et puis au cas où je l’aurai oublié, le mail c’est mon dada ;-)

Tout d’abord, j’ai reçu en l’espace de 2 minutes près de 400 mails, et à ce jour, je continue d’en recevoir sporadiquement mais en très faible quantité. Ce n’est pas à proprement parler du spam, ni du mail-bombing, mais des bounces (des échecs de livraison). Quelqu’un a utilisé mon adresse publique (sendmail arobase pagasa point net) pour envoyer des courriers non sollicités, et je ne fais que recevoir les erreurs.

La première chose que j’ai constaté est que nous ne sommes plus dans le chemin classique d’expédition du spam. Il y a quelques années, le spammeur utilisait traditionnellement un relai ouvert, un serveur SMTP non sécurisé pour envoyer ses millions de mails. Il n’était alors pas bien difficile de fermer le relai et de passer à autre chose. Cette technique aurait tendance à diminuer mais au vue du nombre de tests que j’ai quotidiennement sur http://www.pagasa.net/test-smtp/, elle n’a pas encore complètement disparu.

Aujourd’hui, ce sont bien des centaines de machines qui sont utilisées pour spammer. Ces machines forment un botnet, un réseau de PCs compromis par des failles de sécurité et pilotés à distance via IRC ou par des requêtes HTML (POST par exemple, pour moins éveiller les soupçons).

Dans mon cas, pratiquement toutes les machines que j’ai repérées sont référencées sur les listes noires comme zombie ou proxy ouverts. Si vous avez un doute sur votre propre machine, vous pouvez tester votre adresse IP via mon script Blacklist.

Ce qui est ennuyeux avec cette histoire, c’est qu’il n’y a aucun moyen d’arrêter le spam en cours, et d’un autre côté, on peut difficilement remonter jusqu’au spammeur en lui même: il faut isoler le zombie et l’inspecter méthodiquement; et encore, on a assez peu de chance de retrouver quoique ce soit: un vrai spammeur ne laisse pas beaucoup de pièces à conviction derrière lui et il n’est pas impossible qu’il chaine ses opérations en faisant piloter un zombie par un autre :-O

Je n’ose pas imaginer le jour où des attaques de grandes envergures seront déclenchées; j’ai d’ailleurs même déjà l’impression que c’est déjà commençé. Les botnets sont sans nulle doute la plus grave menace qui pèse sur l’intégrité de l’Internet.

Au cours de mes investigations, j’ai remarqué que le zombie jouait le rôle d’un agent de transfert (MTA): il est capable d’extraire le MX (Mail Exchanger), ce qui lui permet de communiquer directement avec sa destination, sans passer par un serveur SMTP tiers, celui de son FAI, bien entendu :-)

Mais parfois le zombie détecte la présence d’un serveur SMTP déjà installé en local et l’utilise pour transporter son mail. J’ai pu ainsi repérer quelques Exchanges piratés. Les entêtes que j’ai récupérés prouvent bien une utilisation locale et non un relayage.

En ce qui concerne le spam en lui même, il est destiné à un public russe et peut se présenter sous deux formes:
– Un message écrit en russe, à connotation sexuelle, et invitant à télécharger un Flash sur Imageshack. Un passage à l’antivirus n’a rien donné pour l’instant. Je suppose qu’il s’agit d’un cheval de Troie, exploitant une faille Flash et permettant ainsi à la machine d’incorporer le botnet.
– Le spam en lui même: une invitation au séminaire « UNE VOITURE DANS VOTRE ORGANISATION: comptabilité, fiscalité de l’exploitation » donné par un certain Семенихин В.В, le 26 août 2008. (Merci Google). Aucune URL n’est présente, juste un numéro de téléphone. Curieux, tout de même de spammer pour un séminaire. (Tentative de discrédit par un concurrent ?)

La chose qui est certaine, c’est que l’Internet est devenu très dangereux.

Vous êtes un administrateur débutant ?

Scraper

Thibaut — Sun, 20 Jan 2008 14:06:01 +0000

Notre petit périple au pays du Blackhat nous a conduit à voir comment créer un lien avec un site populaire au moyen d’une injection d’URL. Je vous ai également parlé de ces spammeurs de liens qui gagnent beaucoup d’argent grâce à des techniques de programmation sophistiquées. Et finalement, je vous ai fait une petite démonstration sur l’art de spammer subtilement Google. A ce jour, je n’ai d’ailleurs toujours pas été blacklisté chez eux sur le mot clé que je visais: spammeur. Comme c’est étrange, on nous aurait menti ou alors je travaille peut être chez Google ?

Après ces petites histoires qui nous ont tous bien amusé, je m’attaque à un autre sujet qui se situe toujours dans la mouvance Blackhat: le scraping. Pour cela, je me ferai aider par un assistant dont on entend beaucoup parler en ce moment:
Sébastien Chabal, le fameux joueur de rugby qui fait le désespoir des coiffeurs.

Le scraper est celui (la personne ou le programme) qui fait le scraping. Je vais expliquer en quoi cela consiste un peu plus tard.
Dans mes autres articles, je me suis focalisé sur la manière de populariser mes sites. Néanmoins, lorsque je crée 1000 sites, si je n’ai pas trop de problèmes à les faire connaître, j’ai tout de même un souci de taille: où vais-je donc trouver tout le contenu ?
Car pour être rentable, je dois créer des dizaines, voir même des centaines de pages par site. En clair, il me faut des millions de pages à faire digérer par Google.

Je pourrai engager un indien qui m’écrirait des dizaines d’articles pour quelques dollars, mais cela demande du temps: chercher, poster, négocier, payer, uploader, etc. Bref, cela finirait par me coûter un peu cher et mon ROI ne serait certainement pas atteint.

Finalement, comme je m’y connais un peu en programmation, j’ai décidé de faire travailler un peu ma machine, c’est tellement plus simple et surtout moins fatiguant.
En cherchant un peu, je me suis rendu compte de deux choses.

Tout d’abord, tous les jours, des milliers de personnes blogguent des petites bafouilles sur leur vie, leur petites misères et leur passion. Dans ce gigantesque amas d’écrits de plus ou moins bonne facture, je dispose d’un énorme vivier de contenu extrêmement dynamique que je vais récupérer pour mon propre intérêt.

Ensuite, tous les moteurs de recherche ont leur rubrique d’actualités qui contient également une montagne d’écrits qui m’intéressent (On dira plutôt qui intéresse notre ami Google). Maintenant, on pourrait se demander pourquoi ne pas prendre tout simplement des résultats conventionnels de requêtes que l’on mettra en forme.
Non, car les blogs et les actualités évoluent plus rapidement que les bêtes SERPS et risque de beaucoup plus intéresser Google, toujours avide de nouvelles informations et prêt à surgir à chaque mise à jour de mon site.

Donc, pour résumer, moi le scraper, je vais aller piquer du contenu chez les bloggeurs et dans les rubriques d’actualité. Je vais ensuite tout remettre en forme et ajouter des Adsense ou des liens d’affiliation dans les pages ainsi générées. C’est cela le scraping: voler les informations des autres pour construire son propre site.

~~En guise de démonstration, je vous ai concocté rapidement une petite page scrapée sur notre chevelu national: l’inénarrable Sébastien Chabal.~~

J’ai commencé par mettre une petite photo sympa, histoire d’amadouer mes « victimes ». Ce sera d’ailleurs la seule partie statique, tout le reste étant généré à la volée. Ensuite, on trouve un bloc texte, plus ou moins incompréhensible dans lequel on retrouve Sébastien. Ces machins là viennent de mon scraping sur les blogs. Je n’ai pas trop retravaillé le texte, d’où les caractères cabalistiques et puis les quelques textes étrangers qui se sont immiscés, mais peu importe ce qui compte, c’est de donner à manger à Google. La page se termine sur des nouvelles scrapées sur Yahoo.

Voilà, pas mal, non ? En fait, c’est nul à crever, mais c’est juste une démonstration pour que toi, mon troll préféré, comprennent comment s’y prend le scraper; mais sache qu’il n’y a que quelques lignes de codes vite programmées entre deux bières.

Il y a beaucoup de façon d’améliorer la bête. Tout d’abord, je peux récupérer une base de données contenant des expressions toute faites, dotées d’une sémantique irréprochable. Ensuite, j’y insère mon mot clé, vous savez le joueur de rugby qui casse des mâchoires. Eventuellement, je fais quelques retouches en utilisant des synonymes. Je fais une extraction sur une dizaine d’expressions. Le sens n’aura certainement ni queue ni tête (hum, vous pouvez être parfois très surpris du résultat), mais Google n’y verra rien du tout. Après, je peux insérer une petite vidéo toujours récupérée sur Google, histoire de cosmétiser la page.

Et finalement, j’insère sur la page quelques liens comme suit:
sebastien-chabal-rugby-02.php, sebastien-chabal-coupe-monde-03.php, chabal-sebastien-joueur-04.php qui à chaque fois vont être une page différente dont le contenu sera scrapé comme pour la première page. La seule différence notable est que pour l’index, je scrape seulement sur le mot clé primaire, ici « chabal », et que plus je m’enfonce dans le site, et plus je serai précis: je cherche à me positionner sur « sebastien chabal », puis sur « sebastien chabal rugby », etc. Au total si la niche est suffisamment riche, alors je peux espérer créer facilement des milliers de pages à la volée.

Pour terminer, on va encore me soulever la question de l’éthique, de la morale, des droits d’auteurs, du contenu dupliqué, etc.

Sur le fond, il n’y a franchement rien de moral, c’est clair: on fait de l’argent grâce au travail des autres. Je ne m’étendrai pas sur le sujet, le scraper a ses principes, ses objectifs et les moyens qu’il met en oeuvre pour y arriver. La technologie permet certes d’engranger rapidement des bénéfices conséquents, mais à long terme, je doute de la viabilité de ce qui ne sera jamais construit sur un business model cohérent.

Maintenant, comme le disait assez justement Sam: il n’y a rien de personnel dans tout cela.

Spammeur

Thibaut — Wed, 19 Dec 2007 22:16:10 +0000

Dans l’hypothèse où je serai un spammeur cherchant à bien me positionner sur Google, j’aurai à ma disposition plusieurs possibilités. Je vous propose ici une petite démonstration.

Tout d’abord, je pourrai me contenter de faire comme un spammeur de liens, à savoir, générer des tonnes et des tonnes de liens vers mon site. Mais à la longue, il y a beaucoup de chances que je me fasse éjecter de Google, et perdre ainsi tous le bénéfice lié à mon activité de spammeur. 10000 nouveaux liens par jour, c’est bien, mais impossible de ne pas se faire repérer.

Une autre alternative plus discrète, qui demande moins de travail est de bourrer ma page du mot clé qui m’intéresse. Mais ce n’est pas non plus sans risque. Il faut faire preuve de subtilité.

Pour ce faire, je commence par utiliser un générateur qui me crée un petit texte tout simple comme celui-ci par exemple:

Spammeur

« Bienvenu sur ce site de spammeur. Ceci est du spam généré par un logiciel. Le but de ce texte est de vous montrer que je suis un spammeur. Ce texte ne contient que du spam. Mon site de spammeur va surement être banni par Google. J’ai copié ce spam partout sur mon site. Mes pages sont remplies de propos de spammeur. Vous ne pouvez pas imaginer à quel point je spam. »

L’inconvénient de ce genre de texte, c’est qu’il est, somme toute, assez facile à détecter par Google.

On peut essayer de modifier la façon dont il est présenté, grâce à nos entêtes favorites (ou presque):

Entête 1

Ce site de spammeur ne parle que du spam

Entête 2

Les spammeurs ne devraient pas exister, pas plus que le spam

Ce qui est intéressant ici, c’est que l’on a amélioré la présentation en scindant les propos du spammeur en paragraphes, ce qui casse l’aspect automatique du texte et le rend beaucoup plus humain, donc mieux perceptible pas notre ami Google.

Après, je peux noyer mon mot clé dans des pseudos commentaires.

Commentaires (5)

Charles:
Tu n’es qu’un spammeur

Kathy:
Mais puisque je vous dis que vous n’êtes qu’un spammeur

Elizabeth:
Spam ou spammeur, telle est la question

André:
Franchement, je ne savais pas que tu étais un spammeur.

Philippe:
J’ai vu ton site de spammeur, franchement, il est bien.

Honnêtement, ce n’est pas de ma faute, si mes lecteurs sont eux même des spammeurs; j’ai donc peu de chance d’être banni.

Et finalement, j’essaye de faire passer mes élucubrations de spammeur dans une liste:

– Malgré ce que vous pensez, je ne suis pas un spammeur.
– Ici, je casse la liste pour ne pas me faire repérer.
– Spammeur, spam, spammer, spammeurs.
– Texte crée par un spammeur.
– Et voilà, une autre cassure.

La conclusion de cette petite démonstration vous sera prochainement communiquée.

Lundi 14 avril, 14:30 – Nous sommes quelques mois plus tard et je suis désormais 3ème.
Lundi 13 août 2007, 20:18 – Au cas où vous l’auriez pas remarqué, je cherchais à me positionner sur le mot-clé « spammeur« .
Samedi 11 août 2007, 10:34 – 5ème sur Google. Mission réussie: je reste sur la première page des SERPS, et Google ne m’a même pas viré.
Mardi 10 juillet 2007, 11:15 – Mes premiers résultats: 7ème sur Google. Ce n’est pas mal, au vue de la rude concurrence.
Samedi 7 juillet 2007, 11:00 – La page a été indexée par Google.
Jeudi 5 juillet 2007, 18:12 – Le snippet du site, l’extrait de la page affiché en descriptif du résultat de recherche, vient d’être modifié par Google. C’est rapide, il n’a fallu que trois heures.

Entretien avec un spammeur de liens

Thibaut — Wed, 19 Dec 2007 22:12:42 +0000

(D’après un article original de Charles Arthur)
Il n’y a rien de personnel dans tout cela.

Sam, appelons-le Sam, préfère conserver son anonymat. Il habite à Londres dans une maison jumelée disposant de trois salles de bain, conduit une jaguar et possède sa propre société. Mais cette dernière ne fait pas dans le show-business comme l’explique Sam. Spammer les sites Web et les blogs pour propulser en tête des moteurs de recherches ses sites PPC (Pilules, porno et casinos), voila le business de Sam.

Et ce business, Sam le fait très bien. Il pourrait le faire juste pour rigoler, mais cela n’a rien à voir avec une plaisanterie. Il prétend pouvoir gagner des millions avec ce business. Sam est un spammeur de liens convaincu. Expérimenté en Perl, LWP et PHP, la première expérience de Sam en matière de programmation remonte à ses 13 ans lorsqu’il vendit un bout de programme à une société de jeux. Aujourd’hui, il est âgé de 32 ans et nous parle sous le couvert de l’anonymat.

Comment s’y prennent-ils ces spammeurs de liens, (c’est ainsi qu’ils sont appelés génériquement), et aussi pourquoi ? Sont-ils les mêmes que les spammeurs de mails ? Que pensent-ils de leur activité d’un point de vue éthique ? Et comment peut-on les arrêter ? Si vous êtes affectés par ce genre de spam, parce que vous avez un blog, ou un site Web, ou que comme 99% des Internautes, vous tombez par hasard sur le sujet, Sam tient à rappeler qu’il n’y a rien de personnel derrière tout cela. Ce n’est pas vous qui êtes visés personnellement. Les spammeurs de liens utilisent une faiblesse qui émergea au moment où Google en termina avec l’ancienne méthode des spammeurs qui utilisaient de gigantesques fermes de liens qui pointaient les unes sur les autres afin d’améliorer leur classement dans les moteurs de recherches.

C’était au mois de Décembre 2003: Google mit en place ce que l’on a appelé « l’update Florida ». L’algorithme qui mesurait le classement de popularité d’un site fut modifié : désormais les liens dits de « complaisance » étaient dévalués. Donc si vous aviez une ferme de liens avec différents noms pointant excessivement les uns sur les autres alors votre classement dégringolait, explique Sam.

C’est alors que les spammeurs de liens, qui préfèrent utiliser le terme «optimisateur de moteurs de recherche» , passablement en colère que désormais ce soit le moteur de recherche lui même qui fasse l’optimisation, se tournèrent vers d’autres exutoires, gratuits de surcroit, et passablement appréciés par Google à cause de la richesse de leur contenu : les blogs. Et plus spécialement les commentaires de blogs où les rédacteurs s’attendent plus à d’agréables remarques sur ce qu’ils ont écrit qu’à des liens sur des sites PPC. Mais bon, il n’y a rien de personnel dans tout cela.

« Il était déjà fréquent de spammer les commentaires des blogs avant l’update Florida, mais la pratique a explosé depuis lors, » explique Sam. « Tout ce dont nous avions besoin, c’est d’un site web qui autorise les interactions. Les galeries de photo, à base de PHPGallery, qui autorisent les votes et les commentaires sont également des cibles faciles. Car la plupart d’entre elles autorise quiconque à laisser une remarque. »

Même pour un programmeur moyen, l’écriture d’un programme permettant de spammer les sites web vulnérables ainsi que les blogs, est une chose relativement aisée. Tout ce dont vous avez besoin est une liste immense de blogs, que l’on obtient en cherchant des mots clé, comme « WordPress », « Movable Type » et « Blogger ».

Mais les gens comme Sam sont beaucoup plus efficaces. «Vous pouvez viser entre 20000 et 100000 blogs. Chaque spammer cherche non pas la qualité des sites mais la quantité de liens. Lorsqu’un nouveau format de blog fait son apparition, il faut à peine y consacrer plus de 10 minutes et développer une méthode pour spammer les commentaires. Un simple script d’une centaine de lignes et le spam peut commencer. Mais vous ne pouvez pas juste allumer votre PC et lui demander d’exécuter le script. Vous risquez d’être repéré par votre FAI et déconnecté; ou bien l’adresse IP de votre machine peut être bloquée définitivement par les blogs visés.

Alors, comme tous les autres spammeurs de liens, Sam utilise les milliers de proxy ouverts présents sur Internet. Ces machines sont, par accident (un administrateur étourdi) ou par conception (un architecte étourdi), utilisables par quiconque pour aller visiter n’importe quel site web. D’habitude conçu pour un usage interne, et permettant ainsi l’exposition frontale d’une seule machine sur Internet, les proxy sont assez difficiles à sécuriser complètement.

Les programmes de Sam utilisent des centaines de proxy qui vont docilement spammer des blogs et d’autres sites avec le contenu voulu. Ils ont l’habitude de viser plutôt les anciens articles, de sorte que les gens ne les repèrent pas, ce qui n’est pas le cas des moteurs de recherche qui vont systématiquement repérer les liens et les indexer. Et c’est ici qu’il y a une chose intéressante : les spammeurs de liens travaillent pour eux même et agissent de leur propre chef. Leur opérations ne sont pas destinées à une tiers partie, comme dans le cadre d’un spammeur de mail. (Est-ce que cela signifie que le business n’est pas encore mature ?)

Et voici pourquoi. Lorsque Sam spamme des tonnes de blogs et de sites avec des liens sur ses propres sites, qui sont eux-mêmes affiliés à de plus gros sites PPC, les gens qui sont à la recherche de pilules, casino ou pornographie, cliquent depuis ses sites sur ces liens qui les redirigent vers ces sites parents qui payent Sam pour chaque personne les visitant. Selon Sam, ces sites PPC peuvent espérer des revenus de l’ordre de 100 000 à 200 000 livres sterling par mois. Sam obtient un pourcentage non négligeable sur ces ventes.

Peut-être que le système d’affiliation est finalement une forme de délégation: tout en haut de la chaine, les sites obtiennent une multitude « d’ouvriers » qui se démènent pour attirer des visiteurs sur ces sites. Darwin comprendrait. Spammer des liens, malgré l’abus de ressources, est de loin la meilleure façon de procéder, tout comme couper du bois dans la forêt amazonienne ou indonésienne est la meilleure façon d’obtenir beaucoup plus de bois. Après tout, même si cela contribue grandement au réchauffement climatique de la communauté des bloggeurs, et bien la vie continue quand même sur la planète Internet. « Sam, pourquoi ne te contentes-tu pas d’acheter une publicité sur Google ? » Jamais vous n’obtiendrez un tel ratio de clic. En utilisant le spam, vous pouvez obtenir 6 à 7 fois plus de clics ; de plus les publicités sur les moteurs de recherche coutent beaucoup d’argent, parfois jusqu.à 20 livres le clic ! Ici, vous ne payez rien pour obtenir un résultat organique. « Mais qu’en est-il de la morale, vous utilisez la bande passante d’autrui et abusez l’espace des blogs en y insérant des messages commerciaux ? » « La question de la morale est une affaire personnelle. Tant que c’est légal, on continuera. Un argument pourrait être qu’un propriétaire de site accepte finalement implicitement le mécanisme, puisqu’il y autorise les commentaires. »

Quand Sam a commencé ses affaires, il avait comme objectif d’être dans les 6 premiers sur les moteurs de recherche, même si l’objectif suprême est toujours d’être le numéro un pour une phrase du site choisi. « Mais bien entendu, être numéro 2 ou 3, c’est déjà une réussite ». Curieusement, les rangs 8, 9 et 10 ont des meilleurs taux de conversion. Je ne sais pas pourquoi. Peut être parce les yeux s’y fixent lorsque l’on fait défiler la page. » Et le coût de tout cela ? Une fois que le code est écrit, pratiquement rien. « La bande passante est bon marché », dit-il. « Vous lancez votre programme le soir et vous revenez le matin pour voir comment ca s’est passé. »

Et le côté légal de toute cette activité ? C’est ici que Sam met beaucoup de distance entre lui et les spammeurs par mail, particulièrement ceux qui utilisent des virus faits sur mesure et qui transforment votre PC connecté à la DSL ou au câble en générateurs de spams. « J’utilise des serveurs proxy mal configurés, pas ceux qui ont été piratés et qui sont sous le contrôle d’un étranger. Mais je parle des 7 ou 8 meilleurs spammeurs de liens, et ils n’utilisent pas des PC zombies. Les gens qui spamment les blogs ne viendront pas au spam par mail. »

En utilisant des serveurs proxy, Sam argumente qu’il n’y a rien d’illégal. (Ce qui est apparemment exact dans le sens où la configuration de la machine n’a pas été modifiée) Par contre, l’envoi de virus et l’utilisation de bots est parfaitement illégal. L’argument de la moralité est réservé aux individus. La question de la légalité est un autre débat.

En fait, la loi pencherait plus en faveur de Sam. Il est difficile d’argumenter sur la différence entre une personne utilisant un ordinateur pour poster un commentaire et une personne utilisant un ordinateur qui utilise lui-même un ordinateur pour poster un commentaire. Récemment Google, Yahoo et MSN ont décidé de prendre en compte l’attribut « nofollow » des liens hypertextes. (Empêchant ainsi aux moteurs de suivre les liens). Est-ce que cette initiative mettra un terme aux agissements de Sam et de ses comparses ? « Je ne pense pas que cela aura beaucoup d’effets à court, moyen et long terme. Les moteurs de recherche sont la cause du problème, on ne suit pas trop ce type de logique, et ils font cela pour apaiser la communauté des bloggeurs. Cela ne fonctionnera pas car la plupart des blogs et des formulaires sont bâtis avec les meilleures intentions du monde; mais même lorsque les gens se rendent compte que leur système a été corrompu, la plupart du temps, ils laissent pourrir la situation. Pour prendre en compte la nouvelle directive des moteurs de recherche, tous les systèmes devraient être mis à jour. La majorité ne le sera pas. Et les retro liens continueront d’être spammés.

Sam déclare que les spammeurs montent également leur propres blogs et référencient leur articles sur des millions de blogs, ce qui va immanquablement les ramener au spammeur. Mais comment empêcher les spammeur de poster leur liens ? Une bonne méthode est d’utiliser les captchas. Une personne peut surmonter ce type de test, mais pas un ordinateur incapable de lire une image comportant des chiffres ou des lettres déformées. « Même l’authentification de l’utilisateur peut être automatisée » (La commande Unix curl est merveilleusement flexible)

« La façon la plus difficile de spammer est celle qui demande une authentification manuelle telle que les captchas. Ou ceux qui demandent une réponse par email avec un lien de confirmation ; ceci peut toutefois être automatisé. Ceux qui vous demandent de vous enregistrer puis de cliquer sur des liens sont également difficiles à gérer. Et lorsque le bloggeur change le nom des répertoires où les fichiers sont habituellement stockés, alors c’est un véritable casse-tête car vous devez récupérer la liste des noms de répertoire. »

Pour Sam, chaque jour apporte de nouveaux challenges. Pas seulement de la part des bloggeurs en colère, encore moins des moteurs de recherche qui arrivent avec de nouveaux algorithmes, mais bien des spammeurs de liens. « C’est comme une course de 1500 mètres. Vous êtes un peu en avance et les autres vous rattrapent, » dit Sam. Mais il reste confiant et pense pouvoir rester dans les business de l’optimisation des moteurs de recherche pendant encore un bon moment.

Pourquoi ? Parce que la demande existe. « La réalité est que les gens achètent du viagra, veulent de la pornographie et jouer aux casinos. A partir du moment où les gens en veulent alors il y a moyen de faire de l’argent ». Et même si cela peut nous sembler suspect que la fin justifie les moyens, Sam s’en moque. Il vient d’ajouter quelques milliers de nouveaux blogs à sa liste et se prépare à les spammer.
Mais il n’y a rien de personnel dans tout cela, n’est-ce pas ?

Wikipedia met en place l’attribut nofollow

Thibaut — Wed, 19 Dec 2007 22:05:32 +0000

Wikipedia utilise désormais l’attribut « nofollow » sur tous ces liens externes. La raison évoquée est de frapper un grand coup dans la lutte contre les spammeurs de liens.

Les modifications semblent déjà avoir été mises en place depuis la mi-janvier. Un tel changement ne peut qu’affecter grandement les recherches sur Internet. Wikipedia avec ces millions de pages, dont la plupart d’excellentes factures, pèse très lourd sur les résultats des moteurs de recherche. Google se base sur les liens pour mesurer la pertinence d’une page, et avec cette modification majeure, les liens externes de Wikipedia n’auront plus du tout le même impact.

A l’origine, l’attribut « nofollow » était destiné à lutter contre les spammeurs qui sévissaient sur les commentaires des blogs. Cette méthode est désormais utilisée sur les wikis : tout lien externe trouvé ne sera plus suivi par les moteurs de recherche.

En s’établissant comme un site d’autorité, Wikipedia a fait beaucoup de bien à la recherche sur Internet. Un très grand nombre de personnes ont contribué à son succès en créant un lien vers le Wiki depuis leur site, forum ou blog; cela a aboutit à la création d’un puissant réseau de liens qui a fait toute la réputation de Wikipedia. Maintenant, la relation est à sens unique : les Internautes donnent mais n’ont rien en retour, à savoir un lien depuis ce prestigieux site, ce qui contribue à enrichir la pertinence des résultats d’une recherche.

Il aurait sans doute été plus simple d’améliorer la modération de la rédaction, il y a tellement de bonnes volontés de ci, de là, prêtes à travailler et à donner du temps pour satisfaire la connaissance universelle.
Dommage pour tout le monde.