Construire des liens grace à YouTube

Une petite astuce pour avoir des liens grâce à YouTube. Lorsque vous incorporez une vidéo sur votre site, visualisez les vidéos voisines qui apparaissent quand la vidéo se termine: YouTube fera alors un lien vers votre site en y indiquant le nombre de clics reçus.

Les liens sont en nofollow, on s’en doutait mais il ne faut pas oublier que certains moteurs de recherche, tels que Yahoo s’en moquent éperdument.

Regardez, par exemple ce que cela a donné pour ma vidéo de Hummer sur Google.

L’affaire Eric DUPIN

Vous avez sans doute remarqué ma petite bannière de soutien (merci Cédric) à Eric Dupin, attaqué en justice pour un méchant fil RSS parlant de la vie privée d’un acteur connu.

Si l’on ne peut prévoir qui va sortir gagnant de ce procès, la justice étant très en retard en terme d’Internet, d’ores et déjà, je peux vous dire que “l’acteur connu” va perdre la bataille de l’Internet. Pourquoi ? Parce que dès que l’on saura son nom, et bien le buzz va se déclencher, les passions vont se déchainer, les pings, s’enchainer, les trackbacks s’entremêler sur le nom de cet acteur, le tout couplé à de jolis sobriquets, des noms d’oiseaux inévitables en provenance des trolls et puis aussi des mots moins reluquants, tel que ridicule, pour ne parler que de lui.

Vous voulez des antécédents, j’en ai:

- L’affaire de Petite Anglaise, virée pour avoir parler de sa société sur son blog. Elle a gagné son procès, et le nom de son ex-employeur, la société Dixon Wilson, est désormais irrémédiablement lié à cette affaire.
- L’affaire Guillaume Tena (Guillermito) attaqué par la société Tegam pour contrefacon. En fait, Guillermito avait mis en évidence certaines faiblesses dans leur antivirus. Que dit Google de cette société aujourd’hui disparue ?

Bref, il est fort à parier que désormais Google nous sortira systématiquement quelque chose de pas très sympa lorsque l’on fera des recherches sur le nom de l’acteur. Je suis même persuadé que certains se feront une joie d’aller vite mettre à jour l’inévitable page Wikipedia affublée de sa quasi inévitable première position avec tout plein de détails sur cette affaire. Si j’avais été acteur, j’aurai quand même évité ce genre de mauvaise publicité. Après tout, je suis bien payé parce que l’on m’aime.

Je terminerai en disant que contrairement à certains, je ne crois pas du tout à une opération de com, montée de toute pièce: le risque est trop grand d’un point de vue image pour un acteur et puis clairement, il y a quand même d’autres façons de communiquer que les tribunaux.

Je vous envoie du trafic de M

Alors ça y est, vous l’avez votre site ? Vous avez grassement payé l’agence web du coin, à coup de milliers d’euros et après des mois et des mois d’efforts, il est enfin en place. Cool, ça. Enfin, vous auriez pu le faire développer en Inde pour quelques centaines d’euros, et en une semaine, il était prêt. Enfin, c’est vous qui voyez. Bon, alors ce site, il est tout beau, flambant neuf, mais il lui manque quelque chose de vital: du trafic. Alors, vous vous renseignez à droite à gauche, vous l’inscrivez sur plein d’annuaires, vous vous payez une campagne au clic, et vous êtes même tentés par un chti coup de spam; mais au dernier moment, vous vous rappelez votre enfance judéo-chrétienne, maman et le lycée Notre Dame des Oiseaux et vous revenez à la raison.

Nous sommes maintenant un an plus tard: votre boite mail déborde de spams en provenance d’obscures annuaires, et votre trafic stagne à 75 visites par jour; mais après avoir examiné d’un peu plus près les stats, vous vous êtes rendu compte que vous êtes principalement la source de ce trafic, juste derrière le Google bot . Côté argent, vous êtes arrivé à générer une vente, en fait un gars qui croyait acheter un DVD de ucques alors que votre site est plutôt spécialisé dans les formations tricots en ligne et, bonne nouvelle, vous êtes à 12 dollars d’Adsense; courage, on va y arriver ! Malheureusement, cela commence à vous couter cher toute cette histoire: le dev, la maintenance, l’hébergement, et le nom de domaine en .info que vous payez 50 euros par an.

Découragé, vous avez envie de tout laisser tomber; mais au dernier moment, vous avez une idée de génie: vendre votre site. Au moins, vous n’aurez pas tout perdu dans l’histoire. Vous vous rendez donc sur un marché, et un type nommé dave_xor_1976 vous envoie un PM (private message) demandant les stats de votre site, ce que vous vous empressez de faire. La gars vous rigole au nez: le site n’a franchement pas assez de trafic. Vous êtes au bord de la dépression quand vous rencontrez sur un blog un type cool qui vous montre une tactique géniale.

Puisque le site n’a pas assez de trafic, et bien on va en fabriquer. Heu, là, je pige pas, fabriquer du trafic. Oui, m’sieur, mais du trafic de M, pas celui qui vous paye en cliquant sur vos pubs. Le but, c’est d’abord de gonfler artificiellement les stats pour ensuite récupérer du trafic légitime. Mais c’est bien légal ça ? On risque pas d’avoir des soucis avec l’URSSAF ? Je fais comment pour le déclarer ? Toi, tu voterais pas Sarko, par hasard ?

Allez, allez, dis-nous comment on fait, moi aussi, je veux conquire le monde avec mon site de tricots en ligne.

Ok, le coeur de cette infecte machination est la commande Wget, une bête petite commande en ligne qui vous permet d’aller chercher une URL. Cette commande est livrée en standard sous Nunux, mais elle existe aussi sous Fenêtre2000/XP/ViceTA.

Je vais tout simplement aller chercher des dizaines, des centaines des milliers de fois mon site cible avec ma commande Wget que j’aurai mis dans un bête script. Je peux même me payer le luxe de bricoler le référent, l’adresse de la page qui a conduit le client à la page courante, afin de faire croire à ma victime quiconque que son trafic vient d’une autre source.

La voilà, la voilà, la commande:

wget –referer=http://www. pagasa. net -O /dev/null -t 3 -T 20 -v -a log -U “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1 )” www.site-de-tricot.com

J’explique:

  • –referer me dit que www.pagasa.net est le site référent
  • -O envoie toutes les sorties à la poubelle (/dev/null ou nul sous Windows)
  • -t 3 dit de faire trois tentatives lors d’un échec de la commande
  • -T 20 est le timeout exprimé en secondes
  • -v affiche un maximum d’informations (verbose)
  • -a log enregistre toutes les informations dans le fichier log
  • -U et le reste camoufle le bot en bête navigateur Windows. (Certains sites comme Google n’aime pas trop Wget qui trahit trop facilement sa présence)
  • www.site-de-tricot.com est ma cible

Bon, c’est bien joli, tout ça, j’ai crée une commande qui va chercher la page d’accueil de www.site-de-tricot.com en me faisant passer pour un lien de Pagasa. Il faut maintenant que le trafic vienne de plusieurs endroits à la fois. J’ai pour cela mes très grands amis les proxy, à ma disposition. Je récupère donc une adresse de proxy (qui marche ;-) et je positionne la variable qui indique à Wget qu’il doit utiliser un proxy:

export http_proxy=”http://192.168.0.1:3128″

Avec 192.168.0.1 comme adresse de proxy et 3128 son port. Je lui ajoute un petit délai via la commande sleep, c’est mieux pour ne pas se retrouver à cours de sockets et finalement lui colle mon wget du dessus. Voici toute la commande:

export http_proxy=”http://192.168.0.1:3128″ ; sleep 5; wget –referer=http://www. pagasa. net -O /dev/null -t 3 -T 20 -v -a log -U “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1 )” www.site-de-tricot.com

Je répète l’opération pour chacun des proxy que j’aurai trouvé. Si j’ai 1000 adresses, alors j’utilise l’outil le plus utilisé par les blackhaters: le génial Excel. Une fois que j’ai crée mes 1000 commandes, je les met toutes dans un script, par exemple trafic.sh que je rend exécutable: chmod 755 trafic.sh

Puis je le lance en tâche de fond et à intervalles réguliers, disons toutes les 30 secondes et ce 10 fois de suite:

./trafic.sh &

Ici, j’aurais donc généré 10 visites de 1000 visiteurs uniques. En réalité, ce sera moins car certains proxy planteront à coup sûr, mais dans l’ensemble, je suis certain de créer des milliers de visites en un temps assez court. Par contre, allez vous coucher car votre bande passante risque d’en prendre un coup :-O

Alors la finalité de tout cela, c’est quoi ? Et bien, je vous énumère toutes les possibilités:

  • Comme je l’ai déjà dit, aider notre pauvre malheureux et son site de tricot à gonfler ses stats pour qu’il puisse le vendre plus facilement sur un marché. Mais c’est de l’escroquerie pure ? Absolument, donc mef ! Quand vous achetez un site, ne vous fiez pas à n’importe qui.
  • Faire une farce à un de vos collègues en lui prévoyant pour jeudi une explosion de son trafic sur son site de rencontre pour chats.
  • Impressionner la petite mignonne des RH qui débute avec son blog en vous faisant passer pour un expert SEO qui va l’aider à avoir du trafic.
  • Faire des tests de montées en charge pour tuner votre serveur Apache.
  • Etre premier sur un top site. Le top site établit un classement des meilleurs sites en fonction des entrées et des sorties. En générant une entrée toutes les minutes, vous allez rapidement vous retrouvez en tête du classement et ainsi générer du véritable trafic.
  • Créer du trafic depuis Youtube. Il semble que beaucoup de personnes l’ignore mais les vidéos les plus regardées sur Youtube sont de véritables usines à trafic. Pourquoi, et bien vous n’avez qu’à visualiser cette petite vidéo que j’ai faite à Sydney pour vous en rendre compte. C’est tout simple: elles comportent une URL en intro et/ou en conclusion. Croyez-moi, si votre vidéo a été vue 90000 fois, vous avez beaucoup de chances d’avoir énormément de retombées dans votre trafic direct.
  • Etre en tête du meilleur référent. Certains sites (dont souvent ceux de ucques) récompensent leur partenaire qui leur envoie du trafic en leur renvoyant un backlink gratuit. Notez que bien souvent il s’agit de Google. Un petit exemple sur cette page.

Voilà, j’espère que vous avez compris. Le trafic de M a son utilité et s’il est bien utilisé, discrètement et régulièrement, il peut facilement vous générer du véritable trafic, source de profit. Mais chut, je ne vous ai rien dit et surtout n’oubliez pas : c’est mal !

Un charmant petit village autrichien

Un charmant petit village au nom évocateur, situé près de la ville de Tarsdorf, en Autriche. Le panneau à l’entrée du village est une particularité unique au monde, puisqu’il s’agit du panneau le plus volé d’Autriche.

Je traduis: Pas trop vite, s’il-vous-plait !

Espèrons que Monopoly Autriche ne nous fera pas un remake de notre fameux village de Montcuq !

Les belles voitures de l’Auto Rencard à Sathonay-Village

Quelques photos de voitures prises lors du dernier Auto Rencard de Sathonay-Village, au nord de Lyon.

Les Buicks y étaient particulièrement bien représentées.

Buick
Buick
moteur de ferrari

Pagasa est de retour

Pagasa est de retour. Après quelques mois d’absence, je reviens avec un site entièrement revu à base de l’excellentissime Wordpress.

Ces derniers temps, j’ai beaucoup réfléchi au devenir de ce site. A l’origine, j’avais acheté Pagasa uniquement pour avoir mes propres adresses emails. C’était en 2003. A la longue, j’ai fini par en faire un site sur Sendmail et sur ma grande passion du moment: Counter-Strike. C’est d’ailleurs à cause de ce glorieux passé que Pagasa est blacklisté par certaines listes qui le voient comme un site de jeu; dommage pour certains, ils loupent des informations les concernant :-)

Il y a de cela deux ans, j’ai tout transformé à la sauce blog, c’était dans l’ère du temps et étant moi même écrivain, l’idée m’intéressait. J’ai commencé à y installer quelques scripts que j’avais développé, et puis aussi quelques articles parfois un peu particulier. Je me suis bien amusé, mais ce qui était, à l’origine, qu’un développement PHP a fini par ne plus du tout être adapté. En fait, plus le temps passait et plus j’avais des choses à dire. Malheureusement pour moi, comme tout se faisait à la mano, cela devenait de plus en plus difficile de suivre une cadence régulière de publication.

Je m’explique: comme Pagasa n’était pas un logiciel de blog, type Wordpress ou autre, alors pour chaque article que j’écrivais, j’utilisais vi, et codais ensuite l’article dans cette machine infernale qu’était Pagasa: il fallait que je crée le plan, les url, les meta, etc.
Le cauchemar a été encore plus intense quand j’ai commencé à y intégrer la gestion des commentaires. Il me fallait pratiquement plus d’une demi-heure pour mettre en place un article. Dommage car j’avais souvent envie d’écrire mais cette partie me rebutait à chaque fois.

J’ai commencé à travailler sur une hypothèse de script qui faisait tout en automatique, grâce à Perl et des templates, mais je me suis vite rendu compte que j’allais dans une mauvaise direction. D’autant plus que parallèlement, ma femme commençait à toucher à Wordpress et elle blogguait à une cadence infernale, ce qui, bien entendu, m’a rendu jaloux.

En octobre, il y a eu le concours Racheumeuneu qui m’a apporté pas mal de trafic, et aussi chose que je ne connaissais pas trop, de l’interactivité avec la blogo francophone. Jusqu’à lors, je ne fréquentais pas trop, étant plus orienté sur la blogo US et leur gigantesques moyens. Mais bon, comme Pagasa est francophone (Ah bon), je me suis dit qu’il fallait peut-être faire quelque chose de ce coté là. C’était d’autant plus vrai que je me suis rendu compte que Pagasa n’était pas bien incorporé à cette blogo francaise.

D’abord, je dois dire que la gestion des commentaires était beaucoup trop rudimentaire, et celle des pingback inexistante, ce qui est somme toute dommage, surtout pour un blog, enfin pour un programme qui tente d’être un blog.

Pour pallier à ce manque, j’avais commencé à développer un petit machin en XML, mais je me suis vite rendu compte, lors du décorticage des sources de Wordpress, que comme d’habitude, j’étais en train de réinventer l’eau chaude. J’ai donc pris la décision de tout migrer sur Wordpress.

Cela n’a franchement pas été simple. Pourquoi ? Parce que je ne sais pas travailler simplement, il faut toujours que je complique tout; de toutes les manières, si ce n’est pas compliqué, moi, je n’y comprend rien. Demandez à tous mes techs, ils vous le diront :-)

Il y a eu plusieurs difficultés: tout d’abord, j’ai dû changer pratiquement toutes les URL, car évidement Wordpress a sa propre façon de coder les siennes. J’en ai toutefois gardé quelques unes, trop stratégiques, en terme de trafic. Les autres, j’ai fait une bête redirection.

Oui, je sais, je garde toujours mon côté SEO, mais comme disait un australien avec qui je faisais du business, “I don’t like to break the Internet”.

Et puis, pour continuer avec le SEO, j’ai dû faire pas mal d’aménagements. L’avantage que j’avais avec l’ancienne monture de Pagasa, c’est que comme je codais tout, je pouvais faire un maximum d’optimisation. Avec Wordpress, c’est assez différent; j’ai toutefois été agréablement surpris: je suis arrivé à 90% de mes objectifs grâce aux nombreux plugins existant. Il faudra encore que je patch un peu le code Wordpress; ça, c’est plutôt une mauvaise nouvelle car je vais devoir tout refaire à chaque mise à jour critique. Oui, même sous Nunux, il y a des Linux Update à faire :-]

Autre grosse difficulté: intégrer tous mes scripts dans Wordpress. Ce n’était pas forcément une partie de plaisir, mais finalement grâce à Perl, j’y suis arrivé après des heures et des heures de codage. Je ne sais pas ce que je ferai sans ce fabuleux langage, mais bon sang que cela a été long :-|

Importer les commentaires a aussi été très fastidieux :-[

Voili, voilà, c’est prêt maintenant après plusieurs semaines d’efforts.

Je dois dire que j’ai été agréablement surpris d’avoir quelques partisans réclamant mon retour et disant qu’ils apprécient l’humour noir de mon blog; j’en suis très touché et vous promet pas mal de bonnes choses; maintenant que je n’ai plus à devoir passer au travers du firewall de la boite pour écrire des articles via ssh/vi/bash et toute la clique, je devrais pouvoir plus facilement écrire sur des choses aussi passionnantes que le contenu de mon panier ménager au hard-discount du coin, ou comment générer sur son site web plus de 2000 visites à l’heure.

Surveiller un serveur SMTP

Le script ci-dessous permet une surveillance complète de votre serveur SMTP. Si vous avez des doutes sur la fiabilité de votre serveur, si vous trouvez, par exemple, qu’il réagit lentement, ou si vous constatez une baisse de performance, vous pouvez placer celui-ci sous surveillance pendant un temps limité.

Périodiquement le script vérifie l’intégrité d’un serveur SMTP en se connectant au port 25 et effectue une vérification de base. Des statistiques sur les temps de réponses sont également enregistrées afin de détecter d’éventuel timeouts, signe précurseur d’une anomalie ou d’une surcharge sur le serveur.

Les résultats sont affichés sur une page web dont l’URL vous sera transmise par email. Attention, ce dernier est parfois interprété comme du spam. Vérifiez donc bien votre dossier de courriers non-sollicités.

Le script se contente de surveiller le serveur SMTP et n’envoie aucun message non sollicité.
Par défaut, la surveillance dure une heure.

Aucune information n’est utilisée ou vendue à un tiers: elles sont détruites au fur et à mesure.

Adresse du serveur:

Adresse email:

Exemple de configuration de Sendmail

Dans cet exemple, nous nous contentons d’une configuration simple, dans laquelle le serveur SMTP reçoit des messages d’Internet et du réseau local (192.168.1.0/24).
Tous les utilisateurs sont autorisés à envoyer du courrier sur Internet, et le serveur ne gère qu’un seul domaine, mail.dom.com.
Cette architecture correspond à celle d’une petite entreprise recevant quelques dizaines de messages électroniques par jour.
La figure ci-dessous illustre la configuration de la messagerie.

 

Les adresses électroniques utilisées dans cette organisation correspondent aux comptes des utilisateurs de la machine UNIX mail.dom.com. Ces adresses sont les suivantes :
postmaster@mail.dom.com
jc.charles@mail.dom.com
a.pierre@mail.dom.com

Au vue de l’organisation du système de messagerie, on suppose que la machine dispose d’un serveur POP pour les clients du réseau local 192.168.1.0/24.
Pour une telle configuration, nous avons besoin des fichiers suivants dans /etc/mail :
· sendmail.mc
· sendmail.st, créé grâce à # touch sendmail.st
· aliases
· access
· local-host-names ou sendmail.cw

Le fichier sendmail.mc sert à construire le fichier de configuration de Sendmail. Il comporte les éléments suivants :
divert(-1)
dnl
dnl Configuration élémentaire SMTP
dnl
dnl
divert(0)
include(`/usr/share/sendmail-cf/m4/cf.m4′)dnl
VERSIONID(`Sendmail pour mail.dom.com’)dnl
OSTYPE(`linux’)dnl
define(`confMAX_MESSAGE_SIZE’, `5000000′)dnl
define(`STATUS_FILE’, `/etc/mail/sendmail.st’)dnl
define(`confDOMAIN_NAME’, `mail.dom.com’)dnl
define(`ALIAS_FILE’, `/etc/mail/aliases’)dnl
FEATURE(use_cw_file)dnl
FEATURE(`access_db’,`hash -o /etc/mail/access’)dnl
FEATURE(always_add_domain)dnl
FEATURE(local_procmail)dnl
MAILER(smtp)dnl

Note : A partir de la version 8.12, vous devez utiliser la syntaxe suivante pour le dispositif access :
FEATURE(`access_db’,`hash -T -o /etc/mail/access.db’)dnl

A partir du fichier sendmail.mc, vous construisez la configuration de Sendmail comme suit :
# cd /etc/mail
# m4 sendmail.mc >sendmail.cf

L’ordre des instructions M4 a son importance. Terminez toujours par l’instruction MAILER. Le divert(-1) ignore toutes les lignes qui le suivent, tandis que le divert(0) rétablit le flux standard des sorties. L’instruction include inclut les macros utilisatrices M4 nécessaires au fonctionnement élémentaire de Sendmail.VERSIONID définit un texte d’identification, et OSTYPE précise Linux comme système d’exploitation du serveur. La valeur confMAX_MESSAGE_SIZE est mise à 5 millions. Elle définit la taille maximale des messages transitant sur le relais. Cette valeur est exprimée en octets. Il s’agit de la taille globale des messages, en-têtes et enveloppes MIME incluses. N’espérez donc pas transporter une pièce jointe d’une taille de 5 Mo, et coontentez-vous d’un peu plus de 4 Mo pour la capacité maximale d’une pièce jointe.STATUS_FILE précise l’emplacement du fichier des statistiques de courrier. Ce fichier est utilisable via la commande mailstats. La variable confDOMAIN_NAME définit le nom du serveur. Elle n’est normalement utilisée que lorsque la machine ne sait pas résoudre son propre nom d’hôte. Nous ne l’indiquons que par précaution.

ALIAS_FILE indique l’emplacement du fichier des aliases. Comme vous trouverez souvent ce fichier dans /etc/, il est préférable de le mettre dans /etc/mail de façon à tout regrouper dans le même répertoire. L’instruction use_cw_file précise qu’il faut utiliser le fichier local-host-names pour référencer les nom de domaines locaux.

Le dispositif access_db incorpore les autorisations de relayage à la configuration de Sendmail. Cette base comprend les machines et réseaux autorisés à utiliser le serveur SMTP. Il est donc nécessaire de construire une base de données access.db à partir d.un fichier texte access. Des explications détaillées à ce sujet sont fournies plus loin dans ce chapitre. L’instruction always_add_domain ajoute le nom du domaine à une adresse, même si celle-ci est livrée localement. Cela se révèle particulièrement pratique pour le courrier généré directement depuis le serveur. FEATURE(local_procmail) demande l’utilisation de procmail comme agent de livraison local, qui est normalement la configuration par défaut.

MAILER(smtp) indique que vous utilisez le gestionnaire de courrier SMTP. Cette commande doit être la dernière du fichier mc car elle contient des instructions qui remplacent le contenu de certaines des commandes précédentes.

Le fichier aliases sert à faire la correspondance entre les adresses électroniques et le compte UNIX. Il contient les éléments suivants :
postmaster: root
MAILER-DAEMON: root
postmaster@mail.dom.com: root
jc.charles@mail.dom.com: charles
a.pierre@mail.dom.com: pierre
tous: root,charles,pierre

La base aliases.db est construite grâce à /usr/sbin/sendmail -bi -v ou la commande newaliases. A partir du moment où un utilisateur dispose d’un compte sur la machine, il dispose d’une adresse électronique de la forme login@fqdn. Par exemple, root@mail.dom.com.

Il est intéressant de créer des aliases, ou synonymes, pour des raisons de clarté ou de simplicité. Les messages système sont toujours redirigés vers le compte superutilisateur root. L’utilisateur charles dispose de deux adresses e-mail, charles@mail.dom.com, correspondant à sa boîte aux lettres physique, et son synonyme jc.charles@mail.dom.com, plus précis. L’utilisateur pierre obéit au même schéma.

Finalement, l’alias tous pointe vers tous les comptes utilisateur du serveur. Cela simplifie grandement l’envoi groupé. Un message envoyé à tous@mail.dom.com est reçu par l’ensemble des utilisateurs du serveur.

Le fichier local-host-names définit le domaine de messagerie local, ici mail.dom.com. L’entrée ci-dessous est insérée dans le fichier local-host-names :
mail.dom.com

Les messages à destination de ce domaine sont délivrés localement via l’agent de livraison procmail. Pour utiliser ce fichier, il faut disposer de l’instruction FEATURE(use_cw_file) dans le fichier mc.
Si vous souhaitez gérer la totalité du domaine dom.com, il vous suffit d’ajouter l’entrée suivante dans local-host-names :
dom.com

Lorsque vous modifiez ce fichier, vous devez faire relire à Sendmail sa configuration :

# kill -HUP `head -1 /var/run/sendmail.pid`

Les anciennes versions de Sendmail utilisent à la place de local-host-names le nom de fichier suivant : sendmail.cw

Pour des raisons de compatibilité, il est parfois utile de conserver ce nom. Il suffit pour cela d’insérer l’instruction suivante dans le fichier mc :
define(`confCW_FILE’,`/etc/mail/sendmail.cw’)dnl

N’oubliez pas de reconstruire le fichier sendmail.cf après modification du fichier mc ni de faire relire à Sendmail sa configuration.

Le fichier access contient la liste des machines et réseaux autorisés à utiliser le serveur SMTP comme relais. Les entrées ci-dessous sont insérées dans ce fichier :
127.0.0.1 RELAY
192.168.1 RELAY
localhost RELAY
localhost.localdomain RELAY

Ce fichier permet de construire la base à accès calculé access.db :
# makemap -v hash access.db <access

Dans le fichier access, vous trouvez la machine locale sous ses trois formes : l’adresse IP, le nom d’hôte et le FQDN (Fully Qualified Domain Name). La plupart du temps, il est recommandé d’autoriser la machine locale à utiliser le serveur SMTP.

Calculer la popularité d’un site web

Cet outil vous permet de connaitre la popularité d’un site web sur les principaux moteurs de recherche.

http://

Scraper

Notre petit périple au pays du Blackhat nous a conduit à voir comment créer un lien avec un site populaire au moyen d’une injection d’URL. Je vous ai également parlé de ces spammeurs de liens qui gagnent beaucoup d’argent grâce à des techniques de programmation sophistiquées. Et finalement, je vous ai fait une petite démonstration sur l’art de spammer subtilement Google. A ce jour, je n’ai d’ailleurs toujours pas été blacklisté chez eux sur le mot clé que je visais: spammeur. Comme c’est étrange, on nous aurait menti ou alors je travaille peut être chez Google ?

Après ces petites histoires qui nous ont tous bien amusé, je m’attaque à un autre sujet qui se situe toujours dans la mouvance Blackhat: le scraping. Pour cela, je me ferai aider par un assistant dont on entend beaucoup parler en ce moment:
Sébastien Chabal, le fameux joueur de rugby qui fait le désespoir des coiffeurs.

Le scraper est celui (la personne ou le programme) qui fait le scraping. Je vais expliquer en quoi cela consiste un peu plus tard.
Dans mes autres articles, je me suis focalisé sur la manière de populariser mes sites. Néanmoins, lorsque je crée 1000 sites, si je n’ai pas trop de problèmes à les faire connaître, j’ai tout de même un souci de taille: où vais-je donc trouver tout le contenu ?
Car pour être rentable, je dois créer des dizaines, voir même des centaines de pages par site. En clair, il me faut des millions de pages à faire digérer par Google.

Je pourrai engager un indien qui m’écrirait des dizaines d’articles pour quelques dollars, mais cela demande du temps: chercher, poster, négocier, payer, uploader, etc. Bref, cela finirait par me coûter un peu cher et mon ROI ne serait certainement pas atteint.

Finalement, comme je m’y connais un peu en programmation, j’ai décidé de faire travailler un peu ma machine, c’est tellement plus simple et surtout moins fatiguant.
En cherchant un peu, je me suis rendu compte de deux choses.

Tout d’abord, tous les jours, des milliers de personnes blogguent des petites bafouilles sur leur vie, leur petites misères et leur passion. Dans ce gigantesque amas d’écrits de plus ou moins bonne facture, je dispose d’un énorme vivier de contenu extrêmement dynamique que je vais récupérer pour mon propre intérêt.

Ensuite, tous les moteurs de recherche ont leur rubrique d’actualités qui contient également une montagne d’écrits qui m’intéressent (On dira plutôt qui intéresse notre ami Google). Maintenant, on pourrait se demander pourquoi ne pas prendre tout simplement des résultats conventionnels de requêtes que l’on mettra en forme.
Non, car les blogs et les actualités évoluent plus rapidement que les bêtes SERPS et risque de beaucoup plus intéresser Google, toujours avide de nouvelles informations et prêt à surgir à chaque mise à jour de mon site.

Donc, pour résumer, moi le scraper, je vais aller piquer du contenu chez les bloggeurs et dans les rubriques d’actualité. Je vais ensuite tout remettre en forme et ajouter des Adsense ou des liens d’affiliation dans les pages ainsi générées. C’est cela le scraping: voler les informations des autres pour construire son propre site.

En guise de démonstration, je vous ai concocté rapidement une petite page scrapée sur notre chevelu national: l’inénarrable Sébastien Chabal.

J’ai commencé par mettre une petite photo sympa, histoire d’amadouer mes “victimes”. Ce sera d’ailleurs la seule partie statique, tout le reste étant généré à la volée. Ensuite, on trouve un bloc texte, plus ou moins incompréhensible dans lequel on retrouve Sébastien. Ces machins là viennent de mon scraping sur les blogs. Je n’ai pas trop retravaillé le texte, d’où les caractères cabalistiques et puis les quelques textes étrangers qui se sont immiscés, mais peu importe ce qui compte, c’est de donner à manger à Google. La page se termine sur des nouvelles scrapées sur Yahoo.

Voilà, pas mal, non ? En fait, c’est nul à crever, mais c’est juste une démonstration pour que toi, mon troll préféré, comprennent comment s’y prend le scraper; mais sache qu’il n’y a que quelques lignes de codes vite programmées entre deux bières.

Il y a beaucoup de façon d’améliorer la bête. Tout d’abord, je peux récupérer une base de données contenant des expressions toute faites, dotées d’une sémantique irréprochable. Ensuite, j’y insère mon mot clé, vous savez le joueur de rugby qui casse des mâchoires. Eventuellement, je fais quelques retouches en utilisant des synonymes. Je fais une extraction sur une dizaine d’expressions. Le sens n’aura certainement ni queue ni tête (hum, vous pouvez être parfois très surpris du résultat), mais Google n’y verra rien du tout. Après, je peux insérer une petite vidéo toujours récupérée sur Google, histoire de cosmétiser la page.

Et finalement, j’insère sur la page quelques liens comme suit:
sebastien-chabal-rugby-02.php, sebastien-chabal-coupe-monde-03.php, chabal-sebastien-joueur-04.php qui à chaque fois vont être une page différente dont le contenu sera scrapé comme pour la première page. La seule différence notable est que pour l’index, je scrape seulement sur le mot clé primaire, ici “chabal”, et que plus je m’enfonce dans le site, et plus je serai précis: je cherche à me positionner sur “sebastien chabal”, puis sur “sebastien chabal rugby”, etc. Au total si la niche est suffisamment riche, alors je peux espérer créer facilement des milliers de pages à la volée.

Pour terminer, on va encore me soulever la question de l’éthique, de la morale, des droits d’auteurs, du contenu dupliqué, etc.

Sur le fond, il n’y a franchement rien de moral, c’est clair: on fait de l’argent grâce au travail des autres. Je ne m’étendrai pas sur le sujet, le scraper a ses principes, ses objectifs et les moyens qu’il met en oeuvre pour y arriver. La technologie permet certes d’engranger rapidement des bénéfices conséquents, mais à long terme, je doute de la viabilité de ce qui ne sera jamais construit sur un business model cohérent.

Maintenant, comme le disait assez justement Sam: il n’y a rien de personnel dans tout cela.