On a besoin de vous : étude sur le webspam 2013

placeholder

On a besoin de vous : étude sur le webspam 2013

Merci à tous : Nous avons dépassé la somme nécessaire (billet à venir ici pour en savoir plus). Je laisse le don ouvert car certains me l'ont demandé, nous utiliserons le surplus pour doubler la machine de calcul.

Mes chers lecteurs, aujourd'hui je vais faire appel à votre aide, de plusieurs façons. Je vais vous demander de l'argent (mais oui, voir le bouton paypal en bas de ce billet) et aussi de prévoir de nous aider d'ici quelques mois. Allez, je me lance pour tout vous expliquer.

L'enquête Webspam 2006 : et après ?

Je vous ai parlé dans ce billet sur le webspam de l'étude scientifique de Ntoulas, Najork, Manasse et Fetterly qui a permis de déterminer les critères constitutifs du webspam sur un jeu de données issu d'un crawl de MSN search de 2006. Cette étude a aussi abouti à la création d'un classifieur : c'est-à-dire un programme qui évalue une page web fournie en entrée et qui décide si c'est du webspam ou pas. Ce type d'étude est d'un grand intérêt pour tout le monde :

  • Pour les chercheurs en algorithmique du web. En effet, une fois le jeu de donnée et les critères connus, on peut travailler sur des nouveaux algorithmes pour améliorer le domaine de la recherche d'information sur le web.
  • Pour les moteurs. Là c'est encore plus évident : ce que j'appelle un classifieur, c'est ce qu'on appelle généralement un filtre du moteur de recherche.
  • Pour les référenceurs. Avec les critères vous savez ce que vous devez faire (enfin surtout, ne pas faire) pour ne pas être filtré. Avec le classifieur vous avez un outil qui vous dit si vous avez abusé ou pas.

Ce que nous voulons faire, c'est réaliser un enquête 2013, qui va au delà du webspam et qui sera plus actuelle.

  • Au delà du spam, car la qualité d'une page web peut se noter de manière plus fine que spam/pas spam. Grosso modo on va avoir spam versus haute qualité versus faible qualité, c'est à dire 3 niveaux de qualité.
  • Plus actuelle, car beaucoup de choses ont changé depuis 2006. C'est vrai concernant la manière de penser les sites web, c'est vrai avec l'émergence de techniques nouvelles pour générer du contenu, c'est vrai avec la percée totale des réseaux sociaux.

Bref, nous voulons tout refaire, en mieux, en plus grand !

Nos objectifs

Voilà ce qu'on voudrait obtenir (et fournir à la communauté scientifique, ainsi qu'à la communauté SEO) :

  1. Un jeu de données constitué d'environ 300 000 pages en langue anglaise, toutes taguées selon leur qualité (spam, haute qualité, faible qualité)
  2. Un jeu de données constitué d'environ 150 000 pages en langue française, toutes taguées selon leur qualité (spam, haute qualité, faible qualité)
  3. Deux rapports analysant ces jeux de données pour expliciter les critères constitutifs du spam, des contenus de haute qualité et des contenus de faible qualité
  4. Deux classifieurs (un par langue) qui utilisent les critères pour décider automatiquement du niveau de qualité d'une page web fournie en entrée

Notre méthodologie

Tout d'abord, il faut savoir que je ne travaille pas tout seul sur ce coup là. Notre équipe est constitué de plusieurs chercheurs et autres spécialistes web : Jean Creusefond, Jérôme Darbon, Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet (c'est moi ;)). Quelques autres collègues spécialisés en traitement du langage naturel nous aiderons aussi, dont notre seo rockstar internationale : Laurent Bourrelly. L'équipe ainsi constituée à toutes les compétences pour faire du bon boulot sur ce sujet.

Plusieurs étapes doivent être suivies pour que les résultats soient scientifiquement corrects :

  1.  Crawl plusieurs centaines de millions de pages sur le web pour créer une immense base de données d'URLs. Le crawler, c'est une grosse machine de calcul.
  2. Tirer au hasard uniformément dans la base d'URLs pour obtenir les deux datasets (anglais et français).
  3. Faire taguer par des êtres humains toutes les pages. On parle de 450 000 pages, qui doivent toutes être taguées entre 3 et 5 fois pour garantir les bonnes propriétés du résultat. Cela fait autour de 2 millions de tags à obtenir.
  4. Analyser les datasets. Pour cela il faut lister tous les critères candidats, puis analyser toutes les pages au regard de chaque critère. ici, le coût calculatoire est énorme. Nous utiliserons des accès à des clusters pour faire ces calculs.
  5. Créer un classifieur avec les résultats obtenus. Cela demande une bonne puissance de calcul, du type de ce que fournit une grosse station de calcul.
  6. Tester le classifieur.

A priori, on espère avoir fait les 6 étapes d'ici 10 mois. On vous tiendra au courant au fur et à mesure de l'avancement du projet.

De quoi à t-on besoin et qu'est ce qu'on va donner à la communauté ?

Pour faire tout cela, il faut du matériel et de l'aide sur l'étape d'évaluation des jeux de données (là où on met les tags). Nous avons demandé de l'argent pour cela via les mécanismes de financement de la recherche. Malheureusement ce type de sujet n'est pas considéré comme prioritaire par les institutions publiques, nous faisons donc appel au peuple pour obtenir l'argent permettant de nous équipe de manière suffisante. Concernant l'aide pour les tags, je vous en reparlerai le moment venu.

Pour le matériel il nous faut (c'est le minimum vital qui est indiqué ici) :

  • Un NAS de grosse capacité pour stocker les données. Pour l'instant nous partons sur un NAS Synology DS2413+ de 12 baies. Son prix est de 1300 euros TTC environ.

 

  •  Des disques durs pour mettre dans le NAS. Il nous faut des disques durs de 3 To rapide et robuste. Par exemple des Seagate constellation. Pour en avoir 12 il faut compter 2200 euros. Dans l'idéal il en faudrait quelques uns en plus pour survivre aux pannes. Avec 12 baies de 3 To, en RAID, on aura 18 To de stockage réel.

812671-wd-3to-s-ata-iii-64mo-caviar-black-wd3001faex,bWF4LTYwMHg2MDA=

  • Il faut ensuite une machine de calcul puissante : un i7, 16 Go de RAM, deux DD de 2 To, un boitier, switch gigabit, etc. On peut estimer le tout à environ 1000 euros TTC. Pour ce prix là, c'est bien sur un montage maison et on récupère écran, clavier, etc. sur du vieux matos. Cette machine réalisera une partie du traitement du crawl (dispatch vers un crawler distribué) et le calcul du classifieur.

Au total, on parle donc de 4500 euros environ. Et c'est ça que nous vous demandons : de participer à un crowdfunding en vue de financer ce travail scientifique.

Bien sûr, si la communauté finance, la communauté à le droit à tous les livrables : on donnera les rapports avec les critères, les datasets, le classifieur et on fera quelques restitutions des résultats en conférences/évènements SEO.

Autre question : que se passe t-il si on a trop d'argent ? Si il s'agit de quelques milliers en plus, pas de soucis, on achètera du matériel supplémentaire (plus de To, plus de puissance). Si il s'agit de millions en plus, l'excédent sera transféré à l'association berbiqui, dont le but est de promouvoir l’enseignement, la recherche, la formation, l’application et la création de connaissances dans le domaine de l’informatique théorique.(Berbiqui au JO).

Comments ( 86 )

  • Comme il me tarde d’avoir les résultats de cette étude. Le papier de Ntoulas est super intéressant, mais 2006 ça fait préhistorique.
    En plus, faut que les frenchies se bougent. On a perdu le SEO French Touch et je milite à fond pour qu’on pose à nouveau notre trace.
    Allez zou je montre l’exemple. 500€ dans le musette !

  • Gilbert

    Done !
    A votre dispo pour avancer

  • Photo du profil de Sylvain Peyronnet

    Merci beaucoup Gilbert !
    Je ne manquerais pas de tenir tout le monde au courant de l’avancement, y compris quand on en arrivera au tagging des pages 😉

  • Je vais voir ce que je peux faire – mais il va falloir que ca passe par le truchement d’une petite opération que je suis pas sur que c’est possible – je te tiens au jus

  • Hello Sylvain,

    Quand tu en as parlé vendredi je ne pensais pas que ça se lancerait aussi vite… bonne nouvelle !

    Je viens de faire un don.

    Avant tout, bon courage pour l’étude et merci pour votre initiative.

    Au plaisir de se croiser sur Paris ou ailleurs.
    François-Olivier

  • Photo du profil de Sylvain Peyronnet

    @François-Olivier Oui, on a décidé de mettre tout ça en place avant les congés de l’été. Merci de ta contribution !

    @Tiger Merci de ton vote !

  • Allez zou a voté, à donné ça me fera peut être oublié le fait de n’avoir pu assister à la formation sur les moteurs
    ++
    Raph

  • Photo du profil de Sylvain Peyronnet

    @Raph : Merci ! Mais tu sais il va y en avoir d’autres des masterclass 😉

  • Raph SEO

    Certes mais vu que je déborde tout le temps j’ai décidé de t’inviter au vlc2013 au moins je serais sur d’y assister 😀

  • Pingback:L'étude 2013 sur le WebSpam a besoin de vous

  • Super projet !

    Petite contribution de mon côté également.

  • Et un petit don supplémentaire 🙂 A ce rythme là, vous pouvez commencer demain !!

  • Salut Messieurs,

    très bonne initiative qui propose un projet très enthousiasmant ! 😉

    J’ai pas compris où voté, je dois pas être bien réveillé, mais par contre j’ai effectué mon petit don.

    Bon courage en tout cas. 🙂

  • Pingback:Etude scientifique sur le Webspam en 2013 | Mar1e – Another SEO blog

  • Je suis certaine que je ne vais rien comprendre du tout, mais un projet comme ça, il faut le soutenir 😉 J’ai envoyé quelques Kouign Amann sur Paypal 😛

  • SéverineA

    A voté ! Merci pour l’initiative c’est top & bon courage !

  • Participation envoyée. Fait-moi signe s’il en manque 😉

  • Superbe initiative mais une tonne de travail en perspective !

    La contribution est faite, en espérant que vous rassembliez la somme nécessaire pour lancer tout ça !

  • Arthur Cassarin-Grand

    A donné également ! C’est pas grand chose mais je complète avec des encouragements 🙂 Bon courage à vous !

  • Thomas Cubel

    Bonjour,

    C’est un brillant projet que vous avez là et les données seront bien précieuses !
    J’ai pas donné grand chose (30€) du fait de mes faibles revenus mais vous avez tout mon soutien !
    Merci à vous !

  • je précise que j’ai donné hein quand j’ai mis « a voté », j’ai pas envie de passer pour le crevard de service 😀

  • Pingback:On a besoin de vous : étude sur le websp...

  • Voila je viens d’effectuer un don, au regard de travail effectué, je trouve même que c’est cadeau. Je suppose que le rapport sera envoyé à l’adresse que l’on a inséré dans le règlement paypal, c’est ça ?

  • Salut,
    Très bonne initiative et pour la peine :

    – A voté
    – A tweeté
    – A donné

    A Bientôt !

  • Photo du profil de Sylvain Peyronnet

    Un petit message à tous entre deux réunions pour vous dire un GRAND MERCI. Visiblement cela avance vite si j’en crois toutes les alertes paypal que je vois passer dans mes mails. Ce soir je vous ferais un récapitulatif de l’état des lieux.

    @Tiger : Oui, je confirme 😉 Mais ne t’inquiètes pas, je pense que personne ne doute de ta générosité 😉

    @MrXpooki : C’est ça, je tiendrais les gens au courant par mail, et j’enverrais toutes les infos par ce canal.

    Encore merci !

  • J’ai apporté ma pierre à l’édifice, à vous de jouer. 😉

  • Vraiment passionnant comme initiative. Plein de courage et de calculs…
    (P’tite participation avec grand plaisir…)

  • C’est fait, bon courage !

  • Baxxx

    Participation envoyée… tiens nous au courant de l’avancée, si faut rajouter, je verrai avec mon entreprise aussi si nécessaire.

  • Cela fait plaisir de voir ce type d’initiative… qu’il faut encourager en donnant 🙂

    Bon courage !

  • 50€ depuis le fin fond de l’Espagne car l’étude m’interesse au plus haut point et comme 75% de mes clients et de mes sites sont français…

    A +
    bernard

  • Je vous soutiens, si besoin de plus n’hésite pas à me relancer.

    J’ai hâte de lire les résultats de l’étude. Peux-t’on donner un coup de main pour le projet ?

    Bonne continuation,
    Pierre

  • super ce projet ! contribution envoyée
    curieux de lire les résultats

  • Très bonne idée et initiative. j espère que la communauté va soutenir ce projet et donner Un coup de pouce à notre chercheur seo français. comme beaucoup j y vais de mon petit don et d’ un retweet

  • A donné également!

    Très belle initiative les gars !

  • Contribution : DONE 😀

    Bon courage, j’ai hâte de vous lire.

  • Y a t’il une date limite pour le don ? J’ai envie de donner mais ce n’est juste pas possible ce mois ci !

    En tout cas, ça donne envie !

    J’attends aussi plus d’infos sur les pages à taguer.

  • Très beau projet, je vais donner dès demain, en attendant, c’est retweeté =)

  • A donné.

    Felications pour cet initiative très intéressante.

    Franck

  • Hello, j’ai également participé car j’ai hâte de voir les résultats. Il va falloir patienter mais cela vaut le coup.

  • Envoyé 🙂
    Bah oui vivement les résultats qu’on sache quoi faire ^^
    Merci pour vos travaux, vos cerveaux et le partage.

  • Photo du profil de Sylvain Peyronnet

    Merci à tous !

    @Etienne pas de date limite prévue, mais je signalerais quand on auras atteint la somme nécessaire 😉

  • Une petite participation de ma part suite aux retours enthousiastes de 2 SEO sur la MasterClass.
    Bonne continuation 🙂

  • J’aime les projets d’envergure et celui-ci en fait parti, je viens de faire un don également.

  • Et un petit billet de plus dans la tirelire…

  • Voilà j’ai fait un petit don ce matin pour soutenir cette initiative. (ok maintenant vous avez mon vrai prénom et mon mail)

    J’ai rajouté un lien dans mon article sur quelques sites identifiés comme webspam par google 😉 celui que j’ai mis en lien.

    A cette allure, lundi vous commencez 🙂

  • Photo du profil de Sylvain Peyronnet

    Merci Jessy, pour le don et pour le lien ! Effectivement je pense que je vais pouvoir commander le matériel a partir de lundi.

  • Je pourrai sans doute donner quelque chose d’ici à la fin du mois, mais dans l’immédiat, mon budget est un peu trop serré… En tout cas, c’est une super initiative et j’ai hâte d’avoir accès aux résultats de l’étude !

  • Et hop, ma petite contribution est faite.

    Bravo pour l’initiative en tout cas.

  • J’ai participé, j’ai hate de voir ce que ça va donner 🙂

  • Quelques deniers à hauteur de ma bourse pour l’initiative.

  • Carine

    A voté aussi.
    Petit don en fonction de mes petits moyens, mais très envie de soutenir cette belle initiative. Merci à vous !

  • Pingback:Préparation à une étude su...

  • wahooo !
    comme les dons affluent vite !
    Cela traduit l’intérêt plus qu’évident des internautes travaillant dans le web (et plus particulièrement dans le SEO) pour connaitre des clés, des éléments probants pour savoir se comporter face à Google et ses algorithmes/filtres antispam.

    Vu la rapidité de dons, cela montre la fébrilité et l’enjeu de ce sujet. Fébrilité et enjeu que je partage.

    Ben tiens, moi aussi je vais donner. Je le prendrai sur mon budget « dons » 2013 (SIDA, Téléthon, Resto du Coeur). Faut choisir ses priorités. 😉

  • Un petit don aussi pour ce projet très intéressant.
    Pour ce qui est du crawl, tu parles de crawler distribués ce sont des services que vous allez utiliser ou alors c’est un crawler fait maison ?

  • Ma petite pierre à l’édifice vient d’être apportée 😉
    Hâte de voir les résultats !

  • donnez…. donnez donnez Dieu vous le Rendra ! 🙂

  • Contribution apportée et tweet partagé !
    Merci à vous pour ce projet fort intéressant.

  • Photo du profil de Sylvain Peyronnet

    Merci à tous,

    @Laurent Effectivement, cela montre que la communauté veut apprendre des choses… pour mieux combattre le spam sans doute 😉

    @Guillaume Rien n’est encore sur, mais sur des projets plus petits on avait utilisé wire (www.cwr.cl/projects/WIRE/), si il faut on fera le notre, mais je préférerais éviter de réinventer la roue.

  • Contribution envoyée également, nous sommes réellement contents de participer au projet.

    Bon courage en tout cas à toute l’équipe !

  • Très beau projet, participation envoyée.

  • Nicolas Jouffrau

    Merci pour votre démarche, j’ai hâte de voir ce qui va en sortir !

    J’ai donné aussi et je reste disponible si jamais vous avez besoin de mon retour d’expérience sur le webspam.

    Bien cordialement,
    Nicolas

  • Pingback:Masterclass Moteurs+SEO à Bordeaux par Guillaume et Sylvain Peyronnet | Content Spining

  • C’est ok, bien qu’un peu en retard, je viens d’apporter ma pierre à l’édifice.
    Bon courage pour la suite !

  • Bravo pour cette initiative et bon courage pour la mener à terme. Merci à vous et aux contributeurs !

  • Pingback:Retour sur un crowdfunding réussi | Frères Peyronnet

  • Bravo, belle initiative ! En attendant les résutlats, on fait quoi ?

  • Une petite contribution, pour une grande idée.

  • Antoine

    Un petit don pour un petit budget d’étudiant 😉 Je tiens à soutenir tout type de recherche ayant trait au SEO, d’autant plus qu’un mémoire de fin d’étude sur le Black Hat m’attend pour l’année prochaine…

  • Charlotte

    Je me réveille (ça sera pour la machine de calcul 😉 ) et je soutiens comme je peux… Bonne chance !