Etude webspam : oui nide iouh

Etude webspam : oui nide iouh

Avec du retard, mais comme promis, revoilà la fameuse étude webspam sur laquelle nous avions fait un point il y a un an de cela (oulala, on est vraiment très en retard). A l'époque nous avions dit :

Le crawl d’URLS : C’était la première étape, elle est complétement finie : on a maintenant à disposition des millions d’URLs.

Constitution des datasets : On en est là : en train d’aspirer le contenu de plusieurs centaines de milliers de pages.

C'est ces deux étapes qui nous ont mis dans le caca comme on dit. On a du les refaire différemment, mais on s'en est sorti. ce qui fait que nous avons pu mettre en place l'étape suivante : la notation du dataset par des humains. Guillaume a développé une interface pour cela, qui est en beta test depuis un certain temps, et qui est maintenant OK pour une mise en production.

Concrètement, c'est maintenant qu'on a besoin de vous, pour noter les pages, qui sont issues du dataset en français (nous sommes en retard, nous faisons donc passer le service à la communauté française avant le reste). Pour s'inscrire, une seule adresse :  http://webspam.peyronnet.eu/demande.php

D'avance merci à ceux qui participeront, car il nous faut l'équivalent de 500000 notations environ avant de pouvoir fournir des résultats complets.

je vais maintenant vous expliquer ce qu'il faut faire en terme de notation. Basiquement, vous verrez une page web, et vous devrez répondre s'il s'agit de spam, ou de contenu légitime de faible qualité ou de contenu légitime de grande qualité. Il ne nous appartient pas de décider à votre place ce qui défini pour vous le spam, la grande ou faible qualité. Mais gardez à l'esprit que le spammeur va travailler sur des pages qui ne méritent pas d'apparaitre dans les SERPs, tandis que les pages légitimes de faible qualité peuvent apparaitre mais il est rare qu'on souhaite les voir dans les premiers résultats. Évidemment, il y aura des cas litigieux, c'est d'ailleurs pour cela que nous fournirons un dataset stratifié : les pages seront groupées par niveau d'accord entre personnes qui notent. Pour cela on utilisera le score kappa.

Voilà un screenshot de l'interface de notation : webspam-guide

En bas de l'interface il y a les boutons de notation. En priorité il faut indiquer les pages qui ne sont pas en Français, puis ensuite ne pas hésiter à répondre "je ne sais pas" si vous avez une hésitation trop forte.

Parfois, vous aurez des pages qui s'affichent mal car les CSS ne sont pas forcément bien pris en compte par notre outil. Dans ce cas vous pouvez aller voir l'URL directement pour conclure. Cependant, dans le cas de problème d'affichage trop important, passez la page avec un "je ne sais pas".

Voilà, vous savez tout, et surtout n'hésitez pas à poser vos questions ici ou par mail en cas de besoin

Merci d'avance !

Comments ( 17 )

  • Bonjour ! Petit rappel depuis que j’ai assisté à vos formations Nantes + Rouen, je m’étais inscrit mais je n’ai toujours pas reçu mes codes d’accès pour noter !

  • C’est bizarre car dans la base tu es validé. Au pire refais une inscription, ce sera le plus simple.

  • Bonjour,

    La carte réseau a tenu cette fois 🙂 Je suis candidat et je me suis inscrit.

  • J’en suis, donnez moi les accès, ça me rappellera de vieux souvenirs. 😉

  • Salut à tous. J’ai eu accès à l’outil ce matin. J’ai souvent l’impression qu’il manque une option. En règle générale, les pages sont souvent « correcte » dans le sens, moyenne, il y a un intérêt mais c’est pas non plus génial. Ce n’est jamais ni de la basse qualité, ni de la haute qualité. Ce qui rend a chaque fois le choix difficile. Un NON SPAM (qualité moyenne) aurait été vraiment judicieux.

  • Hello !

    J’ai déjà commencé à noter vu que j’ai accès depuis le 10 octobre à l’outil de notation. J’avoue qu’au début sans l’explication des différents types de notation, j’ai eu un petit laps de temps de « prise en main ». 🙂

    Par contre, c’est plus clair maintenant ce que je sais ce que vous attendez de chaque note.

    Bon allez faut que je m’y remette du coup ! 😉

  • @astucee Personnellement, quand je me dis « il y a un intérêt mais c’est pas non plus génial » je mets en basse qualité, parce que ça veut dire que dans l’idéal la page ne doit pas apparaitre haut dans les SERPs . Ceci étant, la raison pour laquelle on ne met pas « moyen » c’est parce que (ça se voit pendant les tests) tout le monde met « moyen » pour tout, par peur de mal faire. Avec notre méthode, un score moyen se verra car on aura un score kappa faible et déchiré entre « faible » et « haut ».

  • Merci pour la réponse Sylvain. Expliqué comme ça c’est plus clair. Du coup ça aurait peut-être un intérêt de l’expliquer sur la page d’accueil de l’outil. Cordialement.

  • Pingback:Etude webspam : oui nide iouh | Frères P...

  • Hello,
    Je ne reçois pas non plus les code d’accès et je pensais pourtant l’avoir déjà fait au tout début. Un bug ?

  • Pingback:Internet Communication, votre solution de visibilité web ! Analyse du spam dans le SEO, participez à l'étude

  • Bonjour,

    Je rencontre régulièrement une anomalie toutes les 15 pages environs, la zone de notation en bas de page disparait (sous chrome et firefox), pas de changement même en rafraichissant la page, il faut se reconnecter.

  • J’ai parfois des doutes dans certains cas.

    Si on tombe sur une page 404 mais le nom de la page est très spammy, du type mon-site-innocent.com/buy-viagra (ca sent l’injection).
    Il faut mettre :
    – je ne sais pas (parce que 404) ?
    – spam (l’URL met la puce à l’oreille) ?

    Si je suis sur un site en anglais mais que c’est du spam, je dois mettre :
    – pas en français (je fais primer la langue) ?
    – spam (priorité au spam) ?

    Merci de votre aide 🙂

  • @razbithume Dans le premier cas à toi de voir, si tu penses que l’URL est sans équivoque un signe alors il faut le mettre en spam. Pour le deuxième cas, la langue d’abord : on ne regarde que les pages en Français.

  • Hello,

    J’ai quelques questions complémentaires par rapport à celles posées ci-dessus, mais avant tout, je tiens à dire que c’est une galère tout ça, j’ose espérer ne jamais devoir devenir quality rater chez gg !

    – Si une page marque une 404, une information de redirection ou autre ‘bug’ type « site en maintenance », j’ai eu tendance à ouvrir l’url puis à noter selon ce que je voyais (souvent différent). Est-ce une bonne idée, si vous avez enregistré le message de la 404 et que je met « Bonne qualité », y a t -il risque de confusion ?

    – Concernant la notion de spam, doit-on prendre uniquement en compte la page telle qu’elle est visible ? Si on ouvre l’url et qu’on voit un nombre très déraisonnable de domaines ref vers le site alors que l’on pouvait imaginer de visu que le site était correct, dans la vraie vie on penserais évidemment à du spam. Que faire dans ce cas ?

    Merci.