Etude webspam : oui nide iouh

Etude webspam : oui nide iouh

Avec du retard, mais comme promis, revoilà la fameuse étude webspam sur laquelle nous avions fait un point il y a un an de cela (oulala, on est vraiment très en retard). A l'époque nous avions dit :

Le crawl d’URLS : C’était la première étape, elle est complétement finie : on a maintenant à disposition des millions d’URLs.

Constitution des datasets : On en est là : en train d’aspirer le contenu de plusieurs centaines de milliers de pages.

C'est ces deux étapes qui nous ont mis dans le caca comme on dit. On a du les refaire différemment, mais on s'en est sorti. ce qui fait que nous avons pu mettre en place l'étape suivante : la notation du dataset par des humains. Guillaume a développé une interface pour cela, qui est en beta test depuis un certain temps, et qui est maintenant OK pour une mise en production.

Concrètement, c'est maintenant qu'on a besoin de vous, pour noter les pages, qui sont issues du dataset en français (nous sommes en retard, nous faisons donc passer le service à la communauté française avant le reste). Pour s'inscrire, une seule adresse :  http://webspam.peyronnet.eu/demande.php

D'avance merci à ceux qui participeront, car il nous faut l'équivalent de 500000 notations environ avant de pouvoir fournir des résultats complets.

je vais maintenant vous expliquer ce qu'il faut faire en terme de notation. Basiquement, vous verrez une page web, et vous devrez répondre s'il s'agit de spam, ou de contenu légitime de faible qualité ou de contenu légitime de grande qualité. Il ne nous appartient pas de décider à votre place ce qui défini pour vous le spam, la grande ou faible qualité. Mais gardez à l'esprit que le spammeur va travailler sur des pages qui ne méritent pas d'apparaitre dans les SERPs, tandis que les pages légitimes de faible qualité peuvent apparaitre mais il est rare qu'on souhaite les voir dans les premiers résultats. Évidemment, il y aura des cas litigieux, c'est d'ailleurs pour cela que nous fournirons un dataset stratifié : les pages seront groupées par niveau d'accord entre personnes qui notent. Pour cela on utilisera le score kappa.

Voilà un screenshot de l'interface de notation : webspam-guide

En bas de l'interface il y a les boutons de notation. En priorité il faut indiquer les pages qui ne sont pas en Français, puis ensuite ne pas hésiter à répondre "je ne sais pas" si vous avez une hésitation trop forte.

Parfois, vous aurez des pages qui s'affichent mal car les CSS ne sont pas forcément bien pris en compte par notre outil. Dans ce cas vous pouvez aller voir l'URL directement pour conclure. Cependant, dans le cas de problème d'affichage trop important, passez la page avec un "je ne sais pas".

Voilà, vous savez tout, et surtout n'hésitez pas à poser vos questions ici ou par mail en cas de besoin

Merci d'avance !