Le point sur l’étude webspam

Le point sur l’étude webspam

Maintenant que quelques temps sont passés, et que la rentrée est finie, il est temps pour nous de vous dire où nous en sommes de l'étude Webspam, que la communauté SEO a co-financé via le crowfunding du mois de juillet dernier. Pour ceux qui ne savent pas de quoi je parle, je vous renvoie vers l'article originel et vers celui où nous annonçons combien nous avons récolté. Sur ce dernier point les choses ont encore évolués puisque certains d'entre vous donnent encore ! Au final nous en sommes à environ 6200 euros et une machine de calcul (CM +RAM offert par un mécène, boitier + disque dur + écran + clavier fourni par moi).

Voici maintenant en détail l'état actuel des choses. N'hésitez pas à poser vos questions en commentaires.

Le matos

Nous avons dépensé pas mal d'argent. Il nous reste environ 2000 euros, pour racheter du matos de calcul et du pouvoir de calcul humain sur AMT pour la partie notation. Cela nous permet aussi de résoudre les petits problèmes tels qu'une surchauffe de carte réseau (j'en attends une nouvelle par exemple) et autres petits tracas. Pour être transparent jusqu'au bout, on a acheté : deux onduleurs, un NAS Synology, des switch, des cables, du petit matos (cartes réseaux, etc.), 15 disques durs 3 To WD RED, un ventilateur, une alim de combat.

OLYMPUS DIGITAL CAMERA OLYMPUS DIGITAL CAMERA

Avec Thomas, nous avons monté la machine de calcul. Un montage de qualitay comme vous pouvez vous en rendre compte !

IMG_9247 IMG_9251

 Après le montage on passe à l'install, les connaisseurs apprécieront le nom de la machine...

IMG_9248 IMG_9253

 Au final, une machine qui marche pas mal du tout, du moment qu'on laisse le capot ouvert (elle chauffe vraiment beaucoup) et qu'on utilise une carte réseau de bonne tenue (on a grillé le contrôleur de la carte intégrée à la CM).

Le crawl d'URLS

C'était la première étape, elle est complétement finie : on a maintenant à disposition des millions d'URLs. Combien de millions ? On ne sait pas trop car on check les doublons seulement quand c'est nécessaire, mais on en a plusieurs dizaines de Go, donc plus que nécessaire 😉 A noter qu'au final on a choisi d'utiliser Scrapy pour cette tâche. Prendre les URLs ne nécessite pas une puissance de feu extrême (à ce niveau on ne prend pas le contenu des pages) et Scrapy est plutôt bien fait, donc on est resté sur ce choix.

Constitution des datasets

On en est là : en train d'aspirer le contenu de plusieurs centaines de milliers de pages. On est parti en priorité sur le dataset en Anglais (c'est stratégique par rapport au milieu du search, qui est international) et sur 5 batchs de 100 000 pages chacun. Pour l'instant il y a une pause vu qu'on a grillé l'interface réseau de la machine qui gère les données, mais ça va repartir rapidement (enfin, quand Amazon nous aura livré). La fin prévisionnelle pour le dataset en Anglais est autour de mi-novembre, et pour le dataset en Français ce sera plutôt mi-décembre.

Notation des datasets

Guillaume a déjà décidé des structures de données adaptées, du dimensionnement du serveur qu'il va nous falloir et à commencer à coder l'interface. A priori fin novembre AU PLUS TARD, on demandera à la communauté de l'aide pour cette phase très lourde en terme de jours-hommes.

Analyse du dataset

La première phase de l'analyse nous impose de trouver des critères candidats à être des morceaux de filtres à contenu (spam, faible qualité, haute qualité). En plus des critères déjà utilisés en 2006 (taille des meta, poids des pages, etc.), nous somme en train de constituer une liste de critères prometteurs, cette liste commence avec le rapport dofollow/nofollow, mais contient aussi des critères structurels lourds (ceux qui sont venus aux masterclass savent de quoi je parle ici). Pour cette phase, nous travaillons tous ensemble, avec l'aide inestimable de certains SEOs, comme Laurent par exemple.

En résumé

Nous sommes en avance sur notre planning (en fait on prévoit d'avoir des premiers résultats - partiels - d'analyse fin janvier). Il nous reste des sous pour augmenter notre puissance de traitement. Tout est donc sous contrôle et "going well"...