Detecter la vente de liens ?

Detecter la vente de liens ?

La vente de liens c'est un peu la grosse affaire, grosse affaire pour celui qui vend les liens, grosse affaire pour le casinotier webmaster qui en achète, mais surtout grosse affaire pour notre ami le grand Google pour qui la vente de liens est une incarnation directe et tangible du grand diable qui sommeille tapie au sein de chacun d'entre nous. Pendant longtemps le sujet n'avait jamais été abordé par qui que ce soit et le business de la vente se passait tranquillement, à la vue de qui voulait voir, mais sans publicité excessive. Mais en 2006, Google a décidé de taper sur la vente de liens, qui visiblement faussait les SERPS un peu trop (voir par exemple ce post édifiant du blog webmaster central).

Depuis, la voix officielle est "Buying or selling links to manipulate results and deceive search engines violates our guidelines." Bon, une fois que c'est dit, est ce que cela a une incidence sur le classement ? Pendant longtemps la réponse était sans doute non, à part pour ceux qui étaient vraiment trop visible (cible du lien connu comme acheteur, site porteur du lien visible sur des pages d'achat/vente connues, etc). Mais de plus en plus on voit des méthodes qui annoncent détecter les liens achetés. Aujourd'hui je vais vous parler d'un article écrit par trois personnes de chez Yandex. Yandex est le plus important moteur de recherches sur le réseau web russe, et c'est probablement aussi le seul rentable (bénéfice de l'ordre d'une dizaine de millions de dollars par an, ce qui montre la différence entre le marché russe et le marché US par exemple).

Bref, aujourd'hui je vous parle de l'article suivant :

Combining anchor text categorization and graph analysis for paid link detection.
Kirill Nikolaev, Ekaterina Zudina and Andrey Gorshkov.
WWW 2009: 1105-1106

Comment fonctionne la méthode proposée par nos amis russes ? Elle est conceptuellement assez simple et se fait en deux étapes :

  1. La première étape est de construire un corpus dit seo-sensitive, c'est à dire de repérer les pages, via leur sujet, qui sont des bons candidats à une optimisation "payante". L'idée pour cela est de constituer un corpus de base tiré de termes liés à des sites commerciaux (finance, immobilier, transport, etc.). Le corpus calculé est ensuite mappé sur un graphe qui représente les liens entre sites (attention, j'ai bien dit entre sites, pas entre pages), pour repérer pour chaque site ses deux topics les plus probables.
  2. La deuxième étape consiste à utiliser un algorithme similaire à l'algorithme HITS de Kleinberg, qui au lieu de propager un score d'autorité et un score d'intermédiarité va faire passer deux scores appelés SEO-OUT et SEO-IN. SEO-OUT c'est la probabilité qu'une page soit vendeuse de liens, tandis que SEO-IN c'est la probabilité d'être acheteur de liens. La manière dont l'algorithme de propagation fonctionne fait qu'une page qui pointe vers des pages ayant des topics très clairement différent aura un fort score SEO-OUT.

Une fois ces deux étapes effectuées, un score particulier est calculé, ce score dépend des deux étapes et "d'autres indices trouvés sur la page" (et oui chez Yandex on est cachottier aussi). Ce score sert ensuite à décider si une page contient des liens payants ou non.
L'article conclut avec des résultats numérique. Tout d'abord sur un dataset de 3550 liens, pour lequel la méthode obtient une précision de 95% et un recall de 93% (voir ici pour les définitions de la précision et du recall). Puis sur un dataset de 140000 liens, pour lequel le recall est de 96%, la précision n'étant pas donnée car pour la calculer il faut vérifier chacun des 140000 liens à la main.

Que conclure ? Qu'il est possible de détecter la majorité des liens payants de manière assez efficace...