Principe d’un moteur de recherche et taxonomie de la triche

Principe d’un moteur de recherche et taxonomie de la triche

Le pagerank, qui permet de quantifier la popularité d'une page web, est au coeur d'un moteur de recherche moderne comme Google. Quantité algorithmiquement simple à définir, le pagerank devient complexe à calculer du fait même de la taille du web. Par ailleurs, les enjeux économiques liés aux sites web font qu'une large
communauté de personnes essaye de le manipuler.

Il y a maintenant presque un an, nous avions écrit (nous = Thomas et moi-même) un chapitre sur la notion de PageRank pour le livre "Informatique Mathématique une photographie en 2014" (je précise que je ne touche rien sur les ventes). Nous avons choisi de faire un mini cycle de billets à partir de ce chapitre sur le blog. Vous pourrez donc voir les choses suivantes :

Principe d’un moteur de recherche et taxonomie de la triche (ce billet)
L'intuition derrière le PageRank
Comment amplifier le PageRank (1/3)
Comment amplifier le PageRank (2/3)
Comment amplifier le PageRank (3/3)

Et nous allons commencer par les bases les plus connues, pour fixer le contexte.

Le principe d'un moteur de recherche est très simple. La première opération qu'il réalise est de créer un index composé de pages web. Pour cela, il crawle (parcours) le web en suivant systématiquement les liens des pages qu'il rencontre. Ce crawl va fournir au moteur deux types d'information : une information sémantique via le contenu des pages, et une information structurelle via les liens entre les pages.

L'information liée au contenu va être analysée en utilisant des algorithmes issus du traitement du langage naturel et de la recherche d'information. Le moteur pourra ainsi déterminer la thématique des pages web, et mesurer la pertinence d'une page web par rapport aux requêtes qui sont saisies par ses utilisateurs. Nous n'abordons pas dans ce cycle de billets les aspects liés à cette problématique.

Ce qui nous intéresse ici est l'utilisation qu'il est possible de faire de l'information structurelle. L'idée forte, présentée par Brin et Page  en 1998 (voir l'article [1]), est qu'un lien d'une page vers une autre correspond à un vote de la source pour la cible. Ainsi, plus une page reçoit de liens plus elle est considérée comme populaire, et plus elle doit être mise en évidence dans les résultats de recherche. L'algorithme du PageRank formalise cette idée, et surtout la légitime en mettant en correspondance une quantité mathématique simple et le comportement d'un modèle comportemental de l'internaute : le surfeur aléatoire.

Dans le prochain billet, nous allons décrire en détail l'algorithme du PageRank, et sa relation au surfeur aléatoire. Nous précisons au lecteur que nous distinguons deux concepts : le PageRank, qui est l'algorithme de calcul, et le pagerank, qui la quantité mathématique calculée par l'algorithme en question.

Le schéma suivant présente le schéma global du moteur, qui fusionne l'information issue de l'analyse du contenu des pages avec celle issue de l'analyse structurelle, et obtient ainsi un résultat de recherche. En théorie, les pages les plus populaires parmi celles qui sont pertinentes sont celles qui sont proposées en premier par le moteur de recherche.

moteur

Avant de détailler ce qu'est le pagerank, nous allons donner quelques explications sur le contexte "hostile'' lié aux problématiques du positionnement au sein des résultats de recherche.

Chers lecteurs, vous êtes pour la plupart dans le SEO, je ne vais pas vous faire l'affront de vous dire que le contexte hostile, c'est vous (et moi aussi donc), et pour résumer rapidement, on va dire que pour améliorer ce positionnement, nous avons plusieurs leviers :

  • L'optimisation du code source et du contenu des pages web pour améliorer leur pertinence sur certaines requêtes bien choisies.
  • La génération de contenu de manière automatique pour créer de très nombreuses pages à moindre coût et ainsi se positionner sur une très grande quantité de requêtes.
  • La manipulation structurelle, c'est-à-dire la construction de schéma de liens permettant l'amplification du pagerank, ou l'acquisition de liens sur des sites tiers, dans le même but.

Le dernier point est celui qui nous intéresse plus particulièrement pour ce cycle de billets.  Nous renvoyons le lecteur intéressé par une taxonomie de ces techniques de manipulation à l'excellent article de Gyongyi et Garcia-Molina. Il est d'usage dans le milieu académique d'utiliser le terme de webspam pour nommer les méthodes d'amélioration du positionnement qui sont en violation des règles de bonne conduite édictées par les moteurs de recherche à l'usage des webmasters.

[1] Brin, S., & Page, L. (1998). The anatomy of a large-scale hypertextual Web search engine. Computer networks and ISDN systems, 30(1), 107-117.

[2] Gyongyi, Z., & Garcia-Molina, H. (2005). Web spam taxonomy. In First international workshop on adversarial information retrieval on the web (AIRWeb 2005).

No Comments

Comments are closed.