Precision et recall ?

Precision et recall ?

Aujourd'hui je vais expliciter deux notions que vous pouvez retrouver dans pas mal d'articles que je cite ou que je tente de vulgariser. Il s'agit des notions de precision et recall (précision et rappel en français). Il s'agit de deux mesures de la qualité d'un mécanisme de classification de données. C'est pour cela que dans le domaine de la lutte contre le spam on retrouve beaucoup ces deux quantités.

En effet, lorsque l'on met au point un nouveau mécanisme de détection de spam sur le web, on va vouloir déterminer son efficacité. Il s'agit donc de vérifier si le mécanisme classe bien comme spam le maximum de pages qui le sont réellement, et comme non spam le minimum de pages de spam. Faux positif, faux négatif sont les mots qui vous viennent à l'esprit ? bravo, vous êtes sur la bonne voie pour comprendre ce qui suit.

Soyons donc un peu plus formel.
La précision d'une méthode de classification correspond à sa réussite (en pourcentage, car c'est un nombre entre 0 et 1), tandis que le recall est son efficacité. Ce n'est pas clair ? regardons les formules suivantes (dans le cas d'une méthode de détection de pages web qui sont du spam) :

precision = frac{mbox{nombre de spams classes spam}}{mbox{nombre de pages classees spam}}

 

recall = frac{mbox{nombre de spams classes spam}}{mbox{nombre de spams}}

Normalement les choses sont plus claires avec ces formules. On remarque qu'une précision de 1 signifie bien une réussite de 100% : toutes les pages classées spam en sont effectivement, en revanche cela ne signifie pas que toutes les pages de spams ont été trouvées. En revanche un recall de 1 signifie que tous les spams ont été détectés, mais pas qu'aucune page légitime n'a été classée spam.

Et voilà, retenez bien cette info, elle servira dans les prochains billets.