Babbar, on vous explique tout – partie 1

Babbar, on vous explique tout – partie 1

Depuis maintenant plusieurs mois, nous travaillons dans le plus grand secret sur un mystérieux projet, codename Babbar. Babbar ? Mais quel nom bizarre me direz-vous, et bien il s'explique très "simplement", Babbar c'est le nom sumérien d'un dieu mésopotamien, Shamash. C'est le dieu auquel on ne peut pas mentir, car il voit la vérité dans le mensonge...
Bref, Babbar est devenu le nom de notre projet, et ce projet c'est la réalisation d'un outil fiable d'analyse de toutes les données de netlinking. Oui, la vérité dans le mensonge, on a trouvé ça assez adapté ^^

Si on parle un peu de la genèse de Babbar, c'est assez simple : nous nous sommes rendus compte au fur et à mesure de notre pratique du SEO que les outils qui fournissent de l'information sur le netlinking et les backlinks souffrent de deux écueils principaux : leurs données "brutes" ne sont pas toujours fiables (principalement à cause de problème de crawl), et les métriques fournies sont soient opaques, soient fausses, et parfois tout simplement il n'existe pas la métrique qu'il faut pour un use case SEO standard. L'exemple typique : les informations de thématiques et l'équivalent du pagerank thématique.

Bref, nous nous sommes mis en cheville avec une équipe de dev/infra comme on n'en voit quasiment jamais nul part, on a amené nos petites compétences et notre connaissance du SEO, et on a créée Babbar, qui va bientôt passer en version alpha sous peu (on parle de moins d'un mois avant la alpha pour quelques partenaires).

Dans un second billet je mettrais des données issues de Babbar pour montrer ce que cela donne, mais aujourd'hui je vais juste vous lister quelques unes des métriques fournies. Comme tout le monde, nous fournissons des vues URL, HOST et DOMAIN. Je vous laisse deviner dans la liste qui suit ce qui est une métrique URL, domaine ou host.

  • Value et Trust, que ce soit pour URL, host ou domaine, nous calculons la (page, host, domain) Value et le Trust. La value c'est le pagerank, avec un modèle un peu raisonnable, et le Trust c'est l'algo de trustrank.
  • Langue de la page, x-robot tag, code HTTP
  • Le nombre d'URLs d'un host qui pointent vers des sites tiers
  • Le nombre de host qui font des backlinks
  • Le nombre de backlinks
  • Le nombre d'URLs connues pour un host ou domaine
  • Le nombre d'URLs qui font des liens vers l'extérieur
  • La répartition des codes HTTP
  • Les top pages (AKA pagerank interne)
  • Les pages internes
  • Les backlinks (by hosts)
  • Les backlinks (by URL)
  • La longueur du contenu
  • Le nombre de backlinks internes
  • Les catégories thématiques déterminées par un classifieur, pas par une propagation
  • La force induite entre pages, avec une version entre pages de la même langue, et une version entre pages de langues différentes. Il s'agit d'un analogue au pagerank thématique avec trust incorporé.
  • Une flopée d'autres infos (le title, le type de lien, etc.), j'en ai surement oublié dans les points précédents.

Tout ça c'est bien entendu pour vous mettre un peu l'eau à la bouche. La question naturelle c'est aussi celle de la taille de l'index et de la vitesse de rafraichissement. Sur la deuxième question on peut rafraichir des dizaines voire centaines de millions d'URLs par jour, sans doute plus si c'était nécessaire (ce qui est loin d'être clair). Sur la première question on est pour la version alpha sur quelques milliards d'URLs, en beta on passera à quelques dizaines de milliards (sans doute entre 50 et 100), après on verra bien 😉

Voilà pour les toutes premières infos, ah si une autre, un jour cela deviendra un produit commercial. Le prix n'est pas défini, mais sachez déjà que cela sera sous forme d'abonnement, mais avec une différence par rapport à d'autres : les abonnements seront de prix croissant selon le nombre et type de métriques disponibles, mais le volume sera a priori toujours illimité. Pourquoi ? parce que les profils utilisateurs diffèrent : si vous êtes un vendeur de liens vous avez besoin des Page ou Host Value et Trust (PV, PT, HV et HT) et de la force induite, si vous êtes SEO in-house ou consultant il vous faut sans doute les top pages pour le pagerank interne, si vous faites de l'audit la liste des BL, etc. etc. Pourquoi payer pour ce que vous n'utiliserez jamais ?

Dans les prochains jours je rentrerais dans le concret avec des exemples sur des sites ayant pignon sur rue, stay tuned !