Crawler araignée24/04/2012, la fin du monde pour les SEO ?
Il parait…
Google a donné un grand coup de pied dans la fourmilière et c’est la pagaille.
J’en ai profité pour aller faire une petite balade dehors, vous savez, IRL, et vais donc vous parler tout naturellement d’araignées, de papillons (et bien sur d’un peu de SEO).


Le web est bati sur les liens. L’interconnexion des pages, du contenu, est au coeur de l’internet que nous utilisons tous. Les moteurs de recherche eux aussi, ont placé les liens au coeur de leur problématique. Il suffit pour s’en convaincre de regarder les brevets déposés par les géant de la recherche.
Quoi qu’on en dise aujourd’hui, les liens restent des éléments clés en terme de SEO.

En bons observateurs, les informaticiens ont copié la nature et créé des « crawlers », des robots informatiques qui suivent les liens comme les araignées qui se baladent sur leur toile (web en anglais).
Ca, vous le saviez déjà. Et les services qui donnent les backlinks des sites fonctionnent de la même manière,
tout comme les crawlers perso que quelques uns se font sous une forme ou une autre.

Le hic, c’est que ce modèle d’analyse est peut être bien adapté aux moteurs de recherche, mais pas forcément à nous, les SEO…
Le moteur cherche à avoir l’index le plus complet possible. Il lache ses crawlers sur les sites qu’il connait ou qu’il découvre, les laisse suivre les liens pendant un certain temps, puis les rappelle à la maison.
C’est une des raisons pour laquelle la vitesse d’un site peut jouer indirectement sur le SEO: plus votre site est rapide, et plus le crawler va parcourir votre site pendant son quota de temps.

Crawler seoCe crawl des pages n’est que la première étape pour un moteur.
S’ensuivent tout un tas de classification, calculs et notations pour trier une somme d’information assez énormes, englobant des aspects on site comme off site.
Une fois ressorti sur les pages de résultats, les SERPS, les données n’ont plus grand chose à voir avec le crawl pur. Google a segmenté, isolé, filtré, trituré… et rejette ce qu’il veut bien.
Il peut se le permettre, il a une puissance de calcul incomparable.

Le SEO peut-il jouer dans la même cour ? Non.
Construire un crawler, c’est bien beau, mais ce n’est pas forcément le plus efficace.
Ce n’est qu’un élément, il manque tout une chaine de traitement derrière.
D’ailleurs, le SEO ne veut pas indexer tout le web: il veut plutot des infos synthétiques, des analyses de sites spécifiques, dans le contexte d’une requète donnée. Des pages sur lesquelles il peut ou veut laisser ou échanger des liens, du contenu, et non toutes les pages qui existent…

En ce qui me concerne, j’apprécie tout particulièrement les algorithmes et les outils logiciels basés sur des comportement de base simples. La nature, avec les insectes notamment en donne de bons exemples.
De nombreux petits éléments qui font une tache simple, à l’échelle micro, donnent à l’échelle macro l’impression d’un comportement global complexe.
On peut faire pareil en termes de développement logiciel, notamment en méthodologie objet.
En gros, dans le cas qui nous interesse, on peut avoir deux approches :
1/ Tout crawler en masse, tout stocker, tout triturer avec des formules compliquées, et regarder ce qui en sort
2/ Donner plus de latitude aux crawlers, un tout petit peu d’intelligence, et les laisser s’organiser.

Les crawlers ne crawlent plus. Pourquoi les limiter à ramper sur les fils, en aveugle, sans avoir de vue d’ensemble…
Que font les abeilles (dédicace @wecho_com), les papillons ?
Au lieu de ramper bêtement, ils savent ce qu’ils cherchent… et une fois qu’on a pris un peu de recul, qu’on a pas le nez sur la toile mais qu’on voit les choses d’en haut, c’est-y pas plus facile de repérer les jolies fleufleurs de toutes les couleurs ?

papillon et spot seoSi on sait ce qu’on cherche (et on en censé le savoir, sinon on a du mal à trouver, non ?), qu’on donne des yeux voire des ailes à nos bestiaux, on peut trouver nettement plus facilement, et plus efficacement ce qu’on veut.
– Si je suis sur une fleur, il y a des chances que je trouve d’autres fleurs à coté… ou mieux c’est une fleur composée et je me gave
– Je suis parti en chasse des fleurs rouges à pois bleu, et juste à coté, je découvre une fleur rose et verte que je ne connaissais pas. Tiens, je vais demander plus haut ou à un copain si c’est comestible… je note !
– hop, ici c’est desert, je connais ce type de machin, ça se mange pas, y’a rien qui pousse ici, je zappe
– Tiens, voilà des traces de roues par ici, je vais demander à un pote de les relever pour voir d’où elles viennent et où elles vont, ça a l’air habité par là…

Je vous laisse réfléchir un peu, extrapoler et trouver les analogies, sinon c’est moins drôle.

Plutot que de centraliser tout le traitement de l’information, on le déporte tant qu’on peut.
Plutot que de filtrer des résultats triturés, on donne des filtres simples aux ouvriers.
On suit les pistes , les chemins qu’on connait plutot que de tout suivre aveuglément.

Crawler empêtréLe web est grand. Très grand. Et il n’a pas fini de grossir.
Il est illusoire de vouloir tout parcourir en vrac. On se retrouve coincé au milieu d’information non pertinente, non qualifiée, inutile, on ne voit pas les fleurs qui s’épanouissent au dessus de nos têtes.

Une douzaine de papillons fera une bien meilleure récolte que 100 araignées lachées sur le web.
La bande passante pour un crawler ? la taille des données à stocker ?
C’est peut être un faux problème…

Le rapport enfin avec la pagaille SEO actuelle ?
Prenez du recul, ne vous reposez pas sur les données brutes des outils d’analyse de backlinks.
Certains sont plus complets que d’autres, et vont donner des répartitions d’ancres, des dofollow/nofollow, d’origine géographique des liens…
AUCUN ne va vous sortir LE critère imparable qui tue, LE truc à faire pour sortir de la pénalité ou passer devant le voisin.
Tous simplement parce que
– aucun index n’est aussi complet que celui de Google
– aucun outil ne donne autant d’indicateurs que ceux que google utilise
– aucun outil ne connait la pondération utilisée par google
– aucun outil ne filtre ses résultats selon le contexte de la requète comme le fait google

En prenant du recul, en essayant d’avoir une vision d’ensemble (en testant quelques filtres),
peut-être est-il possible de trouver d’autres pistes (je n’ose dire explications) que les remarques basiques que l’on peut lire ici et là « pas assez de nofollow » , « trop d’ancres optimisées », « pas assez de liens ceci ou celà ».
Bullshit. La vérité est ailleurs: pour chaque exemple on trouve des contre-exemples.

nid à spamGoogle est tout sauf simplet. Ce qui ne veut pas dire qu’il est tout puissant.
Voici un exemple de détection imparable d’un réseau de liens, ou d’un blast :
http://www.thegooglecache.com/white-hat-seo/detecting-undetectable-link-networks/
Si on se base sur une analyse « brute », on ne voit rien.
Par contre, avec juste un petit filtre, une détection de footprint, associée à un parcours des liens (dans les deux sens), on met en évidence très simplement un réseau de sites, tous de la même plateforme, qui lient vers un nombre limité d’autres sites.
Boum, réseau grillé, cibles identifiées, footprint pour les suivants…
Google a les outils statistiques pour identifier les nids à spam, pour en extraire des footprint de plateforme, pour faire en dormant ce type d’analyse.
Et dans certains cas, ce type de linking semble bien avoir pénalisé des sites dernièrement…
C’est là le principe même du blast de M. tout le monde qui est en cause: une plateforme, des liens, des cibles.

Capri, c’est fini !
Peut être est-il temps de passer à d’autres méthodes de construction de liens que le volume pur ?

Crédit Photo: Sylvain Deauré.
Les photos de cet article ne sont pas libres de droit.
Utilisation possible sur votre site sous condition – contactez-moi.

21 commentaires sur “Araignées, Papillons et… SEO ?

  1. Sylvain,

    J’aime tes doux billets, qui allient nature et référencement naturel.

    Je suis entièrement d’accord sur le fait que chaque footprint est unique donc il est préférable de construire un netlinking pertient plutôt que d’essayer de comprendre (pomper) celui des concurrents 😉

  2. Merci Svetlana.

    Jolies photos de spa dans les arbres, ça donne envie.
    En ce qui concerne le footprint, je ne suis pas sur que ce soit ce que je voulais dire, mais on peut y réfléchir…

  3. Je suis d’accord on parle de plus en plus de recherche sémantique, donc la recherche devrait s’affiner de plus en plus nous en sommes encore qu’au début. Mais un site parlant de patate envoyant sur un lien parlant de chaussure. Par contre Un site de patate envoyant sur un site de tracteur ne sera surement pas déconnant donc voir comment cette liaison sera pris en compte par les moteurs…
    Très bon Article en tout cas.

  4. Bonjour Sylvain,

    Je pense que les travaux « référencement » vont s’orienter de plus en plus vers les réseaux sociaux et la construction de notoriété. Le SEO ne pourra plus s’exonérer d’un travail de fond et de qualité.

    amicalement

  5. Merci.
    Oui, le LSI semble jouer un role (parmi bien d’autres facteurs).
    Pour l’appréhender, il faut aussi avoir des billes sur ce que google considère comme terme apparenté (ou pas) selon la thématique et la requête.
    La logique de Google ne correspond pas toujours au bon sens paysan mais plutot à une bouillie dérivée d’analyse statistique 😉

  6. Lionel,

    C’est sans doute une composante qui va prendre de l’importance, sans pour autant occulter un « bon » (mettez ce que vous voulez dedans) linking.
    Si Google va dans le sens d’une chasse aux spammeurs bourrins en masse, ça me va bien, je ne pleure pas là dessus.
    Par contre je ne suis pas convaincu que ce soit le cas aujourd’hui.
    La dernière mise à jour de Google semble avoir son lot de dommages collatéraux, fait ressortir des sites peu pertinents ou anciens en page 1, et des linkings « crade » passent encore.
    Mais bon; c’est le jeu, c’est l’index de Google et il fait bien ce qu’il veut avec…

  7. Bonjour Sylvain,
    Bon mon commentaire n’apportera sûrement pas d’eau au moulin mais je tenais à te tirer mon chapeau pour les images.
    Si c’est toi qui a construit les petits insectes avec les composants, encore plus… franchement, bravo. Il n’avait pas mieux pour illustrer

  8. Bien sur, le netlinking restera d’actualité notamment pour les SEO qui effectueront les actions nécessaires avec un minimum de réflexion.

    On ressent bien chez Google, une volonté de se libérer d’une « backlink dépendance » en introduisant d’autres leviers (réseaux sociaux, notoriété, création de valeur, participation…)

    amicalement

  9. Merci David,

    Oui, j’ai ressorti le fer à souder et des composants de quand j’étais « jeune » (enfin, plus jeune quoi) et je me suis amusé avec un de mes fils à bidouiller ça.
    On a fait un stégosaure en condensateurs aussi 😀
    Faut encore que je trouve l’idée de l’article qui va avec…

  10. Le problème, quand tu dis « Bullshit » à propos des facteurs proposés de-ci et de-là expliquant (au moins en partie) le déclassement actuel de pages dans les Serps, c’est qu’àmha, seule une infinitésimale partie des webmasters/référenceurs/seo dispose de la globalité des informations qui lui permettra de savoir *exactement* pourquoi il y a eu chute dans les positions…

    My two cents 😉

  11. On est bien d’accord, Yann !

    D’où le « n’importe quoi » quand on impute à un facteur unique et souvent simpliste, quel qu’il soit, les raisons d’une chute (ou plus exactement, de diverses chutes comme ici)

  12. Peut-être, mais ne penses-tu cher Sylvain qu’il est toujours intéressant de relever ces multiples « n’importe quoi » ?

    C’est à dire qu’au fil des blogs on finit par constituer une liste de critères pénalisants qu’on peut comparer avec ses propres analyses.

    Cela permet de ne pas passer à côté d’un paramètre important qui ne s’appliquait pas à son propre écosystème/étude 😉

  13. Toujours d’accord 😀

    Le bullshit s’adresse à celui qui pointe un paramètre isolé en disant « c’est lui le seul coupable », non pas au paramètre lui même en tant que composante potentielle d’un schéma nettement plus complexe.

  14. On est d’accord sur la conclusion – GG a les outils statistiques pour detecter les footprints et peur nous griller quand il veut (et si il veut) – maintenant je ne comprends personellement pas tout le bruit fait autour de cette mise a jour – qui encore une fois ne touche pas les sites « cleans » – en tout cas pas les miens

  15. Ah, il y a autant de définitions d’un site « clean » que de seo je crois 🙂
    Et si « clean » fait appel à des éléments off site, c’est « facilement » sabotable, non ?

  16. Très agréable à lire cet article. Araignée, papillon, panda, pingouin.

    Ceci étant, ce serait bien la seule raison pour laquelle j’accepterais qu’une araignée crawl le long de ma jambe !;)

    @Svetlana : Superbes cabanes ! Je vous contacterais bien un jour… pour un partenariat 🙂

  17. […] Vous le savez tous Google a sorti un pingouin de son chapeau, l’animal est arrivé après une vague de pénalités qui a touché un grand nombre de sites de publication de communiqués de presse… Beaucoup on fait le lien entre les deux, pour ma part je ne ferai pas d’article sur le sujet puisqu’il a déjà été traité par bon nombre de référenceurs (notamment ici, là ou là). […]

  18. Si nous construisons netlinking naturel et ne jamais utiliser un quelconque logiciel automatisé de renforcement des liens alors il n’y a aucun risque d’être pénalisé par Google.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *


Ce blog est désormais dofollow, mais je sabre allègrement les liens et commentaires sans substance.