J’ai été d’humeur introspective ces derniers temps.

Au début de cette année (15 ans après la création de Distilled en 2005), nous avons créé une nouvelle société appelée SearchPilot pour nous concentrer sur notre technologie de tests A/B de référencement et de méta-CMS (précédemment connue sous le nom de Distilled ODN), et nous avons fusionné la partie conseil et conférences de l’entreprise avec Brainlabs.

Je suis maintenant PDG de SearchPilot (qui est principalement détenue par les actionnaires de Distilled), et je suis également SEO Partner chez Brainlabs, donc… je suis désolé tout le monde, mais je reste vraiment dans l’industrie du référencement.

En tant que tel, cela ressemble un peu à la fin d’un chapitre pour moi plutôt qu’à la fin du livre, mais cela m’a quand même permis de regarder en arrière sur ce qui a changé et ce qui n’a pas changé au cours des 15 dernières années que j’ai passées dans le secteur.

Je ne peux pas prétendre faire partie de la première génération d’experts en référencement, mais comme je construis des sites Web depuis 1996 environ et que j’ai assisté à la croissance de Google dès le début, j’ai l’impression d’appartenir à la deuxième génération, et j’ai peut-être quelques histoires intéressantes à partager avec ceux qui sont plus récents.

Je me suis creusé la tête pour essayer de me souvenir de ce qui m’a semblé important à l’époque, et j’ai également passé en revue les grandes tendances qui se sont dégagées au cours de ma carrière dans le secteur, afin d’établir une liste de lecture intéressante que la plupart des personnes travaillant sur le Web aujourd’hui feraient bien de connaître.

Les grandes époques de la recherche

J’ai plaisanté au début d’une présentation que j’ai donnée en 2018 en disant que les grandes ères du search ont oscillé entre des directives des moteurs de recherche et des moteurs de recherche qui ont rapidement reculé par rapport à ces directives lorsqu’ils ont vu ce que les webmasters faisaient réellement :

Même si cette diapositive était un peu ironique, je pense qu’il y a quelque chose à penser sur les ères comme :

  1. Créez des sites Web : Avez-vous un site web ? Souhaitez-vous un site web ? C’est difficile à croire aujourd’hui, mais aux premiers jours du web, il fallait persuader beaucoup de gens de mettre leur entreprise en ligne.
  2. Mots clés : La recherche d’information de base s’est transformée en recherche d’information contradictoire lorsque les webmasters ont réalisé qu’ils pouvaient jouer avec le système en bourrant de mots-clés, en cachant du texte, etc.
  3. Les liens : Lorsque l’échelle du Web a dépassé les répertoires créés par les utilisateurs, les algorithmes de recherche basés sur les liens ont commencé à dominer.
  4. Pas ces liens : Les algorithmes basés sur les liens ont commencé à céder la place à des algorithmes basés sur des liens contradictoires, les webmasters échangeant, achetant et manipulant les liens à travers le graphe web.
  5. Du contenu pour la longue traîne : Parallèlement à cette ère, la longueur de la longue traîne a commencé à être mieux comprise à la fois par les webmasters et par Google lui-même – et il était dans l’intérêt des deux parties de créer des quantités massives de contenu (souvent obscur) et de le faire indexer pour le moment où il était nécessaire.
  6. Pas ce contenu : Comme on pouvait s’y attendre (vous voyez la tendance ici ?), la qualité moyenne du contenu renvoyé dans les résultats de recherche a chuté de façon spectaculaire, et nous voyons donc les premiers facteurs de classement de l’apprentissage automatique sous la forme de tentatives d’évaluation de la « qualité » (à côté de la pertinence et de l’autorité du site Web).
  7. L’apprentissage automatique : On peut soutenir que tout ce qui s’est passé à partir de ce point a été une aventure dans l’apprentissage automatique et l’intelligence artificielle, et s’est également déroulé au cours de la carrière de la plupart des spécialistes du marketing travaillant dans le domaine du référencement aujourd’hui. Donc, même si j’adore écrire sur ce sujet, j’y reviendrai un autre jour.

Histoire du référencement : les moments cruciaux

Bien que je sois sûr qu’il y a des histoires intéressantes à raconter sur l’ère du référencement avant Google, je ne suis pas la bonne personne pour les raconter (si vous avez une bonne ressource, merci de l’indiquer dans les commentaires), alors commençons tôt dans le parcours de Google :

La technologie de base de Google

Même si vous vous lancez dans le référencement en 2020, dans un monde de facteurs de classement appris par la machine, je vous recommande de revenir en arrière et de lire les premiers travaux universitaires, étonnamment accessibles :

Si vous n’utilisiez pas le Web à l’époque, il est probablement difficile d’imaginer à quel point l’algorithme de Google basé sur le PageRank représentait une amélioration considérable par rapport à l’état de l’art de l’époque (et il est difficile de s’en souvenir, même pour ceux d’entre nous qui l’utilisaient) :

L’introduction en bourse de Google

Dans le cadre des « choses dont il est difficile de se souvenir clairement », au moment de l’introduction en bourse de Google en 2004, très peu de personnes s’attendaient à ce que Google devienne l’une des entreprises les plus rentables de tous les temps. À l’époque, les fondateurs avaient fait part de leur dédain pour la publicité et avaient expérimenté avec réticence les annonces basées sur les mots clés. En raison de cette attitude, même au sein de l’entreprise, la plupart des employés ne savaient pas quelle fusée ils étaient en train de construire.

À cette époque, je recommande la lecture de la lettre d’introduction en bourse des fondateurs (voir cet excellent article de Danny Sullivan – qui, ironiquement, est maintenant @SearchLiaison chez Google) :

« Nos résultats de recherche sont les meilleurs que nous sachions produire. Ils sont impartiaux et objectifs, et nous n’acceptons aucun paiement pour eux ou pour une inclusion ou une mise à jour plus fréquente. »

« Comme nous ne faisons pas payer les commerçants pour leur inclusion dans Froogle [aujourd’hui Google shopping], nos utilisateurs peuvent parcourir les catégories de produits ou effectuer des recherches de produits en sachant que les résultats que nous fournissons sont pertinents et impartiaux. » – Dépôt S1

En outre, In the Plex est un livre agréable publié en 2011 par Steven Levy. Il raconte l’histoire de ce que le PDG de l’époque, Eric Schmidt, appelait (à peu près au moment de l’introduction en bourse) « la stratégie de dissimulation » :

« Ceux qui connaissaient le secret […] ont reçu l’instruction assez ferme de ne rien dire à ce sujet. »

« Ce que Google cachait, c’était la façon dont il avait déchiffré le code permettant de gagner de l’argent sur Internet. »

Heureusement pour Google, pour les utilisateurs, et même pour les spécialistes du marketing de la recherche organique, il s’est avéré que cela n’était pas réellement incompatible avec leurs idéaux purs de l’époque pré-IPO car, comme le raconte Levy, « dans des tests répétés, les chercheurs étaient plus heureux avec des pages contenant des annonces que celles où elles étaient supprimées ». Ouf !

Tout indexer

En avril 2003, Google a acquis une société appelée Applied Semantics et a déclenché une série d’événements qui, selon moi, constituent la partie la plus sous-estimée de l’histoire de Google.

La technologie d’Applied Semantics a été intégrée à leur propre technologie d’annonces contextuelles pour former ce qui est devenu AdSense. Bien que les revenus d’AdSense aient toujours été éclipsés par ceux d’AdWords (aujourd’hui simplement « Google Ads »), son importance dans l’histoire du référencement est difficile à sous-estimer.

En démocratisant la monétisation du contenu sur le web et en permettant à chacun d’être payé pour produire un contenu obscur, il a financé la création de quantités absurdes de ce contenu.

La plupart de ces contenus n’auraient jamais été vus sans l’existence d’un moteur de recherche qui excellait dans sa capacité à fournir d’excellents résultats pour les recherches de longue traîne, même si ces recherches étaient incroyablement peu fréquentes ou n’avaient jamais été vues auparavant.

Ainsi, le moteur de recherche de Google (et son activité de publicité sur les recherches) a formé un puissant volant d’inertie avec son activité AdSense, permettant le financement de la création de contenu dont il avait besoin pour se différencier de l’index le plus vaste et le plus complet du Web.

Cependant, comme dans de nombreux chapitres de l’histoire, cela a également créé un monstre sous la forme d’un contenu de faible qualité, voire généré automatiquement, qui a fini par entraîner des crises de relations publiques et des efforts considérables pour y remédier.

Si vous vous intéressez à l’ère du tout-index, vous pouvez lire la suite de mes réflexions à ce sujet dans les diapositives 47+ de From the Horse’s Mouth.

Le spam sur Internet

Les premières formes de spam sur Internet étaient des messages divers, qui se sont répandus sous la forme de spam par courrier électronique. Au début des années 2000, Google a commencé à parler d’un problème qu’il a finalement appelé « spam web » (la première mention que j’ai vue du spam de liens est dans une présentation d’Amit Singhal de 2005 intitulée Challenges in running a Commercial Web Search Engine [PDF]).

Je soupçonne que même les personnes qui commencent dans le référencement aujourd’hui pourraient avoir entendu parler de Matt Cutts – le premier responsable du webspam – car il est encore souvent référencé bien qu’il ne travaille plus chez Google depuis 2014. J’ai apprécié cette présentation de 2015 qui parle de sa trajectoire de carrière chez Google.

L’ère de la qualité de la recherche

Au fil du temps, en raison de la nature opposée des webmasters qui essayaient de gagner de l’argent et de Google (et d’autres) qui essayaient de créer le meilleur moteur de recherche possible, le spam web pur n’était pas le seul problème de qualité auquel Google était confronté. Le jeu du chat et de la souris consistant à repérer les manipulations (notamment du contenu de la page, des liens externes et du texte d’ancrage) allait être une caractéristique déterminante de la prochaine décennie de recherche.

C’est après la présentation de Singhal ci-dessus qu’Eric Schmidt (alors PDG de Google) a déclaré: « Les marques sont la solution, pas le problème… Les marques sont le moyen de trier le cloaque ».

Les personnes qui sont plus récentes dans le secteur auront probablement fait l’expérience directe de certaines mises à jour de Google (telles que les récentes « mises à jour de base ») et auront probablement entendu parler de quelques mises à jour spécifiques plus anciennes. Mais « Vince », qui est venue après « Florida » (la première mise à jour majeure confirmée de Google) et a été lancée peu après les déclarations de Schmidt sur les marques, a été particulièrement remarquable pour avoir favorisé les grandes marques. Si vous n’avez pas suivi toute l’histoire, vous pouvez vous renseigner sur les principales mises à jour passées ici :

Une véritable menace pour la réputation

Comme je l’ai mentionné ci-dessus dans la section AdSense, les webmasters étaient fortement incités à créer des tonnes de contenu, ciblant ainsi la longue traîne de la recherche en plein essor. Si votre domaine était suffisamment puissant, Google explorerait et indexerait un nombre considérable de pages, et pour des requêtes suffisamment obscures, tout contenu correspondant serait potentiellement classé. Cela a déclenché la croissance rapide de ce que l’on appelle les « fermes de contenu », qui extrayaient des données sur les mots clés partout où elles pouvaient et produisaient du contenu de mauvaise qualité correspondant aux mots clés. Dans le même temps, des sites Web réussissaient en permettant à de grandes bases de données de contenu d’être indexées, même sous forme de pages très fines, ou en permettant à un grand nombre de pages de contenu généré par les utilisateurs d’être indexées.

Il s’agissait d’une véritable menace pour la réputation de Google, qui sortait de la chambre d’écho de la recherche et du référencement. C’était devenu un tel fléau pour des communautés comme Hacker News et StackOverflow, que Matt Cutts a soumis une mise à jour personnelle à la communauté Hacker News lorsque Google a lancé une mise à jour visant à corriger un symptôme spécifique, à savoir que les sites de raclage avaient régulièrement un meilleur classement que le contenu original qu’ils copiaient.

Peu de temps après, Google a lancé la mise à jour initialement nommée « farmer update« . Après son lancement, nous avons appris qu’elle avait été rendue possible grâce à la percée d’un ingénieur appelé Panda, d’où son nom de mise à jour « grand Panda » en interne chez Google, et depuis lors, la communauté des référenceurs l’appelle principalement la mise à jour Panda.

Bien que nous ayons spéculé que le fonctionnement interne de la mise à jour était l’une des premières utilisations réelles de l’apprentissage automatique au cœur de l’algorithme de recherche organique de Google, les fonctionnalités qu’elle modélisait étaient plus facilement comprises comme des facteurs de qualité centrés sur l’humain, et nous avons donc commencé à recommander à nos clients des changements ciblés sur le référencement en fonction des résultats des enquêtes sur la qualité humaine.

Tout devient mobile d’abord

J’ai fait une présentation à SearchLove London en 2014 où j’ai parlé de la croissance et de l’ampleur incroyables du mobile et du retard que nous avons pris pour réaliser à quel point Google prenait cela au sérieux. J’ai souligné la surprise que beaucoup ont ressentie en entendant que Google concevait le mobile first :

« Vers la fin de l’année dernière, nous avons lancé des améliorations de conception assez importantes pour la recherche sur les appareils mobiles et les tablettes. Aujourd’hui, nous avons transposé plusieurs de ces changements à l’expérience de bureau. » – Jon Wiley (ingénieur principal pour Google Search s’exprimant sur Google+, ce qui signifie qu’il n’y a aucun lien vers une référence parfaite pour la citation, mais elle est référencée ici ainsi que dans ma présentation).

Cette surprise est survenue malgré le fait que, au moment où j’ai donné cette présentation en 2014, nous savions que la recherche mobile avait commencé à cannibaliser la recherche de bureau (et nous avions vu la première baisse des volumes de recherche de bureau) :

Et elle est arrivée alors même que les gens commençaient à dire que la première année où Google réalisait la majorité de ses revenus sur le mobile était dans moins de deux ans :

En écrivant ces lignes en 2020, nous avons l’impression d’avoir pleinement intériorisé l’importance du mobile, mais il est intéressant de se rappeler qu’il a fallu un certain temps pour que cela se concrétise.

L’apprentissage automatique devient la norme

Depuis la mise à jour Panda, l’apprentissage automatique est de plus en plus mentionné dans les communications officielles de Google concernant les mises à jour d’algorithmes, et il est impliqué dans un nombre encore plus grand d’entre elles. Nous savons que, historiquement, il y avait une résistance de certains milieux (y compris de Singhal) à l’utilisation de l’apprentissage automatique dans l’algorithme de base en raison de la façon dont il empêchait les ingénieurs humains d’expliquer les résultats. En 2015, Sundar Pichai a pris le poste de PDG, a écarté Singhal (bien que cela ait pu être pour d ‘autres raisons) et a installé des fans d’IA / ML à des postes clés.

La boucle est bouclée

Avant la mise à jour Florida (en fait, jusqu’à ce que Google déploie une mise à jour appelée Fritz au cours de l’été 2003), les résultats de recherche étaient régulièrement mélangés dans un processus surnommé la danse de Google:

La plupart des choses ont évolué en temps réel depuis lors, mais les récentes « mises à jour de base » semblent avoir ramené ce type de dynamique où les changements se produisent selon le calendrier de Google plutôt qu’en fonction de la chronologie des modifications apportées aux sites Web. J’ai émis l’hypothèse que cela est dû au fait que les « mises à jour de base » sont en fait le recyclage par Google d’un modèle d’apprentissage profond massif qui est très adapté à la forme du Web à ce moment-là. Quelle que soit la cause, notre expérience de travail avec un large éventail de clients est cohérente avec la ligne officielle de Google :

Les mises à jour générales du noyau ont tendance à se produire tous les quelques mois. Le contenu qui a été affecté par l’une d’entre elles peut ne pas être rétabli – en supposant que des améliorations aient été apportées – avant la publication de la prochaine mise à jour du noyau large.

Lier des tendances et des découvertes récentes comme celle-ci à une histoire ancienne comme la danse de Google n’est qu’une des façons dont la connaissance de l’histoire du référencement est « utile ».

Si vous êtes intéressé par tout cela

J’espère que ce voyage dans mes souvenirs a été intéressant. Pour ceux d’entre vous qui ont également travaillé dans le secteur au cours de ces années, qu’est-ce que j’ai manqué ? Quelles sont les grandes étapes dont vous vous souvenez ? Envoyez-les dans les commentaires ci-dessous ou écrivez-moi sur Twitter.

Si vous avez aimé cette promenade dans le passé, vous aimerez peut-être aussi ma présentation From the Horse’s Mouth, dans laquelle j’essaie d’utiliser les déclarations officielles et officieuses de Google pour comprendre ce qui se passe réellement en coulisses, et de donner quelques conseils pour faire de même :


Pour nous aider à mieux vous servir, pensez à répondre à l’enquête 2020 sur les lecteurs du blog Moz, qui vous demande qui vous êtes, quels sont les défis auxquels vous êtes confrontés et ce que vous aimeriez voir de plus sur le blog Moz.