Ultimamente tenho andado numa fase de introspecção.

No início deste ano (15 anos após a fundação da Distilled em 2005), criámos uma nova empresa chamada PesquisarPiloto para nos concentrarmos na nossa tecnologia de testes A/B de SEO e meta-CMS (anteriormente conhecida como Distilled ODN), e fundimos a vertente de consultoria e conferências da empresa com a Brainlabs.

Actualmente, sou CEO da SearchPilot (que é maioritariamente detida pelos accionistas da Distilled) e sou também SEO Partner na Brainlabs, por isso... Peço desculpa a todos, mas vou mesmo ficar na indústria de SEO.

Como tal, parece-me um pouco mais o fim de um capítulo do que o fim do livro, mas ainda assim permitiu-me fazer uma retrospectiva do que mudou e do que não mudou nos últimos 15 anos em que estive no sector.

Não posso afirmar que pertenço à primeira geração de especialistas em SEO, mas como construo sítios Web desde 1996 e vi o crescimento do Google desde o início, sinto-me como um membro da segunda geração e posso ter algumas histórias interessantes para partilhar com os mais recentes.

Estive a dar voltas à cabeça para tentar lembrar-me do que me pareceu importante na altura e também estive a rever as principais tendências que surgiram ao longo da minha carreira na indústria, para elaborar uma lista de leitura interessante que a maioria das pessoas que trabalham na Web hoje em dia fariam bem em conhecer.

As grandes eras da investigação

Brinquei no início de uma apresentação que fiz em 2018 dizendo que as grandes eras da pesquisa têm oscilado entre as directrizes dos motores de busca e os motores de busca que rapidamente se afastam dessas directrizes quando vêem o que os webmasters estão realmente a fazer:

Apesar de este diapositivo ser um pouco irónico, penso que há algo em que pensar quando se trata de épocas como :

  1. Criar sítios Web: Tem um sítio Web? Quer ter um sítio Web? É difícil de acreditar hoje em dia, mas nos primórdios da webMuitas pessoas tiveram de ser persuadidas a colocar as suas empresas em linha.
  2. Palavras-chave: A recuperação de informação básica transformou-se em recuperação de informação adversarial quando os webmasters se aperceberam de que podiam manipular o sistema através do enchimento de palavras-chave, da ocultação de texto, etc.
  3. Ligações: À medida que a escala da Web crescia para além dos directórios gerados pelos utilizadores, os algoritmos de pesquisa baseados em ligações começaram a dominar.
  4. Não essas ligações: Os algoritmos baseados em ligações começaram a dar lugar a algoritmos adversários baseados em ligações, com os webmasters a negociar, comprar e manipular ligações no grafo da Web.
  5. Conteúdo para a cauda longa: Paralelamente a esta era, o comprimento da cauda longa começou a ser melhor compreendido tanto pelos webmasters como pelo próprio Google - e era do interesse de ambas as partes criar grandes quantidades de conteúdo (muitas vezes obscuro) e tê-lo indexado para quando fosse necessário.
  6. Este conteúdo não: Não surpreendentemente (está a ver a tendência aqui?), a qualidade média do conteúdo apresentado nos resultados de pesquisa caiu drasticamente e, por isso, vemos os primeiros factores de classificação da aprendizagem automática sob a forma de tentativas de avaliar a "qualidade" (juntamente com a relevância e a autoridade do Web site).
  7. Aprendizagem automática: sem dúvida que tudo o que aconteceu a partir deste ponto foi uma aventura na aprendizagem automática e na inteligência artificial, e também aconteceu nas carreiras da maioria dos profissionais de marketing que trabalham actualmente em SEO. Por isso, por muito que goste de escrever sobre este tema, voltarei a ele noutro dia.

História da SEO: os momentos cruciais

Embora tenha a certeza de que há histórias interessantes para contar sobre a era pré-Google da SEO, não sou a pessoa certa para as contar (se tiver um bom recurso, partilhe-o nos comentários), por isso vamos começar no início da viagem para a Google:

A tecnologia de base da Google

Mesmo que esteja a trabalhar em SEO em 2020, num mundo de factores de classificação aprendidos por máquinas, recomendo que volte atrás e leia o trabalho académico inicial surpreendentemente acessível:

Se não estava a utilizar a Web na altura, é provavelmente difícil imaginar a melhoria que o algoritmo baseado no PageRank da Google representava em relação ao estado da arte na altura (e é difícil de lembrar, mesmo para aqueles que estavam):

A IPO da Google

No contexto das "coisas que são difíceis de recordar com clareza", na altura da OPI da Google em 2004, muito poucas pessoas esperavam que a Google se tornasse numa das empresas mais lucrativas de sempre. Na altura, os fundadores manifestaram o seu desdém pela publicidade e experimentaram, com relutância, anúncios baseados em palavras-chave. Devido a esta atitude, mesmo dentro da empresa, a maioria dos funcionários não sabia que foguetão estavam a construir.

Nessa altura, recomendo a leitura da carta de abertura de capital dos fundadores (ver este excelente artigo de Danny Sullivan - que, ironicamente, é agora @SearchLiaison no Google):

"Os resultados da nossa investigação são os melhores que sabemos produzir. São imparciais e objectivos, e não aceitamos qualquer pagamento por eles ou por uma inclusão ou actualização mais frequente."

"Como não cobramos aos comerciantes pela inclusão no Froogle [agora Google Shopping], os nossos utilizadores podem navegar por categorias de produtos ou pesquisar produtos sabendo que os resultados que fornecemos são relevantes e imparciais." - Depósito S1

Para além disso, No Plex é um livro agradável publicado em 2011 por Steven Levy. Conta a história daquilo a que o então director executivo Eric Schmidt chamou (na altura da OPI) "a estratégia de encobrimento":

"Aqueles que conheciam o segredo [...] foram instruídos com toda a firmeza para não dizerem nada sobre ele.

"O que a Google estava a esconder era que tinha decifrado o código para ganhar dinheiro na Internet."

Felizmente para a Google, para os utilizadores e até para os profissionais de marketing de pesquisa orgânica, verificou-se que isto não era realmente incompatível com os seus ideais puros pré-IPO porque, como conta Levy, "em testes repetidos, os pesquisadores ficaram mais satisfeitos com as páginas que continham anúncios do que com aquelas em que estes foram removidos". Ufa!

Indexar tudo

Em Abril de 2003, a Google adquiriu uma empresa chamada Applied Semantics e desencadeou um série de eventos que, na minha opinião, é a parte mais subestimada da história do Google.

A tecnologia da Applied Semantics foi integrada com a sua própria tecnologia de anúncios contextuais para formar o que se tornou o AdSense. Embora as receitas do AdSense tenham sido sempre ultrapassadas pelo AdWords (actualmente simplesmente "Google Ads"), é difícil subestimar a sua importância na história da SEO.

Ao democratizar a monetização dos conteúdos na Web e ao permitir que qualquer pessoa seja paga para produzir conteúdos obscuros, financiou a criação de quantidades absurdas desses conteúdos.

Muito deste conteúdo nunca teria sido visto sem a existência de um motor de busca que se destacasse pela sua capacidade de fornecer excelentes resultados para pesquisas de cauda longa, mesmo que essas pesquisas fossem incrivelmente infrequentes ou nunca tivessem sido vistas antes.

Assim, o motor de pesquisa da Google (e o seu negócio de publicidade de pesquisa) formou um poderoso volante com o seu negócio AdSense, permitindo o financiamento da criação de conteúdos de que necessitava para se diferenciar do maior e mais completo índice da Web.

No entanto, tal como em muitos capítulos da história, também criou um monstro sob a forma de conteúdos de baixa qualidade, mesmo gerados automaticamente, que acabaram por conduzir a crises de relações públicas e a esforços consideráveis para as remediar.

Se estiver interessado na era do all-index, pode ler mais sobre o assunto no slides 47+ de Da boca do cavalo.

Spam na Internet

O formas iniciais de spam na Internet eram várias mensagens, que se propagavam como spam de correio electrónico. No início da década de 2000, o Google começou a falar de um problema a que acabou por chamar "web spam" (a primeira menção que vi ao spam de ligações foi numa apresentação de 2005 de Amit Singhal intitulada Desafios na gestão de um motor de pesquisa comercial na Web [PDF]).

Suspeito que mesmo as pessoas que estão a começar a trabalhar em SEO hoje em dia já devem ter ouvido falar de Matt Cutts - o chefe original do webspam - uma vez que ele ainda é frequentemente referido, apesar de já não trabalhar no Google desde 2014. Gostei deste apresentação de 2015 que fala sobre o seu percurso profissional na Google.

A era da qualidade da investigação

Com o tempo, devido à natureza oposta dos webmasters que tentam ganhar dinheiro e do Google (e outros) que tentam criar o melhor motor de pesquisa possível, o puro spam da Web não era o único problema de qualidade com que o Google se deparava. O jogo do gato e do rato de detectar a manipulação (especialmente do conteúdo da página, das hiperligações externas e do texto de ancoragem) viria a ser uma característica definidora da próxima década de pesquisa.

Foi depois da apresentação de Singhal acima referida que Eric Schmidt (na altura Director Executivo da Google) disseAs marcas são a solução, não o problema... As marcas são a forma de resolver o problema da fossa.

As pessoas que são mais recentes na indústria terão provavelmente experimentado algumas das actualizações da Google em primeira mão (como as recentes "actualizações principais") e terão provavelmente ouvido falar de algumas actualizações mais antigas específicas. Mas a "Vince", que veio depois da "Florida" (a primeira grande actualização confirmada da Google) e foi lançada pouco depois das declarações de Schmidt sobre as marcas, foi particularmente notável por favorecer as grandes marcas. Se não tem acompanhado toda a história, pode ler sobre as principais actualizações anteriores aqui:

Uma verdadeira ameaça à reputação

Como mencionei acima na secção AdSense, os webmasters tinham um forte incentivo para criar toneladas de conteúdo, visando a cauda longa da pesquisa em expansão. Se o seu domínio fosse suficientemente poderoso, o Google rastrearia e indexaria um grande número de páginas e, para consultas suficientemente obscuras, qualquer conteúdo correspondente seria potencialmente classificado. Isto desencadeou o rápido crescimento das chamadas "quintas de conteúdos", que extraíam dados de palavras-chave sempre que podiam e produziam conteúdos de baixa qualidade correspondentes às palavras-chave. Ao mesmo tempo, os sítios Web estavam a ser bem sucedidos ao permitirem a indexação de grandes bases de dados de conteúdos, mesmo sob a forma de páginas muito finas, ou ao permitirem a indexação de um grande número de páginas de conteúdos gerados pelos utilizadores.

Tratava-se de uma verdadeira ameaça para a reputação da Google, uma vez que estava a sair de a câmara de eco da investigação e da referenciação. Tornou-se um flagelo tão grande para comunidades como o Hacker News e o StackOverflow, que Matt Cutts apresentou uma actualização pessoal à comunidade Hacker News quando o Google lançou uma actualização para corrigir um sintoma específico, nomeadamente o facto de os sites de scraping terem uma classificação consistentemente mais elevada do que o conteúdo original que copiavam.

Pouco tempo depois, o Google lançou a actualização inicialmente designada "A nova actualização do agricultor" . Após o seu lançamento, ficámos a saber que foi possível graças à descoberta de um engenheiro chamado PandaÉ por isso que é conhecida internamente no Google como a actualização "grande Panda" e, desde então, a comunidade de SEO tem-na chamado principalmente de actualização Panda.

Embora especulássemos que o funcionamento interno da actualização era uma das primeiras utilizações reais da aprendizagem automática no centro do algoritmo de pesquisa orgânica do Google, as características que modelava eram mais facilmente compreendidas como factores de qualidade centrados no ser humano e, por isso, começámos a recomendar aos nossos clientes alterações de SEO direccionadas com base nos resultados de inquéritos de qualidade humana.

Tudo se torna móvel primeiro

Eu fiz um apresentação no SearchLove Londres em 2014 onde falei sobre o incrível crescimento e escala dos telemóveis e sobre o facto de termos percebido tardiamente que a Google estava a levar isto a sério. Salientei a surpresa que muitos sentiram quando souberam que a Google estava a conceber primeiro para os telemóveis:

"No final do ano passado, lançámos algumas melhorias de design bastante significativas para a pesquisa em dispositivos móveis e tablets. Hoje, transpusemos muitas dessas alterações para a experiência no ambiente de trabalho." - Jon Wiley (engenheiro sénior da Pesquisa Google) falando no Google+, o que significa que não existe um link para uma referência perfeita para a citação, mas ela é referenciada aqui bem como na minha apresentação).

Esta surpresa surgiu apesar do facto de, na altura em que fiz esta apresentação em 2014, sabermos que a pesquisa móvel tinha começado a canibalizar a pesquisa no computador (e tínhamos assistido ao primeiro declínio nos volumes de pesquisa no computador) :

E isto aconteceu numa altura em que as pessoas começavam a dizer que faltavam menos de dois anos para o primeiro ano em que a Google teria obtido a maior parte das suas receitas em telemóveis:

No momento em que escrevemos este texto, em 2020, sentimos que interiorizámos plenamente a importância dos telemóveis, mas é interessante recordar que foi preciso algum tempo para que isso se tornasse uma realidade.

A aprendizagem automática torna-se a norma

Desde a actualização do Panda, a aprendizagem automática tem sido cada vez mais mencionada nas comunicações oficiais da Google sobre actualizações de algoritmos e está envolvida em cada vez mais actualizações. Sabemos que, historicamente, houve resistência por parte de alguns sectores (incluindo Singhal) à utilização da aprendizagem automática no algoritmo principal, devido à forma como impedia os engenheiros humanos de explicar os resultados. Em 2015, Sundar Pichai assumiu o cargo de director executivo, afastou Singhal (embora possa ter sido por d Outros motivos) e instalou ventiladores de IA/ML em posições-chave.

O círculo está completo

Antes da actualização da Florida (de facto, até o Google lançar uma actualização chamada Fritz no Verão de 2003), os resultados de pesquisa eram regularmente baralhados num processo denominado Dança no Google:

A maioria das coisas mudou em tempo real desde então, mas as recentes "actualizações principais" parecem ter trazido de volta este tipo de dinâmica em que as mudanças acontecem de acordo com o calendário do Google e não com a cronologia das mudanças nos sítios Web. Eu tenho levantou a hipótese de que que isto se deve ao facto de as "actualizações principais" serem, na realidade, a reciclagem pela Google de um modelo de aprendizagem profunda maciço que está muito em sintonia com a forma da Web nessa altura. Seja qual for a causa, a nossa experiência de trabalho com uma vasta gama de clientes é consistente com a linha oficial do Google:

As actualizações gerais do kernel tendem a ocorrer a cada poucos meses. O conteúdo que tenha sido afectado por uma destas actualizações pode não ser restaurado - assumindo que foram feitas melhorias - até que a próxima actualização geral do kernel seja lançada.

Ligar tendências e descobertas recentes como esta à história antiga, como a dança do Google, é apenas uma das formas em que o conhecimento da história da SEO é "útil".

Se estiver interessado em tudo isto

Espero que esta viagem pela memória tenha sido interessante. Para aqueles que também trabalharam no sector durante esses anos, o que é que me escapou? Quais são os grandes marcos que recordam? Enviem-nas nos comentários abaixo ou escrevam-me para Twitter.

Se gostou deste passeio pela memória, também pode gostar da minha apresentação Da boca do cavaloTento utilizar as declarações oficiais e não oficiais da Google para compreender o que se passa realmente nos bastidores e para dar algumas dicas sobre como fazer o mesmo:


Para nos ajudar a servi-lo melhor, considere responder ao inquérito aos leitores do blogue da Moz de 2020, que lhe pergunta quem é, quais os desafios que enfrenta e o que gostaria de ver mais no blogue da Moz.