Categorias

Como editar robôs.txt no WordPress com Plugin de Levedura + Mais Opções

Saiba mais sobre o arquivo robots.txt e como instalá-lo e editá-lo no WordPress.

Não tem idéia do que é o robots.txt e o que ele faz pelo seu site? Você realmente precisa saber o que é e como usá-lo? Neste artigo, falamos sobre o que é robots.txt e como instalar robots.txt no WordPress, com ou sem um plugin gratuito como o Yoast SEO.

A primeira coisa que devo dizer é que, por padrão, o WordPress cria automaticamente um arquivo robots.txt padrão para seu site. Portanto, mesmo se você não levantar um dedo, seu site já deve ter o arquivo WordPress robots.txt.

Mas, se você sabia disso, provavelmente está aqui porque quer saber mais, ou acrescentar mais funcionalidades (instruções) a este arquivo.

Para esse fim...

...Você é novo no robots.txt, e se sente totalmente perdido?

Talvez alguém de sua equipe o tenha designado para cuidar de algo no arquivo robots.txt, como "Certifique-se de que o arquivo such-and-such seja adicionado/bloqueado no robots.txt".

Seja qual for o caso, vou fingir que você não sabe nada sobre robôs.txt, e rapidamente lhe dizer tudo o que você precisa saber para começar com este arquivo de texto crucial.

Antes de começarmos, devo dizer que este artigo cobre a maioria das instalações WordPress (que estão na raiz de um domínio). No raro caso em que você tenha o WordPress instalado em uma subpasta ou subdomínio, então como e onde você instala robôs.txt pode diferir do que eu detalho abaixo. Dito isto, estes mesmos princípios e idéias-chave ainda se aplicam.

O que é robots.txt?

Você provavelmente sabe que existem web crawlers que visitam os sites e possivelmente indexam os dados encontrados nesses sites. Estes também são chamados de robôs. Eles são qualquer tipo de bot que visita e rastreia sites na Internet. Os tipos mais comuns de robôs são os robôs de busca ou crawlers de motores de busca como os do Google, Bing, etc. Eles rastejam as páginas e ajudam os mecanismos de busca a indexar as páginas e classificá-las nos SERPs.

Diz-se que, ao chegar a um site, um dos primeiros arquivos que os rastreadores de mecanismos de busca ou web crawler devem procurar é o arquivo robots.txt.

Um arquivo robots.txt é um simples arquivo de texto que fornece instruções para os rastejadores dos mecanismos de busca e para os rastejadores da web. Ele foi criado em meados dos anos 90 a partir do desejo de controlar como os robôs interagem com as páginas. Ele permite aos proprietários e desenvolvedores da web a capacidade de controlar como os robôs podem interagir com um site. Você pode bloquear o acesso de robôs a determinadas áreas de seu site, mostrar a eles onde seu mapa do site pode ser acessado ou causar um atraso no rastreamento de seu site.

Assim, de certa forma, se houver algumas seções de seu site que você não queira ser rastreado, um arquivo robots.txt pode instruir os agentes-usuários que permanecem no site a não visitarem essas pastas.

Há alguns rastejadores que foram projetados para fins maliciosos, e esses rastejadores podem não cumprir as normas estabelecidas pelo Protocolo de Exclusão de Robôs.

Dito isto, se você tiver informações sensíveis em uma determinada parte de seu site, você pode desejar tomar medidas extras para restringir o acesso a esses dados, como a instalação de um sistema de senha.

Onde está o arquivo robots.txt?

Para a maioria das instalações WordPress, o arquivo robots.txt está no domínio raiz. Ou seja, para a maioria dos sites WordPress (que estão instalados no diretório raiz de um domínio), o arquivo robots.txt pode ser encontrado em /robots.txt.

Assim, por exemplo, este site (seointel.com) tem uma instalação WordPress na raiz de seu domínio. Assim, seu arquivo robots.txt pode ser encontrado em /robots.txt (https://seointel.com/robots.txt)

Você realmente precisa editar seu arquivo robots.txt padrão?

Se você não tiver um arquivo robots.txt ou se você tiver apenas o arquivo padrão pelo WordPress, os rastreadores podem rastrear todas as páginas de seu site e eles não saberiam quais áreas não deveriam rastrear. Isto deve ser bom para aqueles que começam apenas com um blog ou sites que não têm muito conteúdo. Entretanto, para sites que têm muito conteúdo e sites que lidam com informações privadas, um arquivo robots.txt seria necessário.

Para sites que têm muito conteúdo, seria uma boa prática criar um arquivo robots.txt que definisse quais sites não devem ser rastreados. Por quê? Isto porque os robôs de busca geralmente têm uma cota de rastejamento, taxa de rastejamento ou orçamento de rastejamento para cada site. Os bots só podem rastrear um certo número de páginas por rastejamento e se não terminarem de rastrear todas as suas páginas, eles retomarão o rastreamento nas próximas sessões de rastejamento. Isto significa que para sites grandes, o rastreamento do site pode ser mais lento e causar uma indexação mais lenta de conteúdo novo ou atualizado. Este problema pode ser resolvido desautorizando os rastejadores de rastejar páginas sem importância de seu site, tais como as páginas administrativas, arquivos de plugins e pasta de temas. 

Ao fazer isso, você pode otimizar seu site e certificar-se de que os robôs apenas rastreiem páginas importantes de seu site e que as novas páginas sejam rastreadas e indexadas o mais rápido possível. 

Há também casos em que não é possível evitar a duplicação de conteúdo em um site. Alguns optam por adicionar a página no robots.txt para que as páginas duplicadas não sejam rastreadas. 

Outro é quando seu site está vendo um alto tráfego de bot que pode estar impactando o uso ou o desempenho de seu servidor. Você pode bloquear certos bots de rastrear seu site ou pode definir um atraso de rastreamento. Isto ajuda a melhorar os problemas de desempenho de seu site.

Adicionar seu sitemaps ao seu arquivo roboot.txt também ajuda o Google bot a encontrar seu mapa do site e rastrear as páginas em seu site, embora isso muitas vezes não seja mais adicionado, pois os sitesmaps podem ser configurados no Console de Busca do Google.

Comandos Robots.txt

O arquivo robots.txt tem dois comandos principais. A diretiva User-agent e a diretiva disallow.

  • Agente-usuário é o que os bots usam para se identificarem e este comando permite que você tenha como alvo bots específicos.
  • Não autorizar diz aos robôs para não acessar uma determinada área de seu site. 

Além desses dois comandos comuns, há também os Permitir que fala por si e, como padrão, tudo em seu site está marcado como Permissão, portanto não é realmente necessário usar em. Isto pode ser usado quando você Não permite o acesso à pasta dos pais, mas permite o acesso a subpastas ou a uma pasta infantil.

Há também comandos para Crawl-delay e Mapa do site

Há também casos em que você não quer que uma página seja indexada e o melhor curso de ação pode não ser apenas a desautorização no arquivo txt dos robôs. O comando de desautorização não é o mesmo que o noindex tag. Enquanto o comando de desautorização bloqueia o rastreamento de um site, ele não impede necessariamente que uma página seja indexada. Se você quiser que uma página não seja indexada e não apareça nos resultados da busca, o melhor curso de ação será usar uma tag noindex. 

exemplos de robôs.txt

Talvez o melhor exemplo seja o seu próprio exemplo. Já que você está lendo isto, você provavelmente tem um site WordPress. Vá até o arquivo robots.txt desse site - adicione /robots.txt ao seu domínio raiz. (Se você ainda não tem um site WordPress, basta seguir os exemplos abaixo).

O que você vê?

robôs.txt Exemplo #1: Um arquivo Blank robots.txt

Você pode ver um arquivo em branco ou um arquivo vazio, o que não é o melhor, mas tecnicamente não há nada de errado com isso. Isso só significa que os rastejadores podem ir onde puderem.

robots.txt Exemplo #2: Um simples arquivo robots.txt

Agente-usuário: *
Permitir: /

Assim, a forma como as instruções do robots.txt funcionam é que há um rastreador da web ou uma chamada ao agente do usuário (isto pode ser para todos os agentes do usuário ou especificamente nomeados), seguido na linha seguinte por uma certa instrução (geralmente para permitir ou não certas pastas ou arquivos). 

O asterisco (*) implica tudo, ou seja, todos os agentes de usuário, e a barra (/) significa o domínio. Portanto, estas duas linhas de código estão efetivamente dizendo: "Todos os agentes-usuários são permitidos em todos os lugares neste domínio". 

robôs.txt e webcrawlers agência de inteligência seo

Acredite ou não, este tem exatamente as mesmas implicações que um arquivo robots.txt em branco e muitas vezes é o arquivo robots.txt padrão.

Vejamos um um pouco mais complicado...

robôs.txt Exemplo #3: Todos os robots proibidos de wp-admin

Agente-usuário: *
Não é permitido: /wp-admin/

Sabemos que o asterisco (*) significa todos os bots/crawlers/agentes-usuários. 
A pasta wp-admin não é permitida.

Portanto, esta é uma chamada (uma instrução) que impede que os rastejadores dos motores de busca e outros bots rastejem e passem através da pasta wp-admin. (Isto é compreensível, porque a pasta wp-admin é geralmente uma área segura, apenas para login, de uma instalação WordPress).

robôs.txt Exemplo #4: Talvez o Exemplo Mais Prático: Protegendo suas áreas pagas de serem indexadas

Se você tem uma área de acesso pago, página de download, ou arquivos privados que não são protegidos por senha, essa página de download poderia ser visitada por alguém usando um navegador Chrome, que eu suspeito que alertaria o Googlebot, dizendo: "Ei, essa pessoa deixou sua área paga bem aberta". 

Então, o Googlebot pode vir e, sem saber, indexar sua área paga. 

Agora, as chances de alguém encontrar sua área de acesso pago através de uma busca no Google são baixas... a menos que talvez tenha um conhecimento dos operadores dos mecanismos de busca e saiba o que procurar.

robots.txt Exemplo #5: Todos os robots proibidos de wp-admin, robots específicos proibidos por completo

Agente-usuário: *
Não é permitido: /wp-admin/


Agente-usuário: Exabot
Não é permitido: /

Agente-usuário: NCBot
Não é permitido: /

Sabemos de antes que todos os bots são instruídos a não passarem pela pasta wp-admin. Mas também temos instruções adicionais para o campo user-agent - Exabot e user-agent NCBot.

Isto significa que você restringe o acesso do bot a esses 2 agentes-usuários específicos.

Observe que para Exabot e NCBot, mesmo que as instruções de não aceitação sejam idênticas, elas ainda estão emparelhadas com qualquer uma das duas. 

E, observe que há uma linha em branco após a instrução (desautorizar) para todos os agentes usuários, uma linha em branco após a instrução (desautorizar) para o Exabot, e presumivelmente, uma linha em branco após a instrução (desautorizar) para o NCBot.

Isso porque as regras para robots.txt especificam que se você tem uma instrução para um agente-usuário específico, então esses agentes-usuários devem ter sua própria chamada (ser nomeados especificamente), e na(s) linha(s) seguinte(s), liste(m) a(s) instrução(ões) para esse agente-usuário. 

Em outras palavras, não é possível agrupar agentes de usuário específicos ou geralmente atribuir instruções a um grupo de agentes de usuário específicos. Você pode usar o asterisco (*) para chamar todos os user-agents, mas não pode agrupar user-agents específicos sem usar o exemplo de instrução callout-next-line-instruction acima. 

Portanto, basicamente, tem que haver uma linha em branco após a última instrução para um (ou todos) agente-usuário seguido pela chamada de outro agente-usuário (seguido por uma instrução na linha seguinte).

robôs.txt Exemplo #6: Todos os Agentes-usuários, instruções múltiplas

Agente-usuário: *
Não é permitido: /wp-admin/
Permitir: /wp-admin/admin-ajax.php
Não é permitido: /wp-snapshots
Não é permitido: /trackback

Portanto, todos os usuários-agentes são proibidos de wp-admin, com a exceção de que lhes é permitido rastrear um arquivo específico em wp-admin (admin-ajax.php), e proibidos de qualquer url que comece da raiz com wp-snapshots ou trackback.

robôs.txt Exemplo #7: Todos os Agentes-usuários, instruções múltiplas com Sitemaps

Agente-usuário: *
Não é permitido: /wp-admin/
Permitir: /wp-admin/admin-ajax.php
Não é permitido: /wp-snapshots
Não é permitido: /trackback

Mapa do site: https://example.org/sitemap.xml
Mapa do site: https://example.org/sitemap.rss

Este exemplo é uma continuação do utilizado no exemplo anterior, com duas linhas adicionadas informando aos bots de busca (ou web-crawlers) o caminho do arquivo para os mapas de sites RSS e XML. 

Há um pouco mais que se pode fazer com robôs.txt, mas acho que estes exemplos são suficientes para você começar a trabalhar.

Como instalar (ou editar) um arquivo robots.txt em um site WordPress

Portanto, como mencionei anteriormente, seu site WP já pode ter um arquivo robots.txt que foi adicionado durante a instalação (basta verificar seu site.com/robots.txt). 

No entanto, você pode desejar personalizá-lo ou dar-lhe alguma funcionalidade. Há geralmente duas maneiras de instalar (ou editar) um arquivo robots.txt em uma instalação do WordPress - uma usando um plugin, e a outra sem o uso de um plugin:

  1. Talvez a maneira mais fácil seja com um plugin (que você pode obter de graça). A primeira opção que vem à mente é a versão gratuita do plugin Yoast SEO, que é uma poderosa ferramenta seo que você pode instalar em seu site. Alguns outros plugins de ferramentas SEO, como o All In One SEO (AISEO), também são capazes de editar (ou adicionar) um arquivo robots.txt. Há muitas ferramentas úteis que você pode usar para ajudá-lo com isto.
  2. Se você não quiser usar os plugins seo, você pode criar manualmente um arquivo físico para seu arquivo robots.txt através do sistema de gerenciamento de arquivos do seu host ou servidor. (Pode ser cPanel, através de um cliente FTP, ou outra opção fornecida por seu host).

Como instalar um Plugin WordPress para ajudar com robots.txt

  1. Primeiro, saiba qual plugin você gostaria de instalar. Neste caso, supomos que você queira instalar o Yoast SEO.
  2. Entre em sua área wp-admin ou wp-login.
  3. Ir para Plugins > Adicionar novo. 
  4. Você deve ver uma caixa de busca onde você pode digitar o nome de um plugin (ou palavras-chave pertencentes a certas características). Digite Yoast SEO, depois clique em Enter.
  5. Você verá então uma página de resultados. Clique no resultado que você deseja instalar.
  6. Após instalá-lo, você deve então clicar em Ativar.
instale o plugin seo de yoast wordpress
acionar o plugin de yoast seo wordpress

Como instalar um Plugin WordPress para ajudar com robots.txt

Agora que você tem Yoast SEO instalado, aqui estão os passos que você pode tomar para editar ou instalar um arquivo robots.txt. (Nota: se Yoast mudou desde o momento em que escrevo isto, alguns dos passos abaixo podem ser diferentes, mas acredito que Yoast SEO ainda terá um recurso robots.txt).

Passo1: Saiba quais mudanças você gostaria de fazer

Isto é claro: você quer mudar/editar (ou adicionar) um arquivo robots.txt com certas instruções. Certifique-se de saber quais são essas instruções.

Passo 2: Importante: Back Up Your robots.txt File (Se houver um)

Isto é simples: basta ir ao seu arquivo robots.txt (site.com/robots.txt) e salvar esse arquivo em seu computador clicando em Ctrl + S (ou qualquer que seja a combinação em seu teclado para salvar um arquivo). 

Naturalmente, isto é feito apenas no caso de um erro ser cometido.

Passo 3: Faça o login em seu site WordPress.

Passo 4: Clique em SEO no lado esquerdo do painel de instrumentos. (Veja a imagem abaixo).

Passo 5: Clique em Ferramentas nas configurações SEO.

Passo 6: Habilite a edição de arquivos e clique no editor de arquivos.

Esta opção não aparecerá se estiver desativada.

editor de arquivos yoast seo

Passo 7: Crie as mudanças em seu arquivo robots.txt.

Você pode fazer isso seguindo os exemplos acima, ou usando qualquer outra instrução específica que queira apresentar.

criar robôs.txt para wordpress

Passo 8: Salvar estas mudanças.

Deve ser isso! Vá para a seção abaixo para verificar e testar seu arquivo robots.txt.

Como editar (ou adicionar) um arquivo robots.txt via FTP, cPanel, ou o sistema de gerenciamento de arquivos do seu host/servidor

Lembre-se de que quando foi instalado, o WordPress provavelmente criou um arquivo robots.txt virtual. Procure isto quando entrar nas pastas do seu site.

Passo 1: Certifique-se de saber quais mudanças você gostaria de fazer, ou o que você quer em seu arquivo robots.txt. 

Passo 2: Importante: Faça uma cópia de segurança de seu arquivo robots.txt. Basta ir ao seu arquivo robots.txt (site.com/robots.txt) e salvar esse arquivo em seu computador. Ao fazer isso, se mais tarde, você cometer um erro, você tem uma versão anterior para voltar.

Passo 3: Usando o File Transfer Protocol (FTP), arquivo cPanel, ou outra solução de gerenciamento de arquivos, faça o login na raiz de seu domínio (pasta raiz) e edite (ou crie) um arquivo robots.txt. 

(Alternativamente, você pode simplesmente usar um editor de texto para criar um arquivo de texto em seu computador local, colocar nas instruções que desejar, salvá-lo como robots.txt, e depois carregá-lo).

Salvar este arquivo com o nome do arquivo: robots.txt 

Passo 3: Se você criou este arquivo robots.txt em seu computador, carregue-o para a raiz de seu domínio.

Passo 4: Certifique-se de que este arquivo robots.txt está lá. Você pode fazer isso indo ao seu site.com/robots.txt

Verificação, teste ou verificação de seu arquivo robots.txt

Quando se trata de codificação, não há espaço para erros, caso contrário, os robôs não executarão as instruções que você deseja. 

É por isso que você precisa validar ou verificar seu arquivo.

Você pode simplesmente fazer uma busca no Google por um validador robots.txt ou verificador. Há uma série de opções gratuitas disponíveis.

Adicionando instruções ao seu arquivo robots.txt

Para adicionar instruções ao seu arquivo robots.txt, basta seguir os passos acima (seja através de um plugin ou FTP). 

Não esqueça de fazer um teste final

Quando tudo estiver pronto, faça um teste final usando um validador robots.txt ou um verificador.

Sentir-se melhor ao trabalhar com WordPress robôs.txt?

No início deste artigo, perguntei se você se sentia perdido sobre robôs.txt em sites WordPress. Espero que as coisas estejam um pouco mais claras para você. Lembre-se: robots.txt é apenas um simples arquivo de texto que diz aos robots de busca (user-agents) onde eles podem e não devem ir.

Embora o robots.txt provavelmente já esteja em sua instalação do WordPress, você pode editá-lo usando um plugin WordPress (como Yoast SEO) ou através do sistema de gerenciamento de arquivos de seu host e espero que, apesar do meu artigo, você tenha uma idéia melhor de como fazê-lo em seu site.

Há muitos usos para o arquivo robots.txt. Embora possa não ser realmente um arquivo para seo e não afete diretamente a classificação, ele ajuda a garantir que seu site e as páginas certas sejam rastreadas, indexadas, classificadas para seus termos-alvo nos resultados dos mecanismos de busca, e ganhem tráfego dos mecanismos de busca. Isto, por si só, é motivo suficiente para configurar seu arquivo robots.txt para seu site WordPress.

Procurar outros foi para ajudá-lo com suas estratégias de otimização de mecanismos de busca e ganhar tráfego orgânico para seu site? Deseja ser um especialista em SEO e procurar mais informações de SEO? Confira nossas outras conteúdo sobre SEO e deixe-nos ajudá-lo a ser classificado no Google e em outros grandes mecanismos de busca. 

DK Fynn

EQUIPE SIA SEOESCRITOR

DK Fynn biografia completa aqui.