O que é robots.txt?

O que é robots.txt? 22/06/2021

O que é robots.txt?

O robots.txt é um arquivo deve ser salvo na pasta raiz do seu site, e indica para os robôs de busca do Google, Bing e muitas outras quais as páginas de seu site você não deseja que sejam acessadas por estes mecanismos de pesquisa.

E como o próprio nome dá a entender, o robots .txt é um arquivo no formato .txt que pode ser criado no próprio bloco de notas de seu computador, excluindo a necessidade de uma ferramenta para sua criação.

O robots.txt usa o formato do Protocolo de Exclusão de Robôs padrão. Um conjunto de comandos que são usados pelos robôs de busca que identificam quais os diretórios e páginas de seu site não devem ser acessados por eles.

Como o arquivo é salvo diretamente na pasta raiz do site, acessar os arquivos robots.txt de outras páginas é bem simples: basta digitar o endereço da página no seu navegador e adicionar o comando “/robots.txt” ao final da URL.

Fazer isso pode te dar insights interessantes, além de permitir que você conheça alguns endereços que seus concorrentes desejam esconder de suas páginas.

 

Por que optar por não rankear algumas páginas?

Um exemplo de que você precisa “esconder” algo dos robôs é: imagine que vai disponibilizar um material rico como imagens ou um infográfico. Ele poderia ser facilmente indexado no diretório de mídia do Google ou outros mecanismos, fazendo com que quem pesquisa, não precise necessariamente acessar a página e consumir todo o conteúdo. Portanto, se este arquivo for “restrito”, as pessoas acessarão o site e o encontrarão lá dentro.

Outra possibilidade é a de você apenas ter uma categoria, artigo ou qualquer outro link que é parte da sua estratégia de campanhas, mas não necessariamente importante para rankear em termos de SEO. Assim, o caminho mais indicado é ocultá-la nos buscadores.

 

Como criar um robots.txt

Para indexar todos os arquivos do seu site crie um arquivo robots.txt com o seguinte conteúdo:

User-agent: *

Disallow:

 

Para que nenhum arquivo seja indexado:

User-agent: *

Disallow: /

 

Para que uma pasta específica não seja indexada:

User-agent: *

Disallow: /Pasta1/

 

No caso de haver um único arquivo dentro desta mesma pasta a ser encontrado pelo webcrawler, utilize:

User-agent: *

Disallow: /Pasta1/

Allow: /Pasta1/MeuArquivo.html

 

Vale salientar que existe a possibilidade de criar regras específicas para cada mecanismo de busca. Segue exemplo em parte com regras gerais para todos os webcrawlers e em parte regras específicas para o Googlebot:

 

User-agent: *

Disallow: /Pasta1/

Allow: /Pasta1/MeuArquivo.html

User-agent: Googlebot

Disallow: /Adm/

 

Assim o Googlebot desconsidera o primeiro bloco de regras e o Google só não indexaria a pasta Adm conforme comando de restrição acima.

Ainda que bloqueie as URLs para que não sejam indexadas no Google pelo robots.txt, o Google pode mostrá-las nos resultados das pesquisas. Para que isso não ocorra  utilizaremo a Meta Tag abaixo:

 

<meta name=”robots” content=”noindex”>

 

Pode-se criar regras utilizando caracteres especiais, assim é possível criar uma regra abrangente que englobe diversas páginas. Se desejar que os arquivos .php não sejam indexados pode-se criar uma regra a partir deste padrão:

User-agent: *

Disallow: /*.php$

 

Se a pesquisa gera parâmetros indesejados para e não deseja que os mecanismos de busca indexem, crie uma regra igual ao exemplo abaixo:

User-agent: *

Disallow: /?busca=

Agora que você já sabe o que é e como criar um arquivo robots.txt, o trabalho de gestão de seu site será facilitado, garantindo que apenas as páginas importantes para seu negócio sejam visitadas pelos robôs de busca.

Siga-nos no facebook

Clique aqui para conhecer nossos serviços

Fonte: GoDaddy, rockcontent, Agência ilumina, developers

Postado em Robots.txt

Deixe um comentário