Technical SEO

Como configurar o robots.txt

9 min de leitura

O arquivo robots.txt controla quais partes do seu site os rastreadores dos mecanismos de busca podem acessar. Um robots.txt mal configurado pode impedir a indexação de páginas importantes ou desperdiçar o crawl budget em URLs de baixo valor. Este guia ensina como configurá-lo corretamente, testá-lo e evitar erros comuns que prejudicam o SEO.

learn.sections.stepByStep

Understand Robots.txt Basics

Robots.txt is a plain text file at your site's root (example.com/robots.txt) that uses directives to guide crawlers. The two main directives are User-agent (which crawler the rule applies to) and Disallow (which paths to block). An empty or missing robots.txt means all crawlers can access everything.

Identify What to Block

Block URLs that waste crawl budget without providing SEO value: admin pages, internal search results, login areas, cart and checkout pages, print versions, and parameter-heavy filter URLs. Never block CSS, JavaScript, or image files that search engines need to render your pages correctly.

Write Your Robots.txt Rules

Start with User-agent: * to apply rules to all crawlers. Use Disallow for paths to block and Allow to create exceptions within blocked directories. Remember that rules are case-sensitive and use path matching with wildcards (*) and end-of-URL markers ($).

Add Your Sitemap Reference

Include a Sitemap directive pointing to your XML sitemap: Sitemap: https://example.com/sitemap.xml. This helps search engines discover your sitemap even if they haven't found it through other means. You can list multiple sitemaps if your site uses sitemap index files.

Test Before Deploying

Use Google Search Console's Robots.txt Tester to verify your rules before going live. Test specific URLs to confirm important pages are accessible and blocked pages return the expected result. A single misplaced rule can accidentally block your entire site.

Monitor Crawl Activity

After deploying, monitor the Crawl Stats report in Google Search Console to verify that crawl patterns match your intentions. Check that blocked URLs aren't appearing in search results and that important pages are being crawled at appropriate frequencies.

Entenda o básico do robots.txt

O robots.txt é um arquivo de texto simples na raiz do seu site (exemplo.com/robots.txt) que usa diretivas para orientar os rastreadores. As duas diretivas principais são User-agent (para qual rastreador a regra se aplica) e Disallow (quais caminhos bloquear). Um robots.txt vazio ou ausente significa que todos os rastreadores podem acessar tudo.

Identifique o que bloquear

Bloqueie URLs que desperdiçam o crawl budget sem fornecer valor de SEO: páginas de administração, resultados de busca interna, áreas de login, páginas de carrinho e checkout, versões para impressão e URLs de filtros com muitos parâmetros. Nunca bloqueie arquivos CSS, JavaScript ou de imagem que os mecanismos de busca precisam para renderizar suas páginas corretamente.

Escreva suas regras no robots.txt

Comece com User-agent: * para aplicar regras a todos os rastreadores. Use Disallow para os caminhos a serem bloqueados e Allow para criar exceções dentro de diretórios bloqueados. Lembre-se de que as regras diferenciam maiúsculas de minúsculas e usam correspondência de caminho com curingas (*) e marcadores de fim de URL ($).

Adicione a Referência do seu Sitemap

Inclua uma diretiva Sitemap apontando para o seu sitemap XML: Sitemap: https://example.com/sitemap.xml. Isso ajuda os mecanismos de busca a descobrirem seu sitemap mesmo que não o tenham encontrado por outros meios. Você pode listar vários sitemaps se o seu site utilizar arquivos de índice de sitemap.

Teste Antes de Implementar

Use o testador de robots.txt do Google Search Console para verificar suas regras antes de colocar no ar. Teste URLs específicas para confirmar se as páginas importantes estão acessíveis e se as páginas bloqueadas retornam o resultado esperado. Uma única regra mal colocada pode bloquear acidentalmente todo o seu site.

Monitore a Atividade de Rastreamento

Após a implementação, monitore o relatório de Estatísticas de Rastreamento no Google Search Console para verificar se os padrões de rastreamento correspondem às suas intenções. Verifique se as URLs bloqueadas não estão aparecendo nos resultados de busca e se as páginas importantes estão sendo rastreadas com as frequências adequadas.

Dicas de Especialistas

Robots.txt blocks crawling but not indexing. If a blocked page has external backlinks, Google may still index the URL (just without content). Use noindex meta tags to prevent indexing.
Use the $ end-of-string character to block specific file types: Disallow: /*.pdf$ blocks all PDFs without affecting other URLs containing '.pdf' in the path.
Keep your robots.txt simple. Complex rules with many exceptions are hard to maintain and easy to break. If you find your robots.txt growing beyond 20-30 lines, consider using noindex tags instead.
O robots.txt bloqueia o rastreamento, mas não a indexação. Se uma página bloqueada tiver backlinks externos, o Google ainda pode indexar a URL (apenas sem conteúdo). Use meta tags noindex para evitar a indexação.
Use o caractere de fim de string $ para bloquear tipos de arquivo específicos: Disallow: /*.pdf$ bloqueia todos os PDFs sem afetar outras URLs que contenham '.pdf' no caminho.
Mantenha seu robots.txt simples. Regras complexas com muitas exceções são difíceis de manter e fáceis de quebrar. Se você perceber que seu robots.txt ultrapassa 20-30 linhas, considere usar tags noindex.

Erros Comuns para Evitar

Blocking CSS and JavaScript files

Google needs to render your pages to evaluate them properly. Blocking CSS or JS files prevents rendering, which means Google sees a broken page. Never block resources needed for page rendering.

Using robots.txt to hide sensitive content

Robots.txt is publicly accessible -- anyone can read it. Using it to hide admin panels or private directories actually advertises their existence. Use authentication and noindex for truly private content.

Accidentally blocking the entire site

A single 'Disallow: /' under 'User-agent: *' blocks every crawler from your entire site. This can happen during development or migration. Always double-check that no broad rules are accidentally active on production.

Bloquear arquivos CSS e JavaScript

O Google precisa renderizar suas páginas para avaliá-las adequadamente. Bloquear arquivos CSS ou JS impede a renderização, o que significa que o Google verá uma página quebrada. Nunca bloqueie recursos necessários para a renderização da página.

Usar robots.txt para ocultar conteúdo sensível

O robots.txt é acessível publicamente — qualquer um pode lê-lo. Usá-lo para ocultar painéis administrativos ou diretórios privados na verdade anuncia a existência deles. Use autenticação e noindex para conteúdos verdadeiramente privados.

Bloquear acidentalmente todo o site

Um único 'Disallow: /' sob 'User-agent: *' bloqueia todos os rastreadores de todo o seu site. Isso pode acontecer durante o desenvolvimento ou migração. Sempre verifique se nenhuma regra ampla está ativa acidentalmente no ambiente de produção.

Como o Keyword Kick Facilita Isso

Interactive robots.txt generator with preset templates for common CMS platforms
Site audit checks that flag robots.txt issues including blocked important resources
Crawlability analysis showing which pages are blocked and whether that's intentional
Gerador de robots.txt interativo com modelos predefinidos para plataformas CMS comuns
Verificações de auditoria do site que sinalizam problemas no robots.txt, incluindo recursos importantes bloqueados
Análise de rastreabilidade mostrando quais páginas estão bloqueadas e se isso é intencional

learn.sections.faq

Is robots.txt required for SEO?

No, it's not required. Without a robots.txt file, search engines will crawl everything they can find. You only need one if you want to block specific sections from crawlers or if your site is large enough that you need to manage crawl budget.

Does robots.txt prevent pages from appearing in search results?

Not reliably. Robots.txt prevents crawling, but Google may still index the URL if it finds links pointing to it. The indexed result will show the URL and title but no description. Use a noindex meta tag to fully prevent search appearance.

How often do search engines check robots.txt?

Google typically caches your robots.txt for up to 24 hours. Changes may not take effect immediately. If you need Google to re-fetch it urgently, you can use the Robots.txt Tester in Search Console to request a refresh.

O robots.txt é necessário para SEO?

Não, não é obrigatório. Sem um arquivo robots.txt, os mecanismos de busca rastrearão tudo o que conseguirem encontrar. Você só precisa de um se quiser bloquear seções específicas dos rastreadores ou se seu site for grande o suficiente para precisar gerenciar o orçamento de rastreamento.

O robots.txt impede que páginas apareçam nos resultados de busca?

Não de forma confiável. O robots.txt impede o rastreamento, mas o Google ainda pode indexar a URL se encontrar links apontando para ela. O resultado indexado mostrará a URL e o título, mas não a descrição. Use uma meta tag noindex para evitar totalmente a exibição na busca.

Com que frequência os mecanismos de busca verificam o robots.txt?

O Google geralmente armazena seu robots.txt em cache por até 24 horas. As alterações podem não entrar em vigor imediatamente. Se precisar que o Google o busque novamente com urgência, você pode usar o testador de Robots.txt no Search Console para solicitar uma atualização.

learn.cta.button