Gerador robots.txt — Quick Tools

Gerador robots.txt Grátis — Presets para Bots de IA, Testador de URL e llms.txt

Gere um robots.txt completo e pronto para produção em segundos. Este gerador foi construído para a era dos crawlers de IA: ative ou bloqueie GPTBot, ClaudeBot, Google-Extended e outros 9 bots de IA individualmente, aplique templates por tipo de site, teste qualquer URL contra suas regras e gere seu llms.txt — tudo sem sair da página. Sem cadastro.

O arquivo robots.txt fica na raiz do seu site (https://exemplo.com/robots.txt) e instrui os crawlers sobre quais páginas podem ou não ser acessadas. Configurá-lo corretamente importa mais do que nunca agora que crawlers de treinamento de IA rastreiam conteúdo de sites regularmente, sem os benefícios de tráfego de um mecanismo de busca.

Como Usar o Gerador de robots.txt

Gerar um robots.txt válido leva menos de um minuto:

Escolha um template — Clique em Blog, E-commerce, SaaS, Enterprise ou Notícias para preencher automaticamente as regras mais comuns de allow/disallow para o seu tipo de site. Você já começa com uma base sólida para personalizar.
Configure os bots de IA — Na seção AI Agent Controls, ative ou desative cada crawler individualmente. Marcado = permitir, desmarcado = bloquear (injeta Disallow: / para aquele User-agent). Clique em "Block All" para bloquear todos os crawlers de IA com um clique.
Adicione ou remova caminhos — Na aba Configuração, adicione caminhos específicos para permitir ou bloquear em User-agent: *. Por exemplo, bloqueie /admin/ e /checkout/ enquanto permite tudo o mais com /.
Teste uma URL — Use o URL Tester no painel direito para testar qualquer caminho (ex: /admin/config/private) e ver se seria permitido ou bloqueado, e qual regra específica se aplica.
Copie ou faça download — O Raw Output Preview no final mostra seu robots.txt ao vivo com syntax highlighting. Copie para a área de transferência ou baixe como robots.txt.

Exemplos de robots.txt

User-agent / Caminho	Regra	Resultado
`Googlebot` / `/admin/`	`Disallow: /admin/`	❌ Bloqueado
`*` / `/`	`Allow: /`	✅ Permitido
`GPTBot` / `/blog/post-1`	`Disallow: /` (bloquear tudo)	❌ Bloqueado
`*` / `/?s=busca`	`Disallow: /?s=`	❌ Bloqueado
`Bingbot` / `/sobre`	Sem regra correspondente	✅ Permitido por padrão

Caso especial — padrão vazio:

Disallow:
URL: /qualquer-coisa
Resultado: ✅ Permitido (Disallow vazio = permitir tudo)

O que é robots.txt — e o que ele não faz

O arquivo robots.txt é baseado no Robots Exclusion Protocol (REP), criado em 1994. Ele comunica preferências de rastreamento para robôs web — mas não as impõe tecnicamente. Crawlers que respeitam o padrão seguem as regras; os que não respeitam, ignoram.

Três coisas que o robots.txt não faz: não impede humanos de acessar uma página, não garante que uma página não será indexada (use noindex para isso), e não protege dados sensíveis (use autenticação para isso).

Bloquear Crawlers de IA — Guia 2025

O surgimento de modelos de linguagem como ChatGPT, Claude e Gemini criou uma nova categoria de crawlers que extraem conteúdo para dados de treinamento em vez de resultados de busca. Ao contrário do Googlebot, que traz tráfego para o seu site, crawlers de treinamento de IA extraem conteúdo sem benefícios diretos.

Crawlers de treinamento (GPTBot, CCBot, anthropic-ai, Google-Extended, Bytespider, Applebot-Extended) baixam conteúdo para treinar modelos de linguagem futuros. Crawlers de browsing (OAI-SearchBot, PerplexityBot, ClaudeBot) alimentam resultados de busca de IA em tempo real e podem gerar tráfego de referência para o seu site.

Muitos editores bloqueiam os crawlers de treinamento para proteger seu conteúdo enquanto permitem os crawlers de browsing para manter visibilidade nas buscas baseadas em IA. As principais empresas de IA — OpenAI, Anthropic, Google, Perplexity — declararam publicamente que respeitam o robots.txt.

Casos de Uso Comuns

Bloquear navegação facetada: Sites de e-commerce geram milhares de URLs quase duplicadas com filtros (?cor=vermelho&tamanho=M). Bloquear /*? evita desperdício de crawl budget nessas URLs parametrizadas.
Proteger painel administrativo: Disallow: /admin/ e Disallow: /wp-login.php impedem que páginas de administração sejam rastreadas, mesmo que a autenticação seja a camada de segurança real.
Declarar sitemap: Incluir Sitemap: https://exemplo.com/sitemap.xml no robots.txt ajuda todos os crawlers a descobrirem seu sitemap automaticamente.
Proteção de conteúdo de IA: Publicadores de notícias, pesquisas ou conteúdo criativo bloqueiam crawlers de treinamento para proteger seu trabalho de ser usado em modelos de IA sem compensação.
Otimização de crawl budget: Sites grandes (10K+ páginas) se beneficiam bloqueando conteúdo de baixo valor (páginas de login, carrinho, resultados de busca interna) para que crawlers gastem o budget nas páginas importantes.

Erros Comuns com robots.txt

Bloquear páginas que você quer indexar: Disallow: /blog/ impede o Googlebot de rastrear seu blog inteiro. Use Disallow apenas para o que realmente não deve ser rastreado.
Confundir rastreamento com indexação: Uma URL bloqueada pode ainda aparecer nos resultados de busca se tiver links apontando para ela. Para impedir a indexação, use <meta name="robots" content="noindex"> na página.
A barra final importa: Disallow: /admin bloqueia apenas o caminho exato /admin. Disallow: /admin/ bloqueia /admin/ e todos os subdiretórios. Esquecer a barra final expõe os subdiretórios.
Bloquear CSS e JavaScript: O Google usa o HTML renderizado (incluindo CSS/JS) para avaliar a qualidade da página. Bloquear seus arquivos de estilo ou script pode prejudicar o ranqueamento.

Perguntas Frequentes

Como bloqueio todos os bots de IA com robots.txt?

Adicione um bloco User-agent separado para cada crawler de IA com Disallow: /. Por exemplo: User-agent: GPTBot seguido de Disallow: /. Repita para: OAI-SearchBot, Google-Extended, anthropic-ai, ClaudeBot, CCBot, PerplexityBot, Bytespider, Applebot-Extended e Amazonbot. Use o toggle "Block All" neste gerador para adicionar todos com um clique.

Bloquear GPTBot impede o ChatGPT de usar meu conteúdo?

Bloquear o GPTBot (o crawler de treinamento da OpenAI) pode reduzir a aparição do seu conteúdo em futuros dados de treinamento do ChatGPT. Bloquear o OAI-SearchBot é uma decisão separada — esse é o crawler que alimenta o modo de navegação em tempo real do ChatGPT e pode gerar tráfego de referência. As principais empresas de IA afirmam respeitar o robots.txt, mas a conformidade é voluntária.

Qual é a diferença entre robots.txt e meta robots?

robots.txt controla o rastreamento — se um bot acessa a URL. As tags meta robots (<meta name="robots" content="noindex">) controlam a indexação — se o conteúdo aparece nos resultados de busca. Uma URL pode ser bloqueada no robots.txt e ainda aparecer indexada se os mecanismos de busca já a conhecem por links externos. Para não indexação garantida, use noindex na página.

O que é llms.txt?

llms.txt é um padrão proposto pela comunidade em 2025 para comunicar aos sistemas de IA sobre a estrutura e o conteúdo do seu site. Enquanto o robots.txt diz o que evitar, o llms.txt é um guia curado — lista suas páginas mais importantes, descreve o que o site faz e sinaliza como a IA deve referenciar seu conteúdo. Fica em exemplo.com/llms.txt. Ainda não é um padrão oficial W3C, mas a adoção está crescendo.

robots.txt afeta o SEO?

Indiretamente, sim. Bloquear páginas desnecessárias — painéis de admin, conteúdo duplicado de parâmetros de URL, navegação facetada, páginas de login e resultados de busca interna — ajuda os mecanismos de busca a focar o crawl budget no conteúdo importante. Isso pode levar a uma indexação mais rápida de novas páginas em sites grandes. Nunca bloqueie páginas que você quer indexar; use noindex para isso.

Recursos

Google — Especificação do robots.txt — Documentação oficial do Google sobre sintaxe do robots.txt, incluindo suporte a wildcards e como o Googlebot interpreta as regras.
OpenAI — Documentação do GPTBot — Documentação oficial da OpenAI sobre o GPTBot, incluindo como recusar o rastreamento para treinamento de modelos.