Generador robots.txt Gratis — Presets para Bots de IA, Probador de URL y llms.txt
Genera un robots.txt completo y listo para producción en segundos. Este generador fue diseñado para la era de los crawlers de IA: activa o bloquea GPTBot, ClaudeBot, Google-Extended y otros bots de IA individualmente, aplica plantillas por tipo de sitio, prueba cualquier URL contra tus reglas y genera tu llms.txt — todo sin salir de la página. Sin registro.
El archivo robots.txt se coloca en la raíz de tu sitio web (https://ejemplo.com/robots.txt) e instruye a los crawlers sobre qué páginas pueden y no pueden acceder. Configurarlo correctamente importa más que nunca ahora que los crawlers de entrenamiento de IA rastrean contenido de sitios regularmente, sin los beneficios de tráfico de un motor de búsqueda.
Cómo Usar el Generador de robots.txt
Generar un robots.txt válido lleva menos de un minuto:
- Elige una plantilla — Haz clic en Blog, E-commerce, SaaS, Enterprise o Noticias para rellenar automáticamente las reglas más comunes de allow/disallow para tu tipo de sitio. Tienes una base sólida para personalizar desde el principio.
- Configura los bots de IA — En la sección AI Agent Controls, activa o desactiva cada crawler individualmente. Marcado = permitir, desmarcado = bloquear (inyecta
Disallow: /para ese User-agent). Haz clic en "Block All" para bloquear todos los crawlers de IA de un solo clic. - Añade o elimina rutas — En la pestaña Configuración, añade rutas específicas para permitir o bloquear en
User-agent: *. Por ejemplo, bloquea/admin/y/checkout/mientras permites todo lo demás con/. - Prueba una URL — Usa el URL Tester en el panel derecho para pegar cualquier ruta (p. ej.
/admin/config/private) y ver si estaría permitida o bloqueada, y qué regla específica aplica. - Copia o descarga — El Raw Output Preview al final muestra tu robots.txt en vivo con resaltado de sintaxis. Copia al portapapeles o descarga como
robots.txt.
Ejemplos de robots.txt
| User-agent / Ruta | Regla | Resultado |
|---|---|---|
Googlebot / /admin/ |
Disallow: /admin/ |
❌ Bloqueado |
* / / |
Allow: / |
✅ Permitido |
GPTBot / /blog/articulo-1 |
Disallow: / (bloquear todo) |
❌ Bloqueado |
* / /?s=busqueda |
Disallow: /?s= |
❌ Bloqueado |
Bingbot / /acerca |
Sin regla coincidente | ✅ Permitido por defecto |
Caso especial — Disallow vacío:
Disallow:
URL: /cualquier-ruta
Resultado: ✅ Permitido (Disallow vacío = permitir todo)
Qué Es robots.txt — y Qué No Hace
El archivo robots.txt está basado en el Robots Exclusion Protocol (REP), creado en 1994. Comunica preferencias de rastreo a los robots web — pero no las impone técnicamente. Los crawlers que respetan el estándar siguen las reglas; los que no, las ignoran.
Tres cosas que robots.txt no hace: no impide que los humanos accedan a una página, no garantiza que una página no sea indexada (usa noindex para eso), y no protege datos sensibles (usa autenticación para eso).
Bloquear Crawlers de IA — Guía 2025
El surgimiento de modelos de lenguaje como ChatGPT, Claude y Gemini creó una nueva categoría de crawlers que extraen contenido para datos de entrenamiento en vez de resultados de búsqueda. A diferencia de Googlebot, que trae tráfico a tu sitio, los crawlers de entrenamiento de IA extraen contenido sin beneficios directos.
Crawlers de entrenamiento (GPTBot, CCBot, anthropic-ai, Google-Extended, Bytespider, Applebot-Extended) descargan contenido para entrenar futuros modelos de lenguaje. Crawlers de navegación (OAI-SearchBot, PerplexityBot, ClaudeBot) alimentan resultados de búsqueda de IA en tiempo real y pueden generar tráfico de referencia a tu sitio.
Muchos editores bloquean los crawlers de entrenamiento para proteger su contenido mientras permiten los crawlers de navegación para mantener visibilidad en las búsquedas basadas en IA. Las principales empresas de IA — OpenAI, Anthropic, Google, Perplexity — han declarado públicamente que respetan el robots.txt.
Casos de Uso Comunes
- Bloquear navegación facetada: Los sitios de e-commerce generan miles de URLs casi duplicadas con filtros (
?color=rojo&talla=M). Bloquear/*?evita desperdicio de crawl budget en estas URLs parametrizadas. - Proteger panel de administración:
Disallow: /admin/yDisallow: /wp-login.phpimpiden que las páginas de administración sean rastreadas. - Declarar sitemap: Incluir
Sitemap: https://ejemplo.com/sitemap.xmlen robots.txt ayuda a todos los crawlers a descubrir tu sitemap automáticamente. - Protección de contenido de IA: Los editores de noticias, investigaciones o contenido creativo bloquean crawlers de entrenamiento para proteger su trabajo de ser usado en modelos de IA sin compensación.
- Optimización de crawl budget: Sitios grandes (10K+ páginas) se benefician bloqueando contenido de bajo valor para que los crawlers gasten el presupuesto en páginas importantes.
Errores Comunes con robots.txt
- Bloquear páginas que quieres indexar:
Disallow: /blog/impide que Googlebot rastree todo tu blog. Usa Disallow solo para lo que genuinamente no debe ser rastreado. - Confundir rastreo con indexación: Una URL bloqueada puede aún aparecer en los resultados de búsqueda si tiene enlaces externos apuntando a ella. Para evitar la indexación, usa
<meta name="robots" content="noindex">en la página. - La barra final importa:
Disallow: /adminbloquea solo la ruta exacta/admin.Disallow: /admin/bloquea/admin/y todos los subdirectorios. - Bloquear CSS y JavaScript: Google usa el HTML renderizado (incluyendo CSS/JS) para evaluar la calidad de la página. Bloquear estos archivos puede perjudicar el posicionamiento.
Preguntas Frecuentes
¿Cómo bloqueo todos los bots de IA con robots.txt?
Añade un bloque User-agent separado para cada crawler de IA con Disallow: /. Por ejemplo: User-agent: GPTBot seguido de Disallow: /. Repite para: OAI-SearchBot, Google-Extended, anthropic-ai, ClaudeBot, CCBot, PerplexityBot, Bytespider, Applebot-Extended y Amazonbot. Usa el toggle "Block All" en este generador para añadir todos con un solo clic.
¿Bloquear GPTBot impide que ChatGPT use mi contenido?
Bloquear GPTBot (el crawler de entrenamiento de OpenAI) puede reducir la aparición de tu contenido en futuros datos de entrenamiento de ChatGPT. Bloquear OAI-SearchBot es una decisión separada — ese es el crawler que alimenta el modo de navegación en tiempo real de ChatGPT y puede generar tráfico de referencia. Las principales empresas de IA afirman respetar el robots.txt, pero el cumplimiento es voluntario.
¿Cuál es la diferencia entre robots.txt y meta robots?
robots.txt controla el rastreo — si un bot accede a la URL. Las etiquetas meta robots (<meta name="robots" content="noindex">) controlan la indexación — si el contenido aparece en los resultados de búsqueda. Una URL puede estar bloqueada en robots.txt y aún aparecer indexada si los motores de búsqueda ya la conocen por enlaces externos.
¿Qué es llms.txt?
llms.txt es un estándar propuesto por la comunidad en 2025 para comunicar a los sistemas de IA sobre la estructura y el contenido de tu sitio. Mientras robots.txt indica qué evitar, llms.txt es una guía curada con tus páginas más importantes y cómo la IA debe referenciar tu contenido. Se coloca en ejemplo.com/llms.txt. Aún no es un estándar oficial W3C, pero su adopción está creciendo.
¿El robots.txt afecta el SEO?
Indirectamente, sí. Bloquear páginas innecesarias — paneles de administración, contenido duplicado por parámetros de URL, navegación facetada, páginas de inicio de sesión — ayuda a los motores de búsqueda a enfocar el crawl budget en el contenido importante. Esto puede llevar a una indexación más rápida en sitios grandes. Nunca bloquees páginas que quieres indexar; usa noindex para eso.
Recursos
- Google — Especificación de robots.txt — Documentación oficial de Google sobre la sintaxis de robots.txt y cómo Googlebot interpreta las reglas.
- OpenAI — Documentación de GPTBot — Documentación oficial de OpenAI sobre GPTBot, incluyendo cómo excluirse del rastreo para entrenamiento de modelos.