robots.txt Generator

Generatore robots.txt

Generatore robots.txt gratuito con preset bot IA (GPTBot, ClaudeBot, PerplexityBot), tester URL e generatore llms.txt. Senza registrazione.

Aggiornato giugno 2026

No sitemap URL configured. Adding a sitemap improves crawl coverage.
AI Agent Controls

Training (LLMs)

G

GPTBot

OpenAI

G

Google-Extended

Google

a

anthropic-ai

Anthropic

C

CCBot

Common Crawl

B

Bytespider

ByteDance

A

Applebot-Extended

Apple

A

Amazonbot

Amazon

c

cohere-ai

Cohere

Browsing & Real-time

O

OAI-SearchBot

OpenAI

C

ClaudeBot

Anthropic

P

PerplexityBot

Perplexity

F

FacebookBot

Meta

Checked = allow indexing. Unchecked = Disallow: / injected for that User-agent.

Global Rules (User-agent: *)

Allowed Paths

Blocked Paths

seconds (ignored by Google)
URL Tester
llms.txt
NEW 2025

Generate a context file for AI systems — the emerging standard for AI-friendly site documentation.

Raw Output Preview
# robots.txt generated by Quick Tools — https://quickeasy.tools
 
User-agent: *
Allow: /

Generatore robots.txt Gratuito — Preset Bot IA, Tester URL e llms.txt

Genera un robots.txt completo e pronto per la produzione in pochi secondi. Questo strumento è stato progettato per l'era dei crawler IA: attiva o blocca GPTBot, ClaudeBot, Google-Extended e altri bot IA singolarmente, applica template per tipo di sito, testa qualsiasi URL contro le tue regole e genera il tuo llms.txt — tutto senza lasciare la pagina. Senza registrazione.

Il file robots.txt viene posizionato nella directory radice del tuo sito (https://esempio.it/robots.txt) e indica ai crawler quali pagine possono e non possono visitare. Configurarlo correttamente è più importante che mai, ora che i crawler di addestramento IA indicizzano regolarmente contenuti di siti senza i vantaggi di traffico di un motore di ricerca.

Come Usare il Generatore di robots.txt

Generare un robots.txt valido richiede meno di un minuto:

  1. Scegli un template — Clicca su Blog, E-commerce, SaaS, Enterprise o News per compilare automaticamente le regole allow/disallow più comuni per il tuo tipo di sito. Hai subito una base solida da personalizzare.
  2. Configura i bot IA — Nella sezione „AI Agent Controls", attiva o disattiva ogni crawler singolarmente. Selezionato = consentire, deselezionato = bloccare (inserisce Disallow: / per quel User-agent). Clicca su „Block All" per bloccare tutti i crawler IA con un solo clic.
  3. Aggiungi o rimuovi percorsi — Nella scheda Configurazione, aggiungi percorsi specifici da consentire o bloccare per User-agent: *. Ad esempio, blocca /admin/ e /checkout/ consentendo tutto il resto con /.
  4. Testa un URL — Usa il tester URL nel pannello di destra per incollare qualsiasi percorso (es. /admin/config/private) e vedere istantaneamente se sarebbe consentito o bloccato, e quale regola si applica.
  5. Copia o scarica — L'anteprima dell'output grezzo in fondo mostra il tuo robots.txt in tempo reale con evidenziazione della sintassi. Copia negli appunti o scarica come robots.txt.

Esempi di robots.txt

User-agent / Percorso Regola Risultato
Googlebot / /admin/ Disallow: /admin/ ❌ Bloccato
* / / Allow: / ✅ Consentito
GPTBot / /blog/articolo-1 Disallow: / (blocca tutto) ❌ Bloccato
* / /?s=ricerca Disallow: /?s= ❌ Bloccato
Bingbot / /chi-siamo Nessuna regola corrispondente ✅ Consentito di default

Caso speciale — Disallow vuoto:

Disallow:
URL: /qualsiasi-percorso
Risultato: ✅ Consentito (Disallow vuoto = consenti tutto)

Cos'è robots.txt — E Cosa Non Fa

Il file robots.txt è basato sul Robots Exclusion Protocol (REP), introdotto nel 1994. Comunica le preferenze di crawling ai robot web — ma non le impone tecnicamente. I crawler conformi rispettano le regole; quelli non conformi le ignorano.

Tre cose che robots.txt non fa: non impedisce agli esseri umani di accedere a una pagina, non garantisce che una pagina non venga indicizzata (usa noindex per questo), e non protegge dati sensibili (usa l'autenticazione per questo).

Bloccare i Crawler IA — Guida 2025

L'ascesa di modelli linguistici come ChatGPT, Claude e Gemini ha creato una nuova categoria di crawler che estraggono contenuti per dati di addestramento anziché risultati di ricerca. A differenza di Googlebot, che porta traffico al tuo sito, i crawler di addestramento IA estraggono contenuti senza benefici diretti.

Crawler di addestramento (GPTBot, CCBot, anthropic-ai, Google-Extended, Bytespider, Applebot-Extended) scaricano contenuti per addestrare futuri modelli linguistici. Crawler di navigazione (OAI-SearchBot, PerplexityBot, ClaudeBot) alimentano i risultati di ricerca IA in tempo reale e possono generare traffico di riferimento al tuo sito.

Molti publisher bloccano i crawler di addestramento per proteggere i loro contenuti, permettendo però i crawler di navigazione per mantenere visibilità nelle ricerche basate su IA. Le principali aziende IA — OpenAI, Anthropic, Google, Perplexity — hanno dichiarato pubblicamente di rispettare il robots.txt.

Casi d'Uso Comuni

  • Bloccare la navigazione a faccette: I siti e-commerce generano migliaia di URL quasi duplicate con filtri (?colore=rosso&taglia=M). Bloccare /*? evita lo spreco di budget di crawl.
  • Proteggere il pannello di amministrazione: Disallow: /admin/ e Disallow: /wp-login.php impediscono il crawling delle pagine amministrative.
  • Dichiarare la sitemap: Includere Sitemap: https://esempio.it/sitemap.xml nel robots.txt aiuta tutti i crawler a scoprire la tua sitemap automaticamente.
  • Protezione dei contenuti IA: I publisher di notizie, ricerche o contenuti creativi bloccano i crawler di addestramento per proteggere il loro lavoro dall'uso non compensato nei modelli IA.
  • Ottimizzazione del budget di crawl: I siti grandi (10K+ pagine) beneficiano del blocco di contenuti di basso valore affinché i crawler spendano il budget sulle pagine importanti.

Errori Comuni con robots.txt

  • Bloccare pagine che vuoi indicizzare: Disallow: /blog/ impedisce a Googlebot di esplorare tutto il tuo blog. Usa Disallow solo per ciò che non deve davvero essere crawlato.
  • Confondere crawling e indicizzazione: Un URL bloccato può comunque apparire nei risultati di ricerca se i motori di ricerca lo conoscono tramite link esterni. Per impedire l'indicizzazione, usa <meta name="robots" content="noindex"> sulla pagina.
  • Lo slash finale conta: Disallow: /admin blocca solo il percorso esatto /admin. Disallow: /admin/ blocca /admin/ e tutte le sottodirectory.
  • Bloccare CSS e JavaScript: Google usa l'HTML renderizzato (incluso CSS/JS) per valutare la qualità delle pagine. Bloccare questi file può danneggiare il posizionamento.

Domande Frequenti

Come blocco tutti i bot IA con robots.txt?

Aggiungi un blocco User-agent separato per ogni crawler IA con Disallow: /. Ad esempio: User-agent: GPTBot seguito da Disallow: /. Ripeti per: OAI-SearchBot, Google-Extended, anthropic-ai, ClaudeBot, CCBot, PerplexityBot, Bytespider, Applebot-Extended e Amazonbot. Usa il toggle „Block All" in questo generatore per aggiungere tutti con un clic.

Bloccare GPTBot impedisce a ChatGPT di usare i miei contenuti?

Bloccare GPTBot (il crawler di addestramento di OpenAI) può ridurre la presenza dei tuoi contenuti nei futuri dati di addestramento di ChatGPT. Bloccare OAI-SearchBot è una decisione separata — è il crawler che alimenta la modalità di navigazione in tempo reale di ChatGPT e può generare traffico di riferimento. Le principali aziende IA affermano di rispettare il robots.txt, ma la conformità è volontaria.

Qual è la differenza tra robots.txt e i meta robots?

robots.txt controlla il crawling — se un bot accede all'URL. I tag meta robots (<meta name="robots" content="noindex">) controllano l'indicizzazione — se il contenuto appare nei risultati di ricerca. Un URL bloccato può comunque apparire indicizzato se i motori di ricerca lo conoscono tramite link esterni.

Cos'è llms.txt?

llms.txt è una convenzione proposta dalla comunità nel 2025 per comunicare ai sistemi IA la struttura e il contenuto del tuo sito. Mentre robots.txt indica cosa evitare, llms.txt è una guida curata — elenca le tue pagine più importanti e indica come l'IA dovrebbe fare riferimento ai tuoi contenuti. Si trova in esempio.it/llms.txt. Non ancora uno standard ufficiale W3C, ma l'adozione è in crescita.

robots.txt influisce sul SEO?

Indirettamente, sì. Bloccare pagine non necessarie — pannelli di amministrazione, contenuti duplicati da parametri URL, navigazione a faccette, pagine di accesso — aiuta i motori di ricerca a concentrare il loro budget di crawl sui contenuti importanti. Questo può portare a un'indicizzazione più rapida delle nuove pagine sui grandi siti. Non bloccare mai pagine che vuoi indicizzare; usa noindex per questo.

Risorse

Strumenti correlati