Technical SEO

Come configurare il robots.txt

9 min di lettura

Il tuo file robots.txt controlla quali parti del tuo sito possono accedere ai crawler dei motori di ricerca. Un robots.txt configurato male può bloccare l'indicizzazione di pagine importanti o sprecare il crawl budget su URL di scarso valore. Questa guida ti insegna come configurarlo correttamente, testarlo ed evitare le insidie comuni che danneggiano la SEO.

learn.sections.stepByStep

Understand Robots.txt Basics

Robots.txt is a plain text file at your site's root (example.com/robots.txt) that uses directives to guide crawlers. The two main directives are User-agent (which crawler the rule applies to) and Disallow (which paths to block). An empty or missing robots.txt means all crawlers can access everything.

Identify What to Block

Block URLs that waste crawl budget without providing SEO value: admin pages, internal search results, login areas, cart and checkout pages, print versions, and parameter-heavy filter URLs. Never block CSS, JavaScript, or image files that search engines need to render your pages correctly.

Write Your Robots.txt Rules

Start with User-agent: * to apply rules to all crawlers. Use Disallow for paths to block and Allow to create exceptions within blocked directories. Remember that rules are case-sensitive and use path matching with wildcards (*) and end-of-URL markers ($).

Add Your Sitemap Reference

Include a Sitemap directive pointing to your XML sitemap: Sitemap: https://example.com/sitemap.xml. This helps search engines discover your sitemap even if they haven't found it through other means. You can list multiple sitemaps if your site uses sitemap index files.

Test Before Deploying

Use Google Search Console's Robots.txt Tester to verify your rules before going live. Test specific URLs to confirm important pages are accessible and blocked pages return the expected result. A single misplaced rule can accidentally block your entire site.

Monitor Crawl Activity

After deploying, monitor the Crawl Stats report in Google Search Console to verify that crawl patterns match your intentions. Check that blocked URLs aren't appearing in search results and that important pages are being crawled at appropriate frequencies.

Comprendere le basi del robots.txt

Robots.txt è un file di testo semplice nella root del tuo sito (example.com/robots.txt) che usa direttive per guidare i crawler. Le due direttive principali sono User-agent (a quale crawler si applica la regola) e Disallow (quali percorsi bloccare). Un robots.txt vuoto o mancante significa che tutti i crawler possono accedere a tutto.

Identificare cosa bloccare

Blocca gli URL che sprecano il crawl budget senza fornire valore SEO: pagine admin, risultati di ricerca interni, aree di login, pagine carrello e checkout, versioni stampabili e URL di filtri pieni di parametri. Non bloccare mai file CSS, JavaScript o immagini necessari ai motori di ricerca per rendere correttamente le tue pagine.

Scrivere le regole del tuo robots.txt

Inizia con User-agent: * per applicare le regole a tutti i crawler. Usa Disallow per i percorsi da bloccare e Allow per creare eccezioni all'interno di directory bloccate. Ricorda che le regole sono case-sensitive e usano il path matching con caratteri jolly (*) e indicatori di fine URL ($).

Aggiungi il riferimento alla tua Sitemap

Includi una direttiva Sitemap che punti alla tua sitemap XML: Sitemap: https://example.com/sitemap.xml. Questo aiuta i motori di ricerca a scoprire la tua sitemap anche se non l'hanno trovata tramite altri mezzi. Puoi elencare più sitemap se il tuo sito utilizza file di indice delle sitemap.

Esegui un test prima del rilascio

Utilizza il Tester robots.txt di Google Search Console per verificare le tue regole prima di andare online. Testa URL specifici per confermare che le pagine importanti siano accessibili e che le pagine bloccate restituiscano il risultato atteso. Una singola regola fuori posto può bloccare accidentalmente l'intero sito.

Monitora l'attività di scansione

Dopo il rilascio, monitora il report Statistiche di scansione in Google Search Console per verificare che i pattern di scansione corrispondano alle tue intenzioni. Controlla che gli URL bloccati non appaiano nei risultati di ricerca e che le pagine importanti vengano scansionate con la frequenza appropriata.

Consigli pro

Robots.txt blocks crawling but not indexing. If a blocked page has external backlinks, Google may still index the URL (just without content). Use noindex meta tags to prevent indexing.
Use the $ end-of-string character to block specific file types: Disallow: /*.pdf$ blocks all PDFs without affecting other URLs containing '.pdf' in the path.
Keep your robots.txt simple. Complex rules with many exceptions are hard to maintain and easy to break. If you find your robots.txt growing beyond 20-30 lines, consider using noindex tags instead.
Il file robots.txt blocca la scansione, ma non l'indicizzazione. Se una pagina bloccata ha dei backlink esterni, Google potrebbe comunque indicizzare l'URL (semplicemente senza contenuti). Usa i meta tag noindex per impedire l'indicizzazione.
Usa il carattere $ di fine stringa per bloccare tipi di file specifici: Disallow: /*.pdf$ blocca tutti i PDF senza influenzare altri URL che contengono '.pdf' nel percorso.
Mantieni il tuo robots.txt semplice. Regole complesse con molte eccezioni sono difficili da mantenere e facili da rompere. Se noti che il tuo robots.txt supera le 20-30 righe, valuta l'uso dei tag noindex.

Errori comuni da evitare

Blocking CSS and JavaScript files

Google needs to render your pages to evaluate them properly. Blocking CSS or JS files prevents rendering, which means Google sees a broken page. Never block resources needed for page rendering.

Using robots.txt to hide sensitive content

Robots.txt is publicly accessible -- anyone can read it. Using it to hide admin panels or private directories actually advertises their existence. Use authentication and noindex for truly private content.

Accidentally blocking the entire site

A single 'Disallow: /' under 'User-agent: *' blocks every crawler from your entire site. This can happen during development or migration. Always double-check that no broad rules are accidentally active on production.

Bloccare file CSS e JavaScript

Google deve eseguire il rendering delle tue pagine per valutarle correttamente. Bloccare file CSS o JS impedisce il rendering, il che significa che Google vede una pagina rotta. Non bloccare mai le risorse necessarie per il rendering della pagina.

Usare robots.txt per nascondere contenuti sensibili

Il file robots.txt è accessibile pubblicamente: chiunque può leggerlo. Usarlo per nascondere pannelli di amministrazione o directory private ne rivela l'esistenza. Usa l'autenticazione e il noindex per contenuti veramente privati.

Bloccare accidentalmente l'intero sito

Un singolo 'Disallow: /' sotto 'User-agent: *' blocca ogni crawler dall'intero sito. Questo può accadere durante lo sviluppo o la migrazione. Controlla sempre che non ci siano regole generali attive per errore in produzione.

Come Keyword Kick semplifica il processo

Interactive robots.txt generator with preset templates for common CMS platforms
Site audit checks that flag robots.txt issues including blocked important resources
Crawlability analysis showing which pages are blocked and whether that's intentional
Generatore interattivo di robots.txt con modelli preimpostati per le piattaforme CMS più diffuse
Controlli di audit del sito che segnalano problemi nel robots.txt, incluse risorse importanti bloccate
Analisi della crawlability che mostra quali pagine sono bloccate e se tale azione è intenzionale

learn.sections.faq

Is robots.txt required for SEO?

No, it's not required. Without a robots.txt file, search engines will crawl everything they can find. You only need one if you want to block specific sections from crawlers or if your site is large enough that you need to manage crawl budget.

Does robots.txt prevent pages from appearing in search results?

Not reliably. Robots.txt prevents crawling, but Google may still index the URL if it finds links pointing to it. The indexed result will show the URL and title but no description. Use a noindex meta tag to fully prevent search appearance.

How often do search engines check robots.txt?

Google typically caches your robots.txt for up to 24 hours. Changes may not take effect immediately. If you need Google to re-fetch it urgently, you can use the Robots.txt Tester in Search Console to request a refresh.

Il file robots.txt è obbligatorio per la SEO?

No, non è obbligatorio. Senza un file robots.txt, i motori di ricerca scansioneranno tutto ciò che riescono a trovare. Ne hai bisogno solo se desideri bloccare sezioni specifiche dai crawler o se il tuo sito è abbastanza grande da dover gestire il budget di scansione.

Il file robots.txt impedisce alle pagine di apparire nei risultati di ricerca?

Non in modo affidabile. Il file robots.txt impedisce la scansione, ma Google potrebbe comunque indicizzare l'URL se trova link che puntano ad esso. Il risultato indicizzato mostrerà l'URL e il titolo ma nessuna descrizione. Usa un meta tag noindex per impedire completamente la comparsa nella ricerca.

Quanto spesso i motori di ricerca controllano il file robots.txt?

Google solitamente memorizza nella cache il tuo robots.txt fino a 24 ore. Le modifiche potrebbero non avere effetto immediato. Se hai bisogno che Google lo riacquisisca urgentemente, puoi utilizzare il Tester robots.txt in Search Console per richiederne l'aggiornamento.

learn.cta.button