Il file robots.txt è il primo file che Googlebot legge quando visita il tuo sito. Contiene le istruzioni su quali directory e pagine scansionare e quali ignorare. Un robots.txt configurato male può bloccare l'indicizzazione dell'intero sito (Disallow: /), impedire la scansione di risorse CSS e JavaScript necessarie per il rendering (Google vede una pagina diversa da quella che vedi tu), o sprecare crawl budget permettendo la scansione di migliaia di pagine inutili. Il paradosso: è uno dei file più importanti per la SEO e anche il più facile da configurare male.
Il file si trova alla root del dominio: tuodominio.com/robots.txt. Contiene regole User-agent (a chi si applicano) e Disallow/Allow (cosa è bloccato o permesso). Google rispetta il robots.txt per il crawling ma non per l'indicizzazione: se una pagina è bloccata da robots.txt ma ha backlink, Google potrebbe indicizzarla comunque (senza vederne il contenuto). Per impedire l'indicizzazione vera, serve il tag noindex. Il robots.txt controlla il crawling, non l'indicizzazione.
Durante lo sviluppo, molti installano WordPress con "Scoraggia i motori di ricerca" attivo (Impostazioni → Lettura). Questo aggiunge "Disallow: /" al robots.txt, bloccando l'intero sito. Se dimentichi di rimuoverlo al lancio, il sito resta invisibile a Google per settimane o mesi prima che qualcuno se ne accorga. È il disastro SEO più comune e più evitabile. Verifica subito: apri tuodominio.com/robots.txt e controlla che NON ci sia "Disallow: /".
Bloccare /wp-admin/ è corretto (Google non deve scansionare il pannello admin). Ma admin-ajax.php è dentro /wp-admin/ e viene usato da molti temi e plugin per caricare contenuto nel frontend. Bloccarlo può impedire a Google di vedere contenuto caricato via AJAX. La regola corretta: Disallow: /wp-admin/ seguita da Allow: /wp-admin/admin-ajax.php.
Alcune configurazioni bloccano /wp-content/themes/ o /wp-content/plugins/. Questo impedisce a Google di accedere ai file CSS e JavaScript necessari per renderizzare la pagina. Google vede una pagina senza stile e senza interattività — molto diversa da quella che l'utente vede. Il Mobile-Friendly Test di Google mostrerà una pagina rotta. Mai bloccare CSS e JS nel robots.txt.
Il robots.txt può (e dovrebbe) includere il percorso della sitemap con la direttiva Sitemap: https://tuodominio.com/sitemap_index.xml. Questo aiuta tutti i motori di ricerca (non solo Google) a trovare la sitemap automaticamente. Molte installazioni WordPress non includono questa direttiva perché i plugin SEO la gestiscono separatamente, ma è buona pratica averla in entrambi i posti.
Più plugin che modificano il robots.txt possono creare regole duplicate o contraddittorie. Una regola Allow seguita da una Disallow sullo stesso percorso: quale vince? Google applica la regola più specifica, ma il comportamento può essere imprevedibile con regex e pattern complessi. Il robots.txt deve essere semplice, lineare, e mantenuto da un'unica fonte.
Per la maggior parte dei siti WordPress, 8-10 righe bastano: User-agent: * → Disallow: /wp-admin/ → Allow: /wp-admin/admin-ajax.php → Disallow: /wp-login.php → Disallow: /cart/ (se WooCommerce) → Disallow: /checkout/ (se WooCommerce) → Disallow: /my-account/ (se WooCommerce) → Sitemap: [url sitemap]. Nient'altro. Ogni riga aggiuntiva deve avere una ragione specifica e documentata. Fertilyze verifica il robots.txt nell'audit dei 29 check, segnala errori critici (Disallow: /, blocco CSS/JS), e suggerisce la configurazione ottimale per la tua installazione WordPress specifica.
I plugin SEO (Yoast, Rank Math) hanno un editor robots.txt integrato. Oppure puoi creare/modificare il file manualmente via FTP nella root del sito. WordPress genera un robots.txt virtuale se il file fisico non esiste: le modifiche in Impostazioni → Lettura influenzano quello virtuale. Se esiste un file fisico, quello virtuale viene ignorato.
No. Il robots.txt è un'istruzione volontaria: i motori di ricerca la rispettano, ma chiunque può leggere il file e accedere alle URL bloccate. Per proteggere contenuti: usa autenticazione (password) o restrizioni a livello server. Il robots.txt è per la gestione del crawling, non per la sicurezza.
Il tuo account LANGA ti connette a tutta la Galaxy.
Articoli completi su tutti i blog Galaxy.
Un solo login, accesso ovunque.
Guadagna Leghe e sblocca contenuti premium.