Guida al file Robots.txt

Cos’è il File robots.txt

Il file robots.txt è il sistema più semplice per comunicare con i robot dei motori di ricerca che scansionano il nostro sito. Consiste in un file di testo composto da semplici istruzioni che indicano ai web bot quali aree o pagine non devono considerare ed escludere dalla scansione (ed è per questo che viene chiamato anche file di esclusione) evitandone così la possibile indicizzazione.

Creare il File robots.txt

Per la creazione di questo file è necessario generare un documento di testo con estensione .txt dal nome robots, in cui aggiungere i comandi che i web bot leggono prima di scansionare il nostro sito.

Comandi del file robots.txt

il file robots.txt dispone pochi e semplici comandi per istruire rapidamente gli spider che visitano il sito:

I comandi principali User-agent e Disallow

Il file robots di base è costituito da 2 parole chiave, User-agent e Disallow, termini che combinati assieme dicono a chi cosa NON deve fare, informando uno o più o spider di escludere una determinata pagina o area del sito.

User-agent identifica a quale crawler comunicare il comando Disallow.

Esempio:
User-agent Slurp, istruirà solo il crawler di YAHOO
User-agent Scooter, istruirà solo il crawler di ALTERVISTA

E’ possibile però istruire qualsiasi crawler che visita il sito con un’unica istruzione usando User-agent * che va ad indicare qualsiasi bot.

Disallow: è il comando che informa ai crawler quale pagina o area del sito escludere dalla scansione.

Esempio:
Disallow: /wp-admin/ informa di escludere tutto il contenuto della directory wp-admin
Disallow: / informa di escludere la directory principale del nostro sito e di conseguenza tutto il suo contenuto.

Permettere le eccezione con Allow

Esistono delle situazioni in cui si desidera che alcuni elementi contenuti in aree bloccate dal comando Disallow siano comunque accessibili ai bot. Con il comando Allow viene concesso l’accesso a pagine o sottodirectory contenute all’interno di una directory bloccata.

Esempio:
User-agent: * # comunico a tutti i bot che visitano il sito
Disallow: /utenti/ #di escludere dalla scansione la directory utenti
Allow: /utenti/io.php # permettono però l’accesso alla sola pagina io.php contenuta nella directory bloccata utenti.

Il comando Allow a senso di esistere nel file robots.txt solo in cascata al comando Disallow.

Segnalare la Sitemap

Per facilitare il lavoro dei crawler è buona prassi creare e comunicare la Sitemap del sito che si desidera far indicizzare. Per informare i crawler della posizione della Sitemap è possibile integrare all’interno del documento il codice che ne specifica indirizzo. Esempio:

Sitemap: https://www.manuelemorandin.net/sitemap_index.xml

che corrisponde all’indirizzo della Sitemap di questo sito.

Commenti

Anche nel file Robots.txt è prevista la possibilità di aggiungere dei commenti, cosi da rendere il codice più leggibile e chiaro ad un occhio umano senza però infastidire i bot, che ignorano tutte le diciture successive al simbolo “#”. Infatti attraverso il “#” è possibile aggiungere su un’unica linea del testo libero. Per fare comenti su più linee è sufficiente ripetere il simbolo “#” per ogni linea.

Esempio:
User-agent: * # comunico a tutti i bot che visitano il sito
Disallow: # nessuna limitazione a nessun bot

Comandi extra Request-rate e Visit-time

Tra i pochi e remoti aggiornamenti delle linee guida per il file robots, sono stati proposti due comandi che istruiscono i bot sui tempi di accesso al sito.

Request-rate: ha lo scopo di limitare il carico di lavoro dei bot sul sito attraverso l’indicazione di un valore che rappresenta il numero di pagine da visitare in un determinato tempo per evitare di sottoporre il server a picchi di lavoro, cosi da non riuscire più a gestire le connessioni degli utenti che in quel momento stanno visitando il sito.

Esempio:
User-agent: *
Request-rate: 1/10 #visita una pagina ogni 10 secondi

User-agent: *
Request-rate: 10/60 #visita 10 pagine ogni 60 secondi

Visit-time: invece serve per specificare un orario nel quale i bot possono scansionare il sito cosi da permettere di pianificare la visita in un momento in cui si presume che il sito non abbia molto traffico e i bot non sottraggano banda agli utenti che il quel momento stanno facendo la loro visita.

Esempio:
User-agent: *
Visit-time: 0000-0600 #visita dalle ore 00:00 alle ore 06:00

Dove posizionare il file robots.txt

Il file Robots.txt è il primo documento che un Crawler cerca prima di scansionare un sito e deve quindi risultare di facile e veloce accesso, le linee guida e i comportamenti dei bot indicano come unica possibile posizione accettata quella della directory principale del sito con il nome di Robots.txt. Un esmpio di url corretto è https://www.manuelemorandin.net/robots.txt. Posizionare il file robots in un’altra posizione o con un nome diverso renderà questo file inutile per istruire i bot.

Perchè usare il file robots.txt

il file Robots.txt non è un file obbligatorio e un sito web può ottenere e gestire le visite dei bot senza alcun problema anche in assenza di questo file, ma la possibilità di raccogliere in un unico documento le condizioni di esclusione di uno o più bot per una o più pagine facilitano il lavoro del webmaster.

I principali Robot / Crawler / Spider

In circolazione esistono molti crawler, i più comuni e noti sono quelli dei motori di ricerca, ma esistono anche crawler di enti scientifici o gruppi di sviluppatori appassionati. I più famosi user-agent sono:

Googlebot, del motore di ricerca Google, che conta almeno altri nove bot tra cui Googlebot-News,Googlebot-Image, Googlebot-Video, a questo indirizzo l’elenco completo https://support.google.com/webmasters/answer/1061943?hl=it,
Bingbot, il crawler di Microsoft utilizzato per il motore di ricerca Bing;
Slurp, robot del motore di ricerca Yahoo,
DuckDuckBot, del motore di ricerca DuckDuckGo, famoso per l’ottima gestione della privacy dei propri utenti,
Baiduspider, spider del motore di ricerca Baidu, primo motore di ricerca utilizzato in Cina,
YandexBot, utilizzato dal motore di ricerca Yandex, primo motore di ricerca utilizzato in Russia,
Ia_archiver, il crawler di Amazon per Alexa Internet Archive.

Esistono comunque molti altri robots e all’indirizzo http://www.robotstxt.org/db.html è possibile consultare un elenco con oltre 300 user-agent.

Commenta o inviami un messaggio attraverso la pagina contattami con la tua opinione o per avere precisazioni su questo articolo.

Cos’è il File robots.txt

Creare il File robots.txt

Comandi del file robots.txt

I comandi principali User-agent e Disallow

Permettere le eccezione con Allow

Segnalare la Sitemap

Commenti

Comandi extra Request-rate e Visit-time

Dove posizionare il file robots.txt

Perchè usare il file robots.txt

I principali Robot / Crawler / Spider

Consulenza SEO

Il progetto

Guida al File robots.txt

Cos’è il File robots.txt

Creare il File robots.txt

Comandi del file robots.txt

I comandi principali User-agent e Disallow

Permettere le eccezione con Allow

Segnalare la Sitemap

Commenti

Comandi extra Request-rate e Visit-time

Dove posizionare il file robots.txt

Perchè usare il file robots.txt

I principali Robot / Crawler / Spider

ARTICOLI CORRELATI

UTM Urchin Tracking Module

L’analisi della velocità nelle SERP

Rimuovere una pagina da Google ed impedirne l’indicizzazione

Consulenza SEO

Il progetto