Robots.txt

Presentazione del file robots.txt

Il file robots.txt è un file di testo che contiene dei comandi destinati a dei robot di indicizzazione dei motori di ricerca per precisare loro le pagine che possono o meno essere indicizzate. Così ogni motore di ricerca comincia l'esplorazione di un sito web cercando il frobots.txt nel root del sito.

Formato del file robots.txt

Il file robots.txt (scritto in minuscolo e al plurale) è un file ASCII che si trova nel root del sito e contiene i seguenti comandi&mnsp;:

  • User-Agent: precisa il robot interessato dalle direttive seguenti. Il valore * significa "tutti i motori di ricerca".
  • Disallow: indica le pagine da escludere dall'indicizzazione. Ogni pagina o percorso da escludere deve essere su una linea a parte e cominciare con /. Il valore / da solo significa "tutte le pagine del sito".

Attenzione Il file robots.txt non deve contenere nessuna linea vuota!

Ecco un esempio di file robots.txt :

  • Esclusione di tutte le pagine :
    User-Agent: *
    Disallow: /
  • Esclusione di nessuna pagina (equivalente all'assenza di file robots.txt, tutte le pagine sono visitate( :
    User-Agent: *
    Disallow: 
  • Autorizzazione di un solo robot  :
    User-Agent: nomeDelRobot
    Disallow :
    User-Agent: *
    Disallow: /
  • Esclusione di un robot :
    User-Agent: NomeDelRobot
    Disallow: /
    User-Agent: *
    Disallow:
  • Esclusione di una pagina :
    User-Agent: *
    Disallow: /cartella/percorso/pagina.html
  • Esclusione di più pagine :
    User-Agent: *
    Disallow: /cartella/percorso/pagina.html
    Disallow: /cartella/percorso/pagina2.html
    Disallow: /cartella/percorso/pagina3.html
  • Esclusione di tutte le pagine di una cartella e delle sue sotto cartelle :
    User-Agent: *
    Disallow: /cartella/

Alcuni User-Agent

Ecco qualche esempio di User-Agent per i motori di ricerca più famosi :

Nome del motore User-Agent
Alta Vista Scooter
Excite ArchitextSpider
Google Googlebot
HotBot Slurp
InfoSeek InfoSeek Sidewinder
Lycos T-Rex
Voilà Echo

Per ulteriori informazioni

The web robots page



Ultime modificazione ilvenerdì 6 febbraio 2009 alle 16:52:00


Questo documento intitolato «  » da Kioskea (it.kioskea.net) è reso disponibile sotto la licenza Creative Commons. È possibile copiare, modificare le copie di questa pagina, alle condizioni previste dalla licenza, come questa nota appare chiaramente.