Robots.txt Robots.txt Robots.txt Robots.txt Robots.txt

Presentazione del file robots.txt

Il file robots.txt è un file di testo che contiene dei comandi destinati a dei robot di indicizzazione dei motori di ricerca per precisare loro le pagine che possono o meno essere indicizzate. Così ogni motore di ricerca comincia l'esplorazione di un sito web cercando il frobots.txt nel root del sito.

Formato del file robots.txt

Il file robots.txt (scritto in minuscolo e al plurale) è un file ASCII che si trova nel root del sito e contiene i seguenti comandi&mnsp;:

  • User-Agent: precisa il robot interessato dalle direttive seguenti. Il valore * significa "tutti i motori di ricerca".
  • Disallow: indica le pagine da escludere dall'indicizzazione. Ogni pagina o percorso da escludere deve essere su una linea a parte e cominciare con /. Il valore / da solo significa "tutte le pagine del sito".

Attenzione Il file robots.txt non deve contenere nessuna linea vuota!

Ecco un esempio di file robots.txt :

  • Esclusione di tutte le pagine :
    User-Agent: *
    Disallow: /
  • Esclusione di nessuna pagina (equivalente all'assenza di file robots.txt, tutte le pagine sono visitate( :
    User-Agent: *
    Disallow: 
  • Autorizzazione di un solo robot  :
    User-Agent: nomeDelRobot
    Disallow :
    User-Agent: *
    Disallow: /
  • Esclusione di un robot :
    User-Agent: NomeDelRobot
    Disallow: /
    User-Agent: *
    Disallow:
  • Esclusione di una pagina :
    User-Agent: *
    Disallow: /cartella/percorso/pagina.html
  • Esclusione di più pagine :
    User-Agent: *
    Disallow: /cartella/percorso/pagina.html
    Disallow: /cartella/percorso/pagina2.html
    Disallow: /cartella/percorso/pagina3.html
  • Esclusione di tutte le pagine di una cartella e delle sue sotto cartelle :
    User-Agent: *
    Disallow: /cartella/

Alcuni User-Agent

Ecco qualche esempio di User-Agent per i motori di ricerca più famosi :

Nome del motore User-Agent
Alta Vista Scooter
Excite ArchitextSpider
Google Googlebot
HotBot Slurp
InfoSeek InfoSeek Sidewinder
Lycos T-Rex
Voilà Echo

Per ulteriori informazioni

The web robots page

Ultime modificazione ilvenerdì 6 febbraio 2009 alle 16:52:00.Questo documento intitolato «  » da Kioskea (it.kioskea.net) è reso disponibile sotto la licenza Creative Commons. È possibile copiare, modificare le copie di questa pagina, alle condizioni previste dalla licenza, come questa nota appare chiaramente.

Migliori risposte per « Robots.txt » in :
Rullano i tamburi per la prima orchestra robotica di gamelan Vedi NEW YORK (Reuters) - Che cosa si ottiene mischiando un cyborg con un set di strumenti antichi indonesiani? Un GamelaTron, ovviamente. L'amore per la musica e il fascino per la robotica...
Formati e estensioni di file VediChe cos'è un tipo MIME? Il tipo MIME (Multipurpose Internet Mail Extensions) è uno standard che è stato proposto dai laboratori Bell Communications nel 1991 per estendere le possibilità della posta elettronica (mail), cioè permettere di inserire...
Norma V90 VediI modem a 56 Kbit/s La compagnia Rockwell ha presentato una nuova norma: la norma K56flex. Questa norma si pone in alternativa alla tecnologia X2 di US ROBOTICS.Essa permette di ottenere della capacità di banda dell'ordine di 56Kb/s su un...