|
|
|
|
robot exclusion standard
|
standard per l'esclusione di alcune aree del sito dall'attività di un robot
|
Un documento stilato nella sua forma finale il 30 giugno 1994 a cui aderisce
la maggior parte degli autori di robot. Ha lo scopo di definire un meccanismo
che consenta ai gestori dei server Web di limitare l'invadenza dei robot,
indicando in modo esplico le aree non accessibili all'interno del sito.
L'iniziativa ha preso lo spunto dal verificarsi, nel 1993 e nel 1994,
di vari casi d'invadenza nociva. Un esempio e quello si server che sono
stati messi in ginocchio dai robot che richiedevano documenti a raffica
(rapid-fire), oppure che continuavano a recuperare sempre il medesimo
documento (per un proprio difetto di progettazione). Un altro caso è quello
in cui il robot recuperava documentazione temporanea o duplicata. Il metodo
d'interdizione consiste nel far generare all'amministratore del server
un file che specifichi le regole di accesso per i robot entranti. Il file
si chiama robots.txt e deve essere accessibile mediante protocollo HTTP
(HyperText Transfer Protocol) sul locale URL (Uniform Resource Locator)
subito sotto la radice, ad esempio www.miol.it/robots.txt. Al robot basta
recuperare questo singolo testo per sapere come regolarsi all'interno
del sito. Il file contiene uno o più record, ciascuno separato da un ritorno
a capo e da almeno una riga vuota. Il record contiene a sua volta diversi
campi che indicano il nome del robot a cui le righe che seguono si riferiscono
e le porzioni di sito che il robot deve evitare. La sintassi è campo:valore
con un eventuale spazio dopo i due punti. Nel digitare il nome del campo
bisogna rispettare maiuscole e minuscole. Gli eventuali commenti vengono
preceduti dal simbolo di cancelletto # mentre l'asterisco * costituisce
il classico carattere jolly onnicomprensivo. Il record inizia con una
o più righe corrispondenti ad altrettanti campi di tipo User-agent in
cui si indica il particolare robot a cui le istruzioni che seguono sono
riferite (il carattere * estende l'efficacia a tutti i robot che rispettano
questa convenzione). Seguono una o più righe corrispondenti al campo Disallow
in cui si specificano le aree vietate del sito. Esempio di file robots.txt
per il sito www.miol.it Useragent: * Disallow: /help # file di aiuto
Disallow: /tmp/ # aree temporanee In questo caso tutti i robot devono
seguire le indicazioni specificate dalle due righe precedute da Disallow.
Nella prima riga vengono esclusi tutti i file contenuti nella directory
/help e tutte le relative sottodirectory oltre che i file di queste ultime
(tutti gli URL che corrispondono a queste indicazioni di percorso). Nella
seconda riga vengono esclusi tutti i file contenuti nelle sottodirectory
che dipendono da /tmp, ma non i file che si trovano nella directory /tmp.
Dovete sempre indicare almeno un valore per User-agent e almeno un valore
per Disallow, altrimenti il file robots.txt è inutile. Altro esempio:
User-agent: Lycos Disallow: User-agent: MOMspider Disallow: /tmp Disallow:
/help User-agent: * Disallow: / Secondo le definizioni di questo secondo
esempio di file robots.txt lo spider Lycos ha libero accesso a tutte le
risorse del sito, lo spider MOM è tagliato completamente fuori, visto
che non può accedere a nessun documento che sia al di sotto della radice
del sito, tutti gli altri robot sono diffidati dal curiosare nelle directory
/tmp e /help.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|