|
|
|
|
robot
|
Un programma che attraversa automaticamente la struttura ipertestuale
del World Wide Web recuperando un documento e successivamente recuperando
in maniera ricorsiva tutti i documenti che vi sono collegati. La ricorsività
non implica la presenza di un particolare algoritmo di attraversamento.
Anche qualora il robot applicasse qualche genere di regola alla selezione
dei documenti che deve visitare e all'ordine con cui li deve visitare,
distanziando le visite su un lungo periodo di tempo, resterebbe pur sempre
un robot. I normali browser non sono robot in quanto vengono gestiti dall'uomo
e non recuperano i documenti referenziati in modo automatico (l'automatismo
si limita in questo caso al recupero delle immagini che sono collegate
alla pagina HTML che viene visualizzata). Altri nomi usati per questo
genere di programmi sono Web wanderer (vagabondo), Web crawler (liberamente
traducibile con millepiedi) o spider (ragno), tuttavia questi altri nomi
suggeriscono l'idea che il programma viaggi sulla rete, come se fosse
un virus, quando invece si limita a recuperare documenti da questa, depositandoli
nella macchina sulla quale opera. Il lavoro dei robot viene utilizzato
dai motori di ricerca per recuperare documenti e indirizzi di siti (URL
- Uniform Resource Locator) che soddisfano la richiesta formulata dall'utente.
I robot possono aumentare sensibilmente il traffico sulla rete e soffrono
del problema che, in virtù della loro costante ricerca metodica, accumulano
un'enorme quantità d'informazioni non e perciò una successiva ricerca
nel loro database può produrre risposte in eccesso. Vanno bene quando
si cerca qualcosa di difficile reperibilità o non ci si preoccupa di dover
esaminare un gran numero di risposte. Esistono alcuni servizi di ricerca
commerciali basati su robot che offrono una catalogazione degli argomenti,
così da meglio focalizzare la ricerca. Ogni robot usa un metodo diverso
per attraversare il Web, ma quasi tutti fanno riferimento a una lista
storica di URL, in particolare a quei documenti che contengono al loro
interno un gran numero di riferimenti ad altri siti, ai documenti che
segnalano tutte le novità su Internet e ai più popolari tra i servizi
disponibili sulla Rete. Nella maggior parte dei casi è anche possibile
segnalare manualmente la nascita di un nuovo sito: il robot inserirà l'URL
relativo in coda e, non appena pronto, verrà a visitarlo. Una volta arrivato,
passerà in rassegna in vari documenti indicizzandone il titolo e memorizzandolo
nel proprio database. Spesso vengono anche indicizzati i primi paragrafi
del documento e talvolta l'intero documento, con diversi pesi assegnati
alle sue varie parti, identificate attraverso la decodifica dei marcatori
HTML (si predilige l'impiego delle anchor vale a dire dei puntatori ipertestuali
ad altri documenti). Il marcatore META, usato da HTML versione 3.0 e invisibile
sulla pagina utente, contiene informazioni che aiutano a classificare
il contenuto del documento (autore, categorie di argomenti trattate) e
viene indicizzato da alcuni robot. Un robot mal progettato può generare
un elevato volume di traffico sulla rete e sul server, mandando quest'ultimo
in sovraccarico e magari anche in tilt. Un qualsiasi errore del progettista
si propaga su tutta la rete in modo automatico e per contenere i possibili
effetti dannosi è stato definito un sistema per limitare questi rischi:
robot exclusion standard.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|