La Trinakria - Il sito siciliano dell'informazione

Segnala errore sito

Indietro

robot

Un programma che attraversa automaticamente la struttura ipertestuale del World Wide Web recuperando un documento e successivamente recuperando in maniera ricorsiva tutti i documenti che vi sono collegati. La ricorsività non implica la presenza di un particolare algoritmo di attraversamento. Anche qualora il robot applicasse qualche genere di regola alla selezione dei documenti che deve visitare e all'ordine con cui li deve visitare, distanziando le visite su un lungo periodo di tempo, resterebbe pur sempre un robot. I normali browser non sono robot in quanto vengono gestiti dall'uomo e non recuperano i documenti referenziati in modo automatico (l'automatismo si limita in questo caso al recupero delle immagini che sono collegate alla pagina HTML che viene visualizzata). Altri nomi usati per questo genere di programmi sono Web wanderer (vagabondo), Web crawler (liberamente traducibile con millepiedi) o spider (ragno), tuttavia questi altri nomi suggeriscono l'idea che il programma viaggi sulla rete, come se fosse un virus, quando invece si limita a recuperare documenti da questa, depositandoli nella macchina sulla quale opera. Il lavoro dei robot viene utilizzato dai motori di ricerca per recuperare documenti e indirizzi di siti (URL - Uniform Resource Locator) che soddisfano la richiesta formulata dall'utente. I robot possono aumentare sensibilmente il traffico sulla rete e soffrono del problema che, in virtù della loro costante ricerca metodica, accumulano un'enorme quantità d'informazioni non e perciò una successiva ricerca nel loro database può produrre risposte in eccesso. Vanno bene quando si cerca qualcosa di difficile reperibilità o non ci si preoccupa di dover esaminare un gran numero di risposte. Esistono alcuni servizi di ricerca commerciali basati su robot che offrono una catalogazione degli argomenti, così da meglio focalizzare la ricerca. Ogni robot usa un metodo diverso per attraversare il Web, ma quasi tutti fanno riferimento a una lista storica di URL, in particolare a quei documenti che contengono al loro interno un gran numero di riferimenti ad altri siti, ai documenti che segnalano tutte le novità su Internet e ai più popolari tra i servizi disponibili sulla Rete. Nella maggior parte dei casi è anche possibile segnalare manualmente la nascita di un nuovo sito: il robot inserirà l'URL relativo in coda e, non appena pronto, verrà a visitarlo. Una volta arrivato, passerà in rassegna in vari documenti indicizzandone il titolo e memorizzandolo nel proprio database. Spesso vengono anche indicizzati i primi paragrafi del documento e talvolta l'intero documento, con diversi pesi assegnati alle sue varie parti, identificate attraverso la decodifica dei marcatori HTML (si predilige l'impiego delle anchor vale a dire dei puntatori ipertestuali ad altri documenti). Il marcatore META, usato da HTML versione 3.0 e invisibile sulla pagina utente, contiene informazioni che aiutano a classificare il contenuto del documento (autore, categorie di argomenti trattate) e viene indicizzato da alcuni robot. Un robot mal progettato può generare un elevato volume di traffico sulla rete e sul server, mandando quest'ultimo in sovraccarico e magari anche in tilt. Un qualsiasi errore del progettista si propaga su tutta la rete in modo automatico e per contenere i possibili effetti dannosi è stato definito un sistema per limitare questi rischi: robot exclusion standard.

Indietro