motóre di ricérca

programma che consente di trovare uno specifico dato all'interno di un data base, il motore di ricerca è diventato la principale risorsa per il reperimento semplice e immediato delle informazioni sulla rete Internet. I motori di ricerca, o anche detti in inglese search engines, si basano su due differenti criteri di gestione delle informazioni presenti sul World Wide Web: per indici e per directory. I primi sono enormi data base, che contengono dati strutturati, relativi a milioni di pagine web o articoli di vari newsgroup. Questi motori di indicizzazione sono aggiornati dai cosiddetti spider o robot, software che esplorano continuamente la rete, raccogliendo i fattori di riconoscimento di ciascun documento, organizzati, poi, dal motore di ricerca in modo tale da consentire una ricerca per parole, più o meno complessa, attraverso l'utilizzo anche degli operatori booleani. Veri e propri motori di indicizzazione sono i noti Altavista e Hot Bot. I motori di ricerca per directory si avvalgono, invece, di elenchi ipertestuali di siti, organizzati gerarchicamente per categorie e sottocategorie. Questi, dunque, classificano solo i singoli siti, indipendentemente dalle pagine contenute, permettendo di effettuare una ricerca per parola chiave oppure partendo da macrocategorie. A differenza degli indici, la directory è frutto di una catalogazione umana delle risorse presenti su Internet e contiene, la maggior parte delle volte, suggerimenti o recensioni di siti. Capostipite di questi ultimi motori di ricerca è Yahoo! Si sono anche diffusi meta-crawler, in grado di compiere le ricerche simultaneamente su più motori e riportare i risultati forniti da ognuno di essi. Questo tipo di strumenti si è particolarmente sviluppato in relazione alla diffusione dell'e-commerce per identificare i siti che offrono condizioni più vantaggiose per particolari merci o servizi, per esempio tariffe aeree. Il panorama dei motori di ricerca è stato rivoluzionato all'inizio del 2000 da Google. Esso si basa sull'introduzione dei concetti di autorità e di hub e sulla considerazione dei link presenti in una pagina, come criteri di classificazione delle pagine e della loro rilevanza per una ricerca. Un'autorità su un soggetto è quindi una pagina o un sito a cui molte altre pagine, presenti su altri siti, che riguardino il soggetto in considerazione, fanno riferimento. Viceversa, un hub è una pagina o un sito contenente molti riferimenti esterni. In questo modo anche pagine che non comprendono direttamente una parola chiave possono essere rilevanti per una ricerca. Essi saranno quindi ritrovati perché riferiti a hub considerati importanti per un argomento o perché rivestono un ruolo da autorità per quell'argomento. Google è rapidamente diventato il motore di ricerca più popolare sulla rete, conquistando nel 2004 una quota di quasi il 25% rispetto a tutte le ricerche effettuate sulla rete. L'efficacia del suo algoritmo ha però fatto nascere studi su come posizionare un sito fra le prime pagine di risultati (si è verificato che in genere un utente non considera risultati oltre i primi 50 presentati in ordine di priorità). Queste tecniche vanno dalla semplice ripetizione di parole chiave all'interno di una pagina, alla costruzione di reti di rimandi reciproci, alla creazione di link verso autorità o hub. L'algoritmo di Google si è quindi continuamente adattato per evitare di considerare siti che utilizzino queste tecniche. Altri studi hanno messo in evidenza come Google non offra una copertura completa della rete, rischiando quindi di rendere alcuni argomenti inaccessibili a navigatori che compiono le loro ricerche unicamente con Google. Una limitazione della presentazione dei risultati di Google è di essere forniti in modo semplicemente sequenziale, senza raggruppamenti logici, spesso inframmezzando risultati effettivamente rilevanti per una ricerca con altri completamente non correlati. A questa limitazione ha risposto Vivisimo, un motore di ricerca sviluppato nel 2000 presso la Carnegie Mellon University che alla tradizionale presentazione sequenziale affianca una organizzazione in cluster dei risultati, dove un cluster è formato da siti che hanno connessioni fra loro o con determinati siti. All'utente vengono quindi presentati gli argomenti che caratterizzano un cluster, in modo da orientarlo verso l'insieme di risultati più probabilmente significativo.

Quiz

Mettiti alla prova!

Testa la tua conoscenza e quella dei tuoi amici.

Fai il quiz ora