Nuovi motori di ricerca per indicizzare il “Web profondo”

Web e Business     Autore: Alessandro Crea Aggiungi un commento

Vi siete mai chiesti quanto sia realmente “profondo” il Web, quanti siano cioè davvero i siti e le informazioni ospitate nei meandri di Internet e quante invece riusciamo a conoscerne e a consultare in realtà, tramite l’indicizzazione compiuta dai motori di ricerca? La risposta è semplice: meno del 10 %, se si fa riferimento ai migliori motori di ricerca presenti in rete, come Google o Yahoo!. Tutto il resto giace inesplorato in profondità, un enorme giacimento di informazioni che nessuno conosce e che nessuno sfrutta. Ma non per molto ancora: alcuni progetti stanno infatti lavorando a nuovi motori di ricerca in grado di ragionare come la mente umana e di recuperare più informazione.

Ciò che ci è proposto dai migliori motori di ricerca attuali non è che la punta dell’iceberg dell’informazione totale disponibile in rete, oltre il 90 % resta inconsultabile e irraggiungibile. Informazioni come quelle archiviate e organizzate in database, contenuti consultabili soltanto su siti protetti da password, o ancora pubblicazioni di varia natura, magari in PDF, che non sono mai state linkate da nessuno, questo è l’enorme giacimento di conoscenza inaccessibile ai comuni motori. Ma perché?

Ogni giorno i più importanti motori di ricerca setacciano il Web in cerca di dati da indicizzare. Per fare questo semplicemente seguono i link presenti in rete, tramite dei software specifici, chiamati “spider” o “crawler”. Questi programmi non fanno altro appunto che ricostruire i rapporti tra le varie pagine attraverso i link, suggerendo poi i risultati più rilevanti esclusivamente sulla base del numero e del tipo di link che puntano a quelle pagine: come a dire in pratica che ci suggeriscono ciò che è più “citato” in rete. Se però c’è un’informazione cui, per un qualsiasi motivo, non punta alcun link, ecco che quell’informazione non sarà indicizzata, ma la mancanza di link non significa che si tratti di informazione scadente o irrilevante.

Per capire la natura di quello che non è attualmente consultabile, l’azienda Bright Planet ha svolto un’indagine nel 2001, da cui è risultato che il 54 % di quella parte di Web sconosciuta è composta da informazioni che si ottengono solo ponendo un certo tipo di domande, ad esempio quando l’utente cerca l’orario di un volo.

La differenza tra la natura di questo tipo di informazioni e i modi in cui sono indicizzati i contenuti attuali spiega il perché essi non emergano mai: semplicemente i motori di ricerca attuali ragionano in maniera diversa e pongono, per così dire, la domanda sbagliata.

Tuttavia l’interesse che questa “foresta vergine” di sapere offre in potenza è enorme e anche giganti come Google o Yahoo! hanno allo studio soluzioni per riuscire ad esplorarla. Ma non sono i soli, ci sono anche nuovi progetti con lo stesso scopo. E’ il caso ad esempio di Kosmix, start-up nata a tale fine e che annovera tra i propri investitori anche gente del calibro di Jeffrey Bezos, amministratore delegato di Amazon, o l’ancora più interessante DeepPeep, progetto dell’Università dello Utah capeggiato dalla professoressa Juliana Freire. Esso sarebbe basato su un algoritmo innovativo, capace di simulare il modo in cui ragiona la mente umana e perciò potenzialmente in grado di porre la domanda giusta, evitando di indicizzare solo le pagine verso cui esiste un link. Infine c’è il progetto Openarchives.org, promotore del protocollo OAI-PMH, con cui si cerca di indicizzare i documenti sui motori di ricerca inviando loro metadati in formato Xml, cos’ da cercare di raggiungere anche i siti senza un link.

Per ora comunque questi enormi universi giacciono ancora deserti e inesplorati, chissà cosaci potranno offrire il giorno in cui i primi pionieri, inevitabilmente, prima o poi inizieranno a solcarne i cieli.

Fonte

Condividi su:
  • Segnalo
  • Wikio IT
  • Google Bookmarks
  • Live
  • Facebook
  • MySpace
  • LinkedIn
  • Technorati
  • Digg
  • del.icio.us
  • Print this article!
  • E-mail this story to a friend!
Articoli correlati:

4 Commenti

  1. toast

    Se e’ inacessibile e’ xche’ c’e’ il coopyright o sono documenti riservati….

  2. roberto piras

    sono perfettamente d’accordo con quanto scritto sopra.

  3. Stefano

    Un interessante punto di vista su un aspetto poco trattato. In effetti navigando questi motori si ha come l’impressione che dalle ricerche scaturisca più o meno sempre lo stesso “mondo” e evidentemente ne esiste uno molto più vasto praticamente introvabile. Molto interessante…

  4. giovanni

    secondo me bisognerebbe dicotomizzare all’inizio della ricerca dove si vende qualcosa e dove no

Lascia un commento

*
To prove you're a person (not a spam script), type the security word shown in the picture. Click on the picture to hear an audio file of the word.
Click to hear an audio file of the anti-spam word

Tema & Icone by N.Design Studio – modificato da Terry Labunda
Entries RSS Comments RSS Collegati