IL PROBLEMA DELLA RICERCA DI INFORMAZIONIsu Internet e sul web
IL PROBLEMA DELLA RICERCA DI INFORMAZIONIsu Internet e sul web
Internet e il Web rappresentano una risorsa informativa immensa, una delle più ricche ed eterogenee che siano mai state rese disponibili a un pubblico così vasto, eterogeneo e disperso quali gli utenti Internet attuali.
Tuttavia la natura e le caratteristiche di Internet sollevano problematiche rilevanti con riferimento alle modalità di ricerca e reperimento dell’informazione in rete.
Internet come “rete informativa”:uno schema
Le fonti di informazione Le risorse informative La “rete” Gli utenti
Può essere utile introdurre un semplice schema degli elementi fondamentali in gioco quando si parla di Internet come risorsa informativa.
Da un lato vi sono le fonti di informazione, qui intese come l’insieme dei soggetti (singoli individui, imprese, enti, istituzioni, ecc.) che mettono a disposizione contenuti informativi in rete.
I contenuti (le “risorse informative” della rete) possono avere forma di documenti di testo, ma anche molti altri formati. Le risorse informative vengono rese disponibili al pubblico attraverso la rete, ossia l’insieme dei calcolatori e delle applicazioni Internet (i server, i siti e le pagine web, i database, ecc.).
Infine vi sono gli utenti delle risorse informative, ossia i soggetti (privati, ricercatori, professionisti, o quant’altro) che effettuano ricerche in rete al fine di reperire il contenuto di cui hanno bisogno.
La rete Internet: alcuni caratteri distintivi
facilità d’accesso (per fonti e utenti)
varie modalità di accesso (rete dati, telefonica, satellite,…)
costi (relativamente) modesti
protocolli standard largamente diffusi
dimensione in continua espansionee potenzialmente “illimitata”
struttura non gerarchica
“link”ipertestuali
struttura “peer-to-peer”
ambiente dinamico e “ricco”
configurazione e struttura facilmente modificabile
supporto multimediale (informazioni “ricche”; elaborazioni)
varietà dei canali di comunicazione
possibile bidirezionalità
one to one, one to many, many to many, ecc.
Con riferimento allo schema introdotto, esaminiamo brevemente le caratteristiche fondamentali degli elementi in gioco, che rendono la rete un ambiente unico rispetto agli altri “media” esistenti.
Per quanto riguarda innanzitutto la rete Internet in quanto tale, essa rappresenta come è noto la prima rete di comunicazione globale che permettere a un’utenza potenzialmente vastissima di trasmettere, ricevere, comunicare, rendere disponibili contenuti informativi ricchi, articolati, multimediali, a costi sostanzialmente modesti e senza limitazioni geografiche.
La dimensione della rete, già oggi considerevole, è in continua espansione (v. lucido successivo). Un ulteriore dato importante riguarda il numero di utenti che accedono alla rete (saltuariamente o frequentemente), e che secondo alcune stime sarebbero già centinaia di milioni in tutto il mondo.
Una caratteristica importante della rete, che deriva dalla sua stessa struttura tecnica, è la sua organizzazione sostanzialmente non gerarchica (di tipo “peer-to-peer”), nella quale i nodi o utenti collegati risultano a un livello sostanzialmente paritario per quanto riguarda accessi e comunicazione in rete. Inoltre se consideriamo il World Wide Web, anche l’organizzazione delle diverse pagine Web non ha una struttura preordinata; anzi, i collegamenti ipertestuali fanno sì che da un nodo della rete sia possibile raggiungerne qualsiasi altro senza che vi siano percorsi obbligatori secondo livelli gerarchici predefiniti.
Data la faci...
Fonti e risorse di informazione su Internet
estrema eterogeneità delle fonti (istituzioni, aziende, singoli individui, ….)
estrema varietà delle informazioni (come contenuti, formati, ….)
collegamenti multidimensionali, multilivello, ridondanti (il “deep Web”)
assenza di censura/controllo
facilità di “aggiornamento”
varie modalità di fornitura (es: informazioni protette, a pagamento, libere, etc.)
Per quanto riguarda le fonti e le risorse informative, come detto Internet risulta un contenitore a cui si può avere accesso in modo estremamente facile, specialmente in confronto a tutti gli altri media esistenti; la facilità di inserimento e di aggiornamento consentono praticamente a chiunque di inserire in rete i propri contenuti in tempi rapidi e a costi quasi nulli. Inoltre gli aggiornamenti possono essere effettuati in tempi altrettanto rapidi e senza la necessità di procedure complesse.
Tutto ciò ha contribuito a determinare l’estrema eterogeneità sia delle fonti di informazione su Internet (che possono andare dal singolo individuo, alla grande multinazionale, all’istituzione nazionale o internazionale), sia dei tipi di contenuti in rete o del loro formato. I materiali disponibili sono talmente tanti e vari che si parla ormai di “information overload”, intendendo con questo termine il rischio di sovraccarico a cui è soggetto chi cerchi del materiale in rete.
Il meccanismo dei link ipertestuali favorisce la costruzione di connessioni tra contenuti diversi, il che aumenta ulteriormente la ricchezza informativa del mezzo, apre anche nuove opportunità di comunicazione, ma può anche rendere più complessa la navigazione.
Inoltre all’interno della stessa piattaforma Internet ciascuna fonte informativa può privilegiare le modalità di fornitura delle informazioni che preferisce - dall’accesso libero a quello protetto, dall’informazione gratuita a quella a pagamento.
Un’altra...
Il “deep Web”
Il livello più “interno” dell’informazione reperibile in Internet e/o tramite il World Wide Web:
i database e le banche dati accessibili da Internet
i file interni dei server
ecc.
Un cenno speciale va fatto al cosiddetto “deep Web”. Nel considerare Internet come risorsa di informazione spesso ci si limita agli aspetti più “superficiali” ossia più direttamente accessibili e conteggiabili: vale a dire ad esempio le pagine Web (o meglio ancora, le pagine Web dei primi livelli che sono più facilmente accessibili a un navigatore in Internet). Tuttavia, all’interno dei milioni di computer connessi in rete è disponibile in realtà infinitamente di più: i dati interni dei database, le banche dati, i file residenti in molti computer e che sono in molti casi accessibili da Internet e dal Web. Poniamo il caso di una banca dati (ad es. bibliografica) che viene consultata attraverso il Web. Utilizzando una parola chiave i dati richiesti (ad es. il testo di un articolo scientifico), reperiti all’interno del calcolatore che ospita la banca dati, vengono resi disponibili su Internet all’utente (ad esempio viene generata “dinamicamente” una pagina web che riporta le informazioni richieste, reperite all’interno della banca dati).
Fonte: Brightplanet
Se consideriamo tutti i dati accessibili in questo modo, possiamo parlare di “deep Web” intendendo tutto l’insieme delle informazioni potenzialmente disponibili su Internet effettuando una ricerca all’interno dei singoli database.
Si tratta di un bacino di informazioni la cui dimensione è pressoché impossibile da misurare, ma che secondo molti è presumibilmente molto più grande di ciò che è accessibile direttamente esaminando le pagine Web “statiche” direttamente consultabili con una navigazione.
Utenti delle informazioni su Internet
estrema eterogeneità dei fabbisogni informativi
tra utenti diversi
per lo stesso utente
diverse modalità di accesso
tempi, costi, disponibilità
numero crescente di “non specialisti”
Anche per gli utenti delle informazioni su Internet vi sono alcuni aspetti importanti da sottolineare.
Innanzitutto si tratta ormai di un pubblico estremamente eterogeneo, che esprime i fabbisogni informativi più disparati. Inoltre lo stesso utente generalmente ricerca in rete informazioni di tipo assai diverso tra loro.
Anche le modalità di accesso possono essere estremamente differenziate, in relazione alle disponibilità di tempo o denaro. Si può andare dall’utente specialista in grado magari di effettuare ricerche lunghe e onerose da postazioni di enti di ricerca, ai navigatori occasionali “da casa” che hanno necessità di effettuare ricerche rapide a basso costo.
Si assiste comunque alla progressiva modificazione delle tipologie di utenti che accedono alla rete. Dalle élite di specialisti che caratterizzavano i primi usi, con l’apertura al grande pubblico sta crescendo rapidamente la percentuale di utenti “non specialisti”, magari anche caratterizzati da livelli di istruzione non elevati, o comunque con competenze non sofisticate nell’uso del mezzo. Questo rende ancora più varie e articolate le modalità e le strategie di ricerca delle informazioni in rete che ciascun utente adotta.
Come reperire informazione? I motori di ricerca e i relativi problemi
Information Retrieval “classico”
Schema tipico del meccanismo dell’information retrieval in grandi database di documenti.
Un software analizza i testi e li “classifica” (indicizza) sulla base della frequenza con cui compaiono le parole nel testo. Viene creato un database che memorizza questi indici.
L’utente che sta cercando un determinato documento lancia una ricerca (“query”) inserendo le relative parole chiave da ricercare.
Il software ricerca il/i documento/i a cui corrisponde l’indice più elevato come frequenza di comparsa delle parole chiave, e restituisce la risposta all’utente.
I MOTORI DI RICERCA
Come dicevamo, i motori di ricerca sono stati progettati (almeno inizialmente) secondo una logica di “information retrieval”. Dispongono di un “generatore di indirizzi Web” che con determinate cadenze produce una lista di indirizzi entro i quali il motore ricercherà le pagine da esaminare. Un programma (denominato “spider”, oppure anche “robot”) effettua la visita automatica di tali siti e ne costruisce un’immagine “indicizzata” (basata sostanzialmente - con qualche differenza tra motore e motore - sul calcolo delle ricorrenze delle parole presenti). Alla richiesta dell’utente il motore restituisce gli indirizzi delle pagine prima esaminate con la ricorrenza maggiore delle parole.
Questo meccanismo di information retrieval applicato al Web ha alcuni limiti fondamentali. L’analisi delle ricorrenze appare un modo non sempre efficace per l’analisi dei siti, per la dimensione della rete e l’elevato dinamismo ed eterogeneità delle risorse informative, e della mancanza di una catalogazione.
Nessun motore di ricerca ha una copertura totale della rete (i migliori non supererebbero il 40% delle pagine esistenti), il che significa che in ogni caso gran parte del Web non risulta coperto (per non parlare del “profondo Web”). Per molti motori risulta poi difficoltosa la gestione dei “link alle sottopagine” (sono pochi i motori che analizzano non solo una data pagina ma anche le pagine a cui essa è collegata).
Inoltre per l’applicazione del metodo delle ricorrenze risulta ancora più com...
I problemi dei motori di ricerca
difficoltà di reperimento
mancanza di catalogazione
struttura non gerarchica
elevato dinamismo
mancanza di controllo d’accesso
varietà di formati
varietà di livelli (il “deep Web”)
QUINDI
il problema della COPERTURA INSUFFICIENTE
NESSUNO > 40% di pagine Web coperte (fonte: The Industry Standard)
Gli aspetti prima indicati hanno implicazioni dirette in termini di problemi che si pongono nella ricerca delle informazioni in Internet.
Al crescere della dimensione della rete e dell’eterogeneità dei formati aumenta evidentemente la difficoltà di reperimento di una data informazione in rete. Il reperimento è inoltre più difficile data l’assenza di catalogazione dei contenuti, oltre al fatto che questi possono trovarsi a livelli diversi nella rete (ad es. entro pagine interne di un sito, o nel deep web).
Ma anche nel caso in cui sia possibile reperire facilmente l’informazione, sorgono problemi relativamente alla qualità del contenuto trovato, sia per l’incertezza sul grado di aggiornamento di tale contenuto, sia per quanto riguarda le garanzie di affidabilità e reputazione di chi ha pubblicato tale contenuto.
Infine gli utenti stessi possono trovare difficile l’esplicitazione del proprio fabbisogno di informazione, così come la sua traduzione nell’appropriata strategia o procedura di ricerca in rete anche per evitare di cadere nella trappola dell’information overload; non esistono del resto modalità o procedure standard o ottimali che possano essere apprese e usate: in questo caso conta anche molto l’esperienza (e il tempo a disposizione).
Altri problemi dei motori di ricerca
modalità di ricerca troppo semplici
analisi delle ricorrenze non sufficiente
insufficiente gestione dei “link”
insufficiente gestione della varietà di formati
insufficiente gestione della lingua
difficoltà di ricerca da parte dell’utente
nell’esplicitare/formalizzare il bisogno informativo
nella messa a punto della “strategia di ricerca”
per l’assenza di procedure “ottimali” o standard
i motori di ricerca sono cambiati
come funzionano “veramente”
il problema dei siti sponsorizzati
Gli aspetti prima indicati hanno implicazioni dirette in termini di problemi che si pongono nella ricerca delle informazioni in Internet.
Al crescere della dimensione della rete e dell’eterogeneità dei formati aumenta evidentemente la difficoltà di reperimento di una data informazione in rete. Il reperimento è inoltre più difficile data l’assenza di catalogazione dei contenuti, oltre al fatto che questi possono trovarsi a livelli diversi nella rete (ad es. entro pagine interne di un sito, o nel deep web).
Ma anche nel caso in cui sia possibile reperire facilmente l’informazione, sorgono problemi relativamente alla qualità del contenuto trovato, sia per l’incertezza sul grado di aggiornamento di tale contenuto, sia per quanto riguarda le garanzie di affidabilità e reputazione di chi ha pubblicato tale contenuto.
Infine gli utenti stessi possono trovare difficile l’esplicitazione del proprio fabbisogno di informazione, così come la sua traduzione nell’appropriata strategia o procedura di ricerca in rete anche per evitare di cadere nella trappola dell’information overload; non esistono del resto modalità o procedure standard o ottimali che possano essere apprese e usate: in questo caso conta anche molto l’esperienza (e il tempo a disposizione).
Un ulteriore problema
problemi di qualità/affidabilità
grado di “aggiornamento” della pagina
mancanza di controllo
reputazione dei siti ….
…. o certificazione dei siti?
Altri problemi dei motori di ricerca
modalità di ricerca troppo semplici
analisi delle ricorrenze
insufficiente gestione dei “link”
insufficiente gestione della varietà di formati
insufficiente gestione della lingua
problemi di qualità/affidabilità
grado di “aggiornamento” della pagina
reputazione/certificazione dei siti, delle pagine
difficoltà di ricerca da parte dell’utente
nell’esplicitare/formalizzare il bisogno informativo
nella messa a punto della “strategia di ricerca”
per l’assenza di procedure “ottimali” o standard
Gli aspetti prima indicati hanno implicazioni dirette in termini di problemi che si pongono nella ricerca delle informazioni in Internet.
Al crescere della dimensione della rete e dell’eterogeneità dei formati aumenta evidentemente la difficoltà di reperimento di una data informazione in rete. Il reperimento è inoltre più difficile data l’assenza di catalogazione dei contenuti, oltre al fatto che questi possono trovarsi a livelli diversi nella rete (ad es. entro pagine interne di un sito, o nel deep web).
Ma anche nel caso in cui sia possibile reperire facilmente l’informazione, sorgono problemi relativamente alla qualità del contenuto trovato, sia per l’incertezza sul grado di aggiornamento di tale contenuto, sia per quanto riguarda le garanzie di affidabilità e reputazione di chi ha pubblicato tale contenuto.
Infine gli utenti stessi possono trovare difficile l’esplicitazione del proprio fabbisogno di informazione, così come la sua traduzione nell’appropriata strategia o procedura di ricerca in rete anche per evitare di cadere nella trappola dell’information overload; non esistono del resto modalità o procedure standard o ottimali che possano essere apprese e usate: in questo caso conta anche molto l’esperienza (e il tempo a disposizione).
Se i motori di ricerca non risolvono il problema, cosa si può fare?
La risposta tecnologica?
analisi del linguaggio naturale
agenti “intelligenti” di ricerca
il “semantic Web”
...
Al momento non sembra la soluzione
QUINDI?
Strategie (diverse) dei motori di ricerca
MOTORI DI RICERCA COME “OPERATORI BUSINESS” (INTERMEDIARI INFORMATIVI) Specializzazione (es. “www.scirus.com”)
integrazione (es. google)
o ancora sponsorizzazione
….
I principali modelli di riferimento per la ricerca di informazione nei grandi database documentali (e in particolare ci riferiamo ai tradizionali metodi di “information retrieval” classico) si dimostrano spesso inadeguati (per uno schema v. lucido seguente).
Tali metodi sono essenzialmente basati sulle procedure di “indicizzazione”, ossia la costruzione in anticipo di “indici” dei contenuti dei diversi documenti, che vengono cioè preclassificati sulla base di parole chiave (in genere sulla base del conteggio delle “ricorrenze” in un testo). Tali indici sono poi usati per facilitare il reperimento del documento da parte dell’utente attraverso le parole chiave.
Al momento lo strumento di ricerca largamente usato in Internet sono i motori di ricerca, che nella loro versione base o tradizionale funzionano su principi derivati di fatto dalle tecniche di information retrieval. Come vedremo, tale approccio presenta però serie limitazioni.
D’altro canto allo stato non sono ancora state messe a punto tecniche davvero efficaci per espandere le funzionalità degli strumenti di ricerca in Internet. Le principali direzioni di ricerca riguardano:
gli strumenti per analizzare il linguaggio naturale, in modo da superare i limiti delle classiche ricerche con parole chiave, e interpretare invece richieste informative anche complesse e articolate dell’utente lanciando ricerche in rete più efficaci.
gli agenti di ricerca intelligenti, che aiutano l’utente nel reperimento e nella gestione del...
Le fonti di informazione Le risorse informative La “rete” Gli utenti Strumenti di ricerca, ossia:Intermediari informativi
In definitiva, l’ambiente di Internet se pure informativamente ricchissimo risulta particolarmente difficile da trattare. Inoltre, non esistono metodi o strumenti “ideali” per la ricerca di informazione. Gli stessi motori di ricerca non sono l’unico strumento (né necessariamente il più efficace) per reperire i contenuti informativi.
Ciò lascia spazio a una pluralità di strumenti e di operatori che possono offrire “servizi di intermediazione informativa”, ossia offrire un qualche tipo di “assistenza” nel facilitare il reperimento delle informazioni da parte degli utenti, o migliorare la visibilità delle fonti e delle risorse.
Gli intermediari informativi
Funzione chiave: facilitare l’interazione domanda-offerta di informazione
rendere visibile delle risorse/fonti di informazione
facilitare il reperimento da parte degli utenti
Intermediari come operatori business
Varietà di situazioni varietà di operatori
in relazione alla classe di utenti (specializzazione, competenze, lingua, ….
in relazione alla copertura
in relazione alle prestazioni richieste( velocità, precisione, affidabilità …)
in relazione al “costo” di intermediazione
Catene di intermediari
Il ruolo di tali “intermediari informativi” è quello di facilitare l’interazione e l’incontro tra la domanda e l’offerta di informazione in Internet, da un lato facilitando il reperimento da parte degli utenti, dall’altro rendendo maggiormente visibili le fonti e le risorse informative disponibili in rete.
Dato che l’operazione di reperimento di informazione in Internet può avere meccanismi e gradi di efficienza diversi a seconda della situazione (ossia in relazione al tipo di utenti, ai loro fabbisogni informativi, alle fonti e risorse informative, al mezzo utilizzato), e non esistendo una soluzione unica “massimamente efficiente” per ogni specifico problema informativo, gli intermediari informativi possono anche rappresentare operatori in competizione tra loro e in grado di offrire soluzioni più o meno valide o efficienti a seconda della situazione e del contesto di applicazione. Ciò rende anche possibile la nascita di un “business” dei servizi di ricerca in rete. Si assiste a un proliferare di servizi di ricerca e di intermediazione informativa assai differenti tra loro, in relazione ad esempio al target di utenza, alla copertura della rete, alle prestazioni (in termini ad es. di velocità, piuttosto che di precisione, di affidabilità, ecc.), al costo di tale intermediazione informativa e alle modalità di pagamento di tale servizio (dall’erogazione gratuita o “sponsorizzata” - come del caso dei motori, ai servizi in abbonamento, ecc.) . Si assiste anche a fenomeni di all...
Varietà di intermediari informativi: esempi
motori di ricerca (www.google.com) --> Ricerca libera “generalista” nel Web
metamotori (www.mamma.com) ---> Ricerca “superficiale” ma tramite diversi motori di ricerca
directory (www.yahoo.com) --> Ricerca all’interno di elenchi preclassificati
Portali istituzionali (www.istat.it) --> Fornitura specifica di informazioni “ufficiali”
Portali specializzati (www.2night.it) --> informazione su argomenti specifici
Portali di settore (“vortal” - www.paginetessili.it) --> informazione economica settoriale
Cybermall (es. www.mrprice.it) --> informazioni commerciali su prodotti, ecc.
“Yellow page” e altri elenchi (www.paginegialle.it, www.whowhere.com)
--> elenchi di nominativi, email, ecc. (USA)
Siti di comparazione (o “shopbot” - www.kelkoo.com): informazione comparativa di prodotti
Banche dati bibliografiche (v. ad es. www.cab.unipd.it): documentazione e pubblicazioni
editori online (es. www.ilsole24ore.com): informazione di fonte giornalistica
servizi con operatore (es. www.profinder.it ): ricerca “assistita”
A titolo di esempio, si può costruire elenchi di operatori di natura molto differente tra loro, ciascuno specializzato nella fornitura di informazioni specifiche via Internet, nella gestione di risorse/fonti specifiche, nell’utilizzo di tecnologie o metodi di ricerca diversi, ecc.
Intermediari informativi: comparazione
motori portali editori online servizi con operatore interazione automazione affidabilità
Questi strumenti hanno evidentemente prestazioni diverse relativamente a vari possibili aspetti. Ciò è importante nel momento in cui si imposta una ricerca in rete.
Comments