Come Google influenza le nostre conoscenze

Da strumento esplorativo si è via via evoluto in un sistema di risposte immediate, ridefinendo il nostro modo di cercare e attribuire senso alle informazioni

Caricamento player

Quando alla fine degli anni Novanta gli informatici statunitensi Larry Page e Sergey Brin fondarono il motore di ricerca Google si posero l’obiettivo di «organizzare le informazioni a livello mondiale e renderle universalmente accessibili e utili», come ebbero modo di affermare anni dopo, e come è anche scritto sul sito. Google è oggi molto più che un motore di ricerca ma è ancora soprattutto quello, raccogliendo oltre il 92 per cento delle ricerche effettuate su Internet.

In anni recenti le responsabilità di Google nella diffusione di informazioni false o fuorvianti e nella sovraesposizione di risultati considerati poco affidabili o poco utili, benché pertinenti, sono state oggetto di un esteso dibattito pubblico. I programmi di integrazione dell’intelligenza artificiale nel sistema di ricerca hanno inoltre mostrato potenzialità affascinanti e ampi margini di miglioramento, ma anche nuovi rischi collegati a inferenze problematiche che rispecchiano limiti, pregiudizi e preconcetti presenti nell’ambiente di sviluppo dei nuovi sistemi.

Al netto dei progressi più recenti, alcuni studiosi che si sono occupati dell’evoluzione dei motori di ricerca hanno descritto in termini più generali e storici la crescente influenza esercitata da Google nel definire i limiti delle nostre conoscenze. Attraverso una serie di cambiamenti incrementali al motore di ricerca iniziale, Google «ha cambiato radicalmente i processi di ricerca delle informazioni», scrisse ad agosto scorso la sociologa e studiosa di media Francesca Tripodi, docente di scienze dell’informazione presso la University of North Carolina a Chapel Hill.

Nel tempo, vari fattori hanno contribuito a ridefinire almeno in parte gli obiettivi iniziali di Page e Brin, estendendo o riformulando certe ambizioni e lasciando emergere nuove necessità e nuovi spazi di incertezza. Tra i fattori più influenti sono spesso citati: il costante incremento delle informazioni disponibili su Internet e delle persone dotate di una connessione nel mondo; l’accresciuta familiarità degli utenti con gli strumenti informatici e i dispositivi tecnologici, soprattutto portatili; i progressi compiuti nel campo dell’intelligenza artificiale e dell’apprendimento automatico.

Soprattutto, è diventata più chiara nel tempo la necessità per Google di far coesistere i principi altruistici alla base dello sviluppo iniziale del motore di ricerca con concreti obiettivi di sostenibilità economica a lungo termine: necessità che si è tradotta principalmente nell’introduzione di nuove funzionalità e nuovi prodotti. Il predominio di un’unica piattaforma nelle ricerche online ha inoltre esteso smisuratamente sia le ripercussioni di ogni singolo fattore su larga scala sia le possibilità di Google di attingere dati in quantità ingenti. Come osservato dalla scrittrice e psicologa sociale statunitense Shoshana Zuboff nel libro del 2019 Il capitalismo della sorveglianza, le persone cercavano informazioni attraverso il motore ma, allo stesso tempo, il motore cercava regolarità nelle domande poste dalle persone e nei loro comportamenti.

Tutti questi fattori hanno condizionato in modo via via sempre più marcato l’evoluzione del motore di ricerca, allontanandolo da suggestioni e ambizioni diffuse nel mondo dell’informatica all’epoca dei primi sviluppi. Che fu un periodo in parte caratterizzato da una certa fiducia collettiva nell’ipotesi che Internet potesse diventare la cosa più vicina mai realizzata a una “biblioteca universale”, oggetto del racconto del 1904 dello scrittore tedesco Kurd Lasswitz e, più notoriamente, del racconto del 1941 dello scrittore argentino Jorge Luis Borges La biblioteca di Babele.

Le crescenti capacità di codifica e archiviazione digitale portarono molte persone a immaginare e in alcuni casi ritenere desiderabile una situazione in cui ogni testo esistente fosse parte di un immenso archivio accessibile online. Quell’archivio avrebbe idealmente contenuto ogni pezzo di carta mai stampata e ogni sito Internet mai esistito. E avrebbe realizzato un’idea utopica presente nell’immaginario collettivo da millenni: fin dall’epoca della biblioteca di Alessandria, la più grande e completa biblioteca del mondo antico, fondata alla fine del IV secolo a.C. e andata distrutta probabilmente più volte tra il I secolo a.C. e il VII secolo d.C.

Il singolo progetto di Google che più si avvicinò all’idea di una moderna biblioteca di Alessandria fu Google Books, avviato nel 2004 con l’obiettivo dichiarato di digitalizzare tutti i libri in tutte le lingue e rendere disponibili funzioni di ricerca all’interno di ogni testo. Fin da subito il progetto suscitò grande interesse, ma anche un esteso dibattito e molte controversie sulle possibili violazioni dei diritti d’autore per scopi commerciali, anticipando in una certa misura un dibattito che oggi riguarda notoriamente anche gli editori dei giornali. In sostanza, chiarendo un aspetto considerato centrale anche nel dibattito attuale, la vicenda di Google Books mostrò quanto potesse essere complicato per un’azienda privata definire un equilibrio tra la ricerca di un profitto e un beneficio per la collettività.

L’analogia tra l’utopia della “biblioteca universale” e le ambizioni di Google servì soprattutto a problematizzare alcune prospettive apparentemente desiderabili ma con implicazioni complesse e difficili da immaginare. Utopie a parte, qualsiasi biblioteca è inevitabilmente selettiva nella raccolta dei testi che contiene, e non soltanto per ragioni di spazi a disposizione. La più grande biblioteca al mondo, la Biblioteca del Congresso degli Stati Uniti, conserva oltre 173 milioni di documenti, tra cui oltre 51 milioni di libri catalogati e altro materiale stampato in 470 lingue. Ogni giorno, stando a quanto dichiarato sul sito, riceve circa 15 mila documenti e ne aggiunge al proprio catalogo oltre 10 mila. Inoltre è un’istituzione pubblica, che dispone di un budget complessivo annuale di 802 milioni di dollari.

La selezione dei libri non tiene conto soltanto dei limiti dello spazio fisico a disposizione delle biblioteche, ma anche di altri criteri: a cominciare, banalmente, dal criterio della pubblicazione stessa. Diamo per assodato che una biblioteca non contenga manoscritti respinti dagli editori, per esempio; e che non contenga nemmeno segreti di stato o istruzioni per la fabbricazione di armi. Come affermato dal ricercatore polacco in scienze dell’informazione Miroslaw Kruk, una biblioteca universale e «totalmente inclusiva» conterrebbe invece anche materiali distorti, intenzionalmente o meno, e palesemente falsi, finendo per diventare un sistema formato da «piccole isole di significato circondate da vasti oceani di mancanza di significato».

Il primo e più importante criterio di selezione è quindi quello che istituisce già di per sé una differenza tra cosa ha significato e cosa non ne ha. E che istituisce una differenza tra informazione e conoscenza, per dirla con i termini utilizzati negli anni Novanta dallo statunitense Jay David Bolter, docente della scuola di letteratura, media e comunicazione al Georgia Institute of Technology. «Produciamo molte più informazioni di quelle che possiamo digitalizzare, e ad ogni modo le informazioni non sono conoscenza», scrisse Bolter, sostenendo che per conoscere il passato sia necessario «dissotterrarne i resti» ma anche «imparare a dar loro un senso».

Più che per il progetto dei libri – che nel tempo ha perso lo slancio e le ambizioni iniziali, e che comunque ereditava un lavoro di selezione a monte già svolto da editori e biblioteche reali – Google ha dovuto storicamente misurarsi con la necessità di introdurre criteri di selezione e indicizzazione nel caso dei materiali considerati pertinenti sulla base alle ricerche compiute dagli utenti. E con il passare del tempo ha utilizzato quelle stesse ricerche in parte per trarre conclusioni dirimenti su cosa fosse rilevante selezionare e “premiare” nei risultati e cosa no, e in parte per più ampi scopi commerciali.

Fin dall’inizio degli anni Duemila, come racconta Zuboff nel libro Il capitalismo della sorveglianza, Google impose con successo e in modo capillare un’estesa «mediazione informatica» in nuovi ambiti del sapere e del comportamento umano, man mano che le persone effettuavano ricerche e interagivano con il Web attraverso un elenco crescente di servizi dell’azienda.

Quelle attività, implementate per la prima volta, generarono un vastissimo insieme di risorse di dati completamente nuovi. Oltre alle parole chiave, per esempio, ogni chiave di ricerca generava altre informazioni collaterali come il numero complessivo di ricerche, i termini utilizzati dagli utenti, l’ortografia prevalente e la punteggiatura. All’inizio, questi registri di dati furono conservati e largamente ignorati dal punto di vista operativo, ma successivamente cominciarono a essere utilizzati per desumere pensieri, sentimenti e interessi degli utenti.

– Leggi anche: Quanto siamo prevedibili

Gli ingegneri di Google appresero che quei flussi continui di dati collaterali sul comportamento delle persone avrebbero potuto «trasformare il motore di ricerca in un sistema di apprendimento ricorsivo», portando a un miglioramento costante dei risultati delle ricerche e a innovazioni del prodotto aziendale come il controllo ortografico, la traduzione e il riconoscimento vocale.

Altri motori di ricerca ebbero l’opportunità di utilizzare quegli stessi dati negli anni Novanta, scrisse sull’Economist il giornalista Kenneth Cukier, ma non la sfruttarono. E altri motori di ricerca dei primi anni Duemila, come Yahoo!, ebbero la stessa idea ma non riuscirono a concretizzarla. «Fu Google a riconoscere la polvere d’oro nei detriti delle sue interazioni con i suoi utenti e a prendersi la briga di raccoglierla», scrisse Cukier, per migliorare il servizio o creare prodotti completamente nuovi.

Questa particolare evoluzione ampliò un divario esistente fin da principio tra gli interessi pubblici e quelli dell’azienda, e nel tempo generò una serie di sovrapposizioni continue e sempre più evidenti tra i risultati più pertinenti e potenzialmente utili associati alle ricerche degli utenti e quelli che potevano incrementare le possibilità di un ritorno economico per Google. Questa sovrapposizione era stata peraltro descritta dagli stessi fondatori Page e Brin alla fine degli anni Novanta sulla base di alcuni loro esperimenti sulla compatibilità possibile tra il motore di ricerca e i modelli di business basati sulla pubblicità, già all’epoca dominante. Sulla base di quei dati «collaterali», per esempio, furono nel tempo calibrati molti degli annunci pubblicitari che ancora oggi spesso precedono o circondano i risultati di alcune ricerche, rendendoli più caotici e meno immediati da interpretare.

Nel 2015 il tecnologo statunitense Tim Wu, all’epoca docente di legge della Columbia University e oggi funzionario dell’amministrazione del presidente Joe Biden che si occupa di politiche in materia di tecnologia e tutela della concorrenza, analizzò insieme a un gruppo di ricerca i meccanismi in azione nelle funzioni di ricerca di Google. E scoprì che l’azienda sfruttava sistematicamente il suo predominio nella ricerca per promuovere i propri contenuti e altri prodotti.

Quando un utente effettua una ricerca su Google, tecnicamente, la effettua soltanto nei miliardi di pagine indicizzate da Google: non in tutta Internet. Ogni giorno l’azienda aggiunge a questo indice nuovi contenuti attraverso un processo di scansione (crawling) eseguito da un software che visita i nuovi siti e raccoglie dati su quei siti, come le parole chiave e il numero di collegamenti, così che quel sito possa apparire quando vengono utilizzati determinati termini di ricerca.

Ma il modo in cui Google decide ciò che l’utente vede in cima ai risultati delle proprie ricerche è abbastanza complesso e dipende da un algoritmo che tiene in considerazione molteplici fattori, noti solo in parte al pubblico. Stando a quanto affermato da Sundar Pichai, capo di Alphabet, la società che controlla Google, il motore di ricerca utilizza come criteri sostanziali «la pertinenza, la freschezza, la popolarità» dei contenuti, e «come le altre persone li usano», per decidere in quale posizione saranno mostrati.

In tempi in cui è sempre più limitato il ricorso a fonti cartacee, che siano i libri di una biblioteca o i documenti di un archivio, è evidente come per molte persone e per una lunga serie di attività umane quello che Google decide di indicizzare e di mostrare in cima alle ricerche rappresenta, in sostanza, il perimetro entro il quale può muoversi il sapere. Ciò che sta fuori dai risultati di Google, o che è troppo difficile da trovare, ne rimane fuori.

Una parte del dibattito sulle responsabilità di Google nel possibile condizionamento dell’opinione pubblica si è concentrata in anni recenti sul fenomeno della disinformazione, e cioè sui casi in cui contenuti falsi, diffamatori o fuorvianti ottengono maggiore visibilità nei risultati di ricerca rispetto ad altri contenuti provenienti da fonti verificate. Sono casi noti su cui Google e altre piattaforme sono al lavoro da tempo per cercare di limitarli, con alterni successi.

Ma esiste un livello del dibattito che prescinde in parte dai conflitti di interesse di Google e da alcune conclamate inefficienze del sistema, argomenti le cui prove sono da tempo ampiamente dibattute. Diversi studiosi concordano nel ritenere che il predominio di Google nell’ambito delle ricerche online e la particolare evoluzione del motore di ricerca a seguito degli sviluppi decisi dall’azienda abbiano condizionato in modo più profondo, sottile e, in un certo senso, inevitabile il nostro modo di apprendere informazioni e sviluppare conoscenze.

– Leggi anche: TikTok sta diventando anche un motore di ricerca

È un processo iniziato fin da quando all’inizio degli anni Duemila, come scritto da Tripodi su Wired, Google cominciò a correggere l’ortografia e anticipare le domande con il completamento automatico, per poi introdurre nel 2012 il cosiddetto knowledge graph, una porzione del contenuto ritenuto più rilevante per la ricerca effettuata, porzione mostrata direttamente nella pagina dei risultati.

L’obiettivo di Google di fornire risposte sempre più dirette, non limitandosi a mostrare una serie di link verso altri contenuti esterni, ha di fatto cambiato l’esperienza della ricerca online: da uno spazio di ricerca «esplorativa» Google è diventato «una piattaforma progettata attorno alla verifica», ha scritto Tripodi, e ha sostituito «un processo che consente l’apprendimento e l’indagine con uno che è più simile a un servizio di fact-checking».

Questo tipo di approccio agli sviluppi del motore di ricerca – sviluppi sempre più orientati verso la soddisfazione immediata e personalizzata della domanda che non verso il trasferimento all’utente del lavoro di ricerca tra le risposte – non appare problematico, ed è anzi considerato effettivamente comodo e utile nel caso in cui occorra sapere, per esempio, quanti litri formano un gallone americano. Il problema, aggiunge Tripodi, è che le persone utilizzano i motori di ricerca per avere informazioni su argomenti più complessi, privi di una risposta che possa essere definita esatta in un senso del tutto equivalente a quello che intendiamo parlando di conversioni tra unità di misura.

Questa riduzione dei passaggi intermedi, secondo Tripodi e secondo altre ricercatrici e ricercatori, aumenta inoltre il rischio che alcune persone trovino più rapidamente e facilmente una conferma per affermazioni prive di fondamento. E che altre possano, con effetti ancora più estesi, individuare eventuali falle dell’algoritmo per manipolare i risultati allo scopo di diffondere falsità.

Riferendo i risultati di alcune sue ricerche contenute nel libro The Propagandists’ Playbook: How Conservative Elites Manipulate Search and Threaten Democracy, Tripodi ha scritto che molte persone tendono ad attribuire ai principali risultati delle ricerche che compiono autonomamente su Google un valore di attendibilità generalmente molto alto. Li considerano «più importanti», «più pertinenti» e «più accurati», e provenienti da fonti più attendibili rispetto a giornali e siti di news.

Capita quindi che le persone cerchino qualcosa di cui hanno letto su Facebook o su altre piattaforme di social media, «ma a causa del modo in cui quei contenuti sono stati taggati e classificati, in realtà stanno cadendo in una trappola informativa», ha scritto Tripodi, riferendosi al fatto che quelle ricerche siano in molti casi viziate in partenza e destinate a restituire risultati che potrebbero più facilmente confermare anziché smorzare determinati pregiudizi.

Nel libro The Propagandists’ Playbook Tripodi definisce «effetto IKEA della disinformazione» questa tendenza ad attribuire un valore di maggiore attendibilità alle informazioni che le persone ricavano tramite ricerche autonome sui motori di ricerca. Il riferimento è ad alcuni studi di economia che hanno mostrato come i consumatori che costruiscono da sé la propria merce tendono ad apprezzarla di più rispetto ai prodotti già assemblati. Qualcosa di simile succede anche con i teorici del complotto e i propagandisti, secondo Tripodi, nella misura in cui le ricerche su un determinato argomento fanno sentire più «indipendente» l’utente che le compie, quando in molti casi sta soltanto «partecipando a una caccia al tesoro progettata da coloro che diffondono bugie».

Da questo punto di vista, rendere meno automatico e immediato il percorso tra la domanda sul motore di ricerca e i risultati – un approccio opposto a quello promosso da Google e da altre piattaforme negli ultimi anni – è considerato da diversi studiosi, inclusa Tripodi, un incentivo all’esplorazione consapevole di argomenti complessi. «Piuttosto che fare affidamento su risposte rapide a domande difficili», secondo Tripodi, sarebbe più opportuno prendersi il tempo di cliccare sui link, cercare più a fondo e leggere le informazioni da una varietà di fonti.

L’abbreviazione del percorso dalla ricerca ai risultati appare inoltre in contraddizione con la costruzione di un sapere più strutturato e organico, secondo diversi studiosi che si sono occupati dei recenti tentativi delle piattaforme – non solo Google ma anche Meta – di integrare nei sistemi di ricerca modelli di linguaggio che utilizzano tecniche di apprendimento automatico (come GPT-3) per generare testi potenzialmente indistinguibili da quelli prodotti da un essere umano.

Secondo la linguista statunitense Emily Bender, che studia linguistica computazionale e questioni etiche nell’elaborazione del linguaggio naturale alla University of Washington, l’utilizzo di modelli linguistici per le ricerche potrebbe portare a una maggiore disinformazione e a un dibattito ancora più polarizzato.

«Le nozioni di pertinenza, utilità e attendibilità riguardo alle informazioni erano sovraccariche di significati e spesso difficili da articolare, studiare o implementare» già prima di questi recenti progressi ed esperimenti, ha scritto Bender in un articolo pubblicato a marzo scorso. Rimuovere o ridurre il numero delle interazioni nel tentativo di recuperare informazioni presumibilmente più rilevanti, secondo Bender, «può essere dannoso per molti aspetti fondamentali della ricerca, tra cui la verifica delle informazioni e l’alfabetizzazione informativa».

Soprattutto, aggiunge Bender, promuovere la velocità e la comodità non dovrebbe essere l’obiettivo di un sistema di ricerca: «dovremmo cercare di costruire strumenti che aiutino gli utenti a trovare e dare un senso alle informazioni piuttosto che strumenti che pretendano di fare tutto per loro». I sistemi di ricerca sono e continueranno a essere utilizzati per compiti diversi dal semplice trovare una risposta a una domanda, ha scritto Bender, e ha un «enorme valore» il fatto che le persone in cerca di informazioni «esplorino, inciampino e apprendano» lungo il processo di utilizzo di questi sistemi.

E in merito alle sovrapposizioni tra l’interesse pubblico e quello delle aziende, conclude Bender, «faremmo bene a ricordare che i sistemi informativi sono stati spesso gestiti come beni pubblici» e che l’attuale controllo aziendale dei sistemi informativi dominanti è, in questo senso, «un’aberrazione».

Tag: biblioteca-google-informazione-motori di ricerca