Per ora il grosso problema delle intelligenze artificiali sono le allucinazioni
Sanno rispondere a ogni domanda, ma non sanno comprendere niente di quello che dicono: e quindi succede spesso che non abbia nessun senso
La scorsa settimana si è tenuta Google I/O, la conferenza annuale che Google organizza per presentare le novità sul software per gli sviluppatori, nel corso della quale l’azienda ha presentato molte novità soprattutto nel campo delle intelligenze artificiali generative. Tra queste, nuovi servizi per utilizzare le AI direttamente dallo smartphone, ad esempio inquadrando oggetti e facendo domande sul loro funzionamento. In un esempio, si vedeva un utente inquadrare una macchina fotografica e domandare all’AI perché una levetta non si muovesse del tutto. Google ha risposto offrendo possibili soluzioni, tra cui aprire lo sportello posteriore della fotocamera e togliere il rullino. Com’è stato notato da molti, però, questo danneggerebbe per sempre il rullino stesso, esponendo la pellicola alla luce e rovinando potenzialmente il lavoro del fotografo.
Non è la prima volta che le AI di Google commettono errori fattuali durante una presentazione: nel febbraio del 2023 il titolo di Alphabet, gruppo di cui fa parte Google, perse 100 milioni di dollari in borsa per via di un errore fatto da Bard, il primo chatbot dell’azienda, durante un evento pubblico (secondo Bard la prima foto di un pianeta al di fuori del nostro sistema solare era stata scattata recentemente dal James Webb Space Telescope, quando invece era del 2004). Questo tipo di errori e imprecisioni compiuti da intelligenze artificiali generative sono chiamati “allucinazioni” e non sono una novità.
Lo scorso febbraio, ad esempio, ChatGPT, l’AI di Microsoft e OpenAI, ebbe un problema tecnico a causa del quale generò per alcune ore risposte completamente senza senso. Quando un utente chiese al chatbot un sinonimo della parola inglese «overgrown» (trascurato, incolto), ottenne come risposta l’enigmatica frase: «A synonym for ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’ is ‘overgrown’», e così via. In seguito all’incidente, OpenAI pubblicò un breve post sul suo sito in cui spiegò il problema e ricordò ai suoi utenti che alla base delle intelligenze artificiali generative c’è un tipo di tecnologia particolare chiamato modello linguistico di grandi dimensioni (detto anche LLM, da Large Language Model).
– Leggi anche: Google vuole cambiarci la vita, di nuovo
Un LLM è un tipo di intelligenza artificiale che utilizza reti neurali profonde per apprendere da grandi quantità di documenti, soprattutto testuali, col fine di comprendere e generare testi (ma anche immagini o video) rifacendosi proprio al materiale di partenza. Il riferimento alle grandi dimensioni rimanda all’altissimo numero di parametri con cui gli LLM analizzano i testi e i documenti di partenza, individuando schemi, pattern e regole, e acquisendo di fatto capacità linguistiche.
Volendo semplificare, è possibile immaginare un modello linguistico di questo tipo come un insieme di tecniche statistiche e probabilistiche in grado di determinare la probabilità che a una data parola sia associato un altro termine. Secondo OpenAI, quindi, l’incidente era dovuto alla natura stessa degli LLM, che «generano risposte campionando casualmente parole basandosi in parte sulle probabilità». In particolare l’azienda specificava che il suo modello linguistico utilizza un «“linguaggio” fatto di numeri»: il malfunzionamento nasceva proprio «nella fase in cui il modello sceglie questi numeri».
Come ha scritto la giornalista Alex Cranz, gli LLM «sono perfetti per scoprire modelli di informazioni ma nel loro tentativo di estrapolare e creare, ogni tanto sbagliano […] e creano una nuova realtà». Il problema è che la maggior parte delle allucinazioni si verifica all’interno di risposte altrimenti corrette dal punto di vista grammaticale e ortografico, particolare che le rende più difficili da individuare. Per questo il matematico australiano Rodney Brooks, docente di robotica presso il MIT di Boston, ha definito ChatGPT uno strumento che «inventa cose che sembrano giuste».
In un paper pubblicato nel 2021, alcune studiose – tra cui Timnit Gebru, esperta di etica delle AI che nel 2020 fu licenziata da Google dopo aver pubblicato un documento critico sull’azienda stessa – hanno coniato l’espressione «pappagallo stocastico» (o «pappagallo probabilistico») per sottolineare come le frasi prodotte dai chatbot abbiano senso anche se le AI stesse non sono davvero in grado di capirle. «Contrariamente a quanto sembrerebbe quando ne osserviamo l’output, un modello linguistico è un sistema per cucire casualmente insieme sequenze di forme linguistiche che ha osservato nei suoi molti dati di addestramento, secondo informazioni probabilistiche su come si combinano, ma senza alcun riferimento al significato». Come pappagalli, insomma, gli LLM comunicano senza capire davvero quello che dicono: ogni loro frase si basa su calcoli probabilistici, i quali, grazie ai miliardi di parametri utilizzati negli LLM, si rivelano spesso corretti. Ma non sempre.
– Leggi anche: L’entusiasmo per le intelligenze artificiali si sta un po’ stemperando
Non è chiaro quando il problema delle allucinazioni delle AI sarà risolto, né se sarà davvero possibile farlo. Secondo Raza Habib, ex ricercatore di Google, la soluzione potrebbe arrivare entro un anno grazie al miglioramento dei processi di controllo e calibrazione delle informazioni, mentre Microsoft ha proposto uno strumento per individuare errori simili e anche Sundar Pichai, amministratore delegato di Google e Alphabet, ha recentemente definito le allucinazioni «un problema ancora non risolto». Secondo Pichai, però, le allucinazioni sarebbero «una caratteristica intrinseca» di questi modelli, «ciò che [li] rende molto creativi». Anche per questo Liz Reid, responsabile della ricerca di Google, ha sostenuto che sia necessario trovare il «giusto equilibrio tra creatività e fattualità».
Lo scorso gennaio uno studio della National University of Singapore ha fornito una possibile dimostrazione dell’inevitabilità delle allucinazioni negli LLM. Gli autori del paper hanno spiegato alla rivista Scientific American che «per qualsiasi modello linguistico ci sarà sempre una parte del mondo che non potranno conoscere, per la quale produrranno inevitabilmente allucinazioni». A peggiorare le cose c’è il fatto che gli LLM sono programmati per produrre sempre una risposta, anche su argomenti che non compaiono nei loro dati d’allenamento. Anche per questo si può pensare al modello linguistico delle AI come simile a «strumenti per il completamento automatico iper avanzati», ha concluso lo Scientific American.
Il fatto che l’attuale interesse per le intelligenze artificiali generative sia strettamente collegato agli LLM può essere un problema per il settore tecnologico, secondo l’editore e blogger Tim O’Reilly, visto che la Silicon Valley rischia di puntare tutto su una tecnologia che presenta forti limiti. Alcuni sostengono che la prossima fase delle AI comincerà quando questi modelli linguistici verranno superati: in particolare gli esperti puntano sulle prossime generazioni di AI multimodali, che vengono chiamate così perché in grado di elaborare una grande varietà di input, come testi, immagini e audio, sia per quanto riguarda le richieste degli utenti (i prompt) che i contenuti generati.
Un esempio di modello multimodale è Gemini di Google, che già oggi è in grado di rispondere a un prompt visivo con una risposta scritta (ad esempio, può rispondere a una foto di un piatto di biscotti con la ricetta necessaria per prepararli). Il futuro delle AI potrebbe partire da questo approccio sposando il multimodal learning (apprendimento multimodale), che permetterà alle AI di avere una migliore comprensione dei contesti e del linguaggio umano grazie ai diversi tipi di media su cui verranno allenate. Per arrivare all’apprendimento multimodale saranno comunque necessari notevoli progressi nella computer vision (una branca delle AI che permette ai computer di ricavare informazioni da input visivi) e dell’analisi video da parte delle AI, e non è sicuro che saranno sufficienti a debellare le allucinazioni dal settore.