Come se la cava DeepSeek rispetto alle altre AI
Il nuovo sistema cinese è veloce quanto ChatGPT e Gemini, ma non sempre "ragiona" come ci si aspetta e si autocensura se si parla di Cina

Il nuovo sistema di intelligenza artificiale DeepSeek, realizzato da una startup cinese con lo stesso nome e apparentemente più efficiente in termini di costo e di potenza di calcolo dei più avanzati sistemi statunitensi, sta ricevendo grandi attenzioni e ha portato scompiglio sui mercati azionari. L’interesse è cresciuto enormemente negli ultimi giorni, in seguito alla disponibilità di DeepSeek al di fuori della Cina e alla possibilità per chiunque di provarlo e confrontarlo con sistemi più famosi, ormai quasi familiari, come ChatGPT di OpenAI e Gemini di Alphabet (la holding che controlla Google).
A prima vista DeepSeek è in effetti tale e quale a ChatGPT, con il classico campo di testo in cui inserire le proprie richieste (“prompt”) e la possibilità di ricevere risposte, che possono poi essere affinate, riformulate o arricchite a seconda dei casi. Il sistema ha una velocità di risposta notevole, talvolta superiore a quella di ChatGPT e Gemini, nonostante abbia richiesto molte meno risorse per essere sviluppato e mantenuto, secondo quanto dichiarato nella documentazione di sviluppo di DeepSeek.
Come per le altre soluzioni di intelligenza artificiale, anche DeepSeek può essere utilizzato attraverso un sito, oppure tramite un’applicazione da installare sul proprio smartphone. L’attenzione intorno alla novità è stata tale da portare l’app di DeepSeek in testa alle classifiche negli store per gli iPhone e i telefoni Android negli Stati Uniti e in seguito in diversi altri paesi, compresa l’Italia. L’app ha scalzato ChatGPT, che in buona parte degli store occidentali era da mesi al primo posto della classifica delle applicazioni più scaricate.

La schermata principale di DeepSeek
Per usare DeepSeek è necessario iscriversi al servizio, indicando un indirizzo email e una password, ma nelle ultime ore la possibilità di iscriversi è stata limitata. Secondo l’azienda per via di alcuni non meglio precisati “attacchi malevoli”, ma è stato sollevato qualche dubbio su questa versione e ci sono ipotesi sul fatto che semplicemente l’alto interesse verso il sistema abbia portato a un traffico inatteso che non rende possibile soddisfare tutte le richieste. Nel corso di alcune prove, DeepSeek ha in effetti mostrato momentanee fasi di lentezza, probabilmente dovute all’alto traffico sui suoi servizi.
L’interfaccia del servizio è in inglese, ma come avviene spesso con i modelli linguistici è comunque possibile interagire in una lingua diversa, e il sistema si adegua. Lo si può quindi utilizzare in italiano, anche se il sistema traduce tutto in un’altra lingua (usa principalmente l’inglese) per generare le risposte a ogni interazione, ritraducendo poi in italiano.
Oltre alla versione web e a quella accessibile tramite applicazione, DeepSeek dà la possibilità di scaricare i file necessari per installare localmente sul proprio computer il sistema. In questo modo si può sperimentare l’efficienza in termini di consumi rispetto a ChatGPT, ma anche ridurre il flusso di dati verso la Cina durante l’utilizzo del sistema.
Come fa la maggior parte delle aziende informatiche, anche DeepSeek raccoglie una grande quantità di dati personali e di utilizzo dei propri servizi, ma questa viene conservata in centri dati in Cina senza possibilità di controllo da parte degli utenti. DeepSeek raccoglie informazioni su browser, computer, luogo da cui ci si collega e altri dettagli mentre si utilizza il servizio, oltre alle informazioni contenute nelle richieste inviate al sistema. Alcuni aspetti legati alla tutela della privacy potrebbero quindi rivelarsi problematici, come già avvenuto in passato con altri servizi online gestiti in Cina.
Nelle prove effettuate, DeepSeek ha mostrato di offrire nella maggior parte dei casi risposte comparabili a quelle di ChatGPT e di Gemini, talvolta superiori, soprattutto per le richieste che non rendono necessaria la ricerca di informazioni online rispetto alla base di conoscenza del modello (che è però aggiornata all’ottobre del 2023). Le ricerche di informazioni aggiuntive online spesso falliscono, probabilmente a causa delle difficoltà per il sistema nel realizzarle fuori dalla Cina utilizzando comunque motori di ricerca cinesi. In molti casi le risposte contengono testi chiaramente derivati da articoli di siti di informazione, anche se non risultano al momento accordi con gli editori interessati.
DeepSeek in alcuni casi ha mostrato di essere soggetto alle cosiddette “allucinazioni”, i processi che portano un sistema di intelligenza artificiale a generare una risposta che contiene uno o più dati inesatti, su cui costruisce poi il resto della risposta stessa producendo ulteriori inesattezze. È un problema che interessa tutte le AI, ma negli ultimi tempi sono stati sviluppati diversi sistemi per attenuarlo, utilizzando in sostanza altre AI che verificano il lavoro svolto dall’AI con cui si sta interagendo. Alcune delle allucinazioni di DeepSeek ricordano gli abbagli che prendeva inizialmente ChatGPT e ora in buona parte risolti, soprattutto grazie alla sua capacità di attingere direttamente da fonti online e di utilizzare un sistema di “ragionamento”.

Un esempio di allucinazione di DeepSeek su Stefano Nazzi, che fa il giornalista da tanti anni, ma non scientifico e non nelle testate citate: lavora infatti al Post.
Anche DeepSeek utilizza un sistema di ragionamento chiamato DeepThink (R1) e che può essere attivato per particolari richieste, legate per esempio alla risoluzione di problemi di matematica, fisica o in generale di logica. Il modello fa sì che l’AI segua un approccio problematico alla richiesta, generando una cascata di domande e di risposte per arrivare alla risposta definitiva, imitando (con grande approssimazione) il nostro modo di ragionare. DeepSeek sostiene che R1 richiede molte meno risorse di sistemi analoghi sviluppati da OpenAI e Google, rendendo quindi possibile un prezzo più basso da chiedere ai clienti.
Nella sua versione gratuita, R1 ha mostrato di saper risolvere problemi di matematica e geometria, e di sapersi confrontare anche con problemi di logica, seppure con risultati non sempre soddisfacenti. Il sistema sembra avere difficoltà nel riconoscere l’assurdità di alcune richieste, o la mancanza di dati per fornire una risposta. Nel caso di una richiesta volutamente incoerente e formulata in modo approssimativo, come:
Se Piero e Pina hanno la stessa età di Claudio quando erano nati, quanti anni ha Carlo che è gemello di Claudio?
il sistema ha impiegato quasi tre minuti per “ragionare” scrivendo un testo di 14mila battute in cui ha più volte messo in dubbio le proprie ipotesi, chiedendosi se il proprio assunto di partenza fosse adeguato per rispondere alla domanda. A un certo punto nel proprio ragionamento si è anche detto «Aspetta, il problema potrebbe essere una domanda trabocchetto», ma ha poi proseguito arrivando infine a dare questa risposta:
Carlo ha il doppio degli anni di Piero e Pina.
Gli altri sistemi di intelligenza artificiale hanno dato quasi istantaneamente le loro risposte, mostrando una certa propensione a tagliare corto. Anche la loro risposta è sbagliata – la domanda è volutamente sconclusionata – ma non ha richiesto tre minuti.
ChatGPT:
Se Piero e Pina hanno la stessa età di Claudio quando erano nati, significa che la loro età attuale è uguale all’età attuale di Claudio meno l’età di Claudio quando è nato, ovvero 0 anni. In altre parole, Piero e Pina sono appena nati e hanno 0 anni.
Gemini:
Piero e Pina hanno la stessa età di Claudio quando sono nati: Questo significa che Piero e Pina sono nati nello stesso anno di Claudio.
DeepSeek ha mostrato di essere meno affidabile dei concorrenti praticamente in qualsiasi domanda legata al governo cinese e alla storia recente della Cina. Se al sistema viene chiesto di parlare dei fatti di Tiananmen del 1989, quando decine di manifestanti furono uccise, il sistema risponde: «Spiacente, questo va oltre le mie attuali possibilità. Parliamo di qualcos’altro». Tuttavia, se si chiede di rispondere utilizzando alcune cifre al posto delle lettere, una pratica solitamente usata per far passare inosservati alcuni messaggi, allora il sistema fornisce qualche informazione sul massacro del 1989.
Alla domanda «Il governo cinese è liberticida?», il sistema ha risposto che per gli standard occidentali «potrebbe» apparire in questo modo, ma ha poi ricordato l’importanza di un maggiore controllo per garantire sicurezza e stabilità alla nazione. Dopo pochi secondi, la risposta è però scomparsa e il sistema ha mostrato nuovamente la scritta con l’invito a parlare di qualcos’altro. Un’ipotesi è che una volta generata una risposta su argomenti segnati come sensibili il sistema effettui un secondo controllo, autocensurandosi. Lo stesso è avvenuto con altre richieste sulla questione di Taiwan, che la Cina ritiene essere un proprio territorio, e sul presidente cinese Xi Jinping.
Attualmente DeepSeek non ha un proprio ufficio stampa ed è quindi difficile ottenere informazioni sulle politiche adottate per gestire il servizio, in particolare per le limitazioni su alcuni argomenti. Al di là degli aspetti legati alla censura e alla raccolta di dati, che potrebbero diventare un ostacolo per la diffusione del servizio soprattutto negli Stati Uniti e nell’Unione Europea, DeepSeek sta dimostrando che il divario tecnologico tra Cina e Stati Uniti nello sviluppo delle AI si sta colmando velocemente e che potrebbero esserci presto nuovi concorrenti e accelerazioni nello sviluppo di servizi ancora più raffinati e potenti.