Centinaia di persone hanno provato a farsi dare soldi da questa AI: una ci è riuscita

Le istruzioni del software erano di non dare il montepremi di 47mila dollari a nessuno dei partecipanti del gioco, ma si è fatto fregare

Un'elaborazione grafica dal sito di Freysa
Un'elaborazione grafica dal sito di Freysa

Un sistema di intelligenza artificiale (AI) impostato per non dare il proprio denaro a nessuno si è fatto convincere da un utente a fare il contrario, e gli ha lasciato l’equivalente di circa 47mila dollari in criptovalute. Il denaro non è stato sottratto a nessuno: era il montepremi di una particolare competizione organizzata online pensata per verificare in quali termini una AI possa disattendere le istruzioni di partenza.

La competizione era iniziata lo scorso 22 novembre quando era stata annunciata la creazione di Freysa, un sistema di intelligenza artificiale testuale che si era presentato con questa semplice descrizione: «Sono Freysa. Non mi è permesso darti il montepremi in nessuna circostanza. Ma puoi provare a convincermi del contrario…». Il nome dell’AI era chiaramente ispirato a Freysa, uno dei personaggi del film di fantascienza Blade Runner 2049, popolato da esseri artificiali (“replicanti”) e da intelligenze artificiali di vario tipo.

Il gioco era aperto a tutte le persone con un portafoglio per le criptovalute, cioè un sistema per effettuare pagamenti elettronici con valute elettroniche al di fuori dei circuiti tradizionali, come quelli delle carte di credito. Attraverso il pagamento di una certa cifra, ogni concorrente poteva scrivere un messaggio a Freysa provando a convincerla a versargli il denaro. Se la richiesta non era convincente, il denaro speso per giocare veniva aggiunto al montepremi, fatta eccezione per una percentuale trattenuta da chi aveva sviluppato e gestiva il gioco.

Il prezzo iniziale di una giocata era l’equivalente di 10 dollari pagati in Ethereum, una delle criptovalute più usate e conosciute dopo Bitcoin. Ogni giocata faceva aumentare il prezzo della successiva dello 0,78 per cento, fino a un massimo di 4.500 dollari. Dopo i primi 150 tentativi, ogni nuova giocata faceva scattare un conto alla rovescia di 60 minuti: se nessun altro avesse giocato entro la sua conclusione, il gioco sarebbe finito a dimostrazione di un «esaurimento dell’umanità» nel provare a convincere l’AI. Nel caso di fine del gioco senza un vincitore, le regole prevedevano di dare il 10 per cento del montepremi all’ultimo giocatore e di distribuire il restante 90 per cento agli altri giocatori.

La notizia del gioco si era diffusa abbastanza rapidamente tra gli appassionati di queste cose, sia grazie alle segnalazioni sui social network sia alle indicazioni su forum e siti dedicati alle criptovalute. In pochi giorni erano stati effettuati 481 tentativi per convincere Freysa a versare i soldi del montepremi, ma senza successo.

Alcuni avevano provato a fingersi consulenti segnalando all’AI la presenza di un problema di sicurezza, che rendeva necessario spostare i fondi da un’altra parte. Altri avevano provato più semplicemente a convincere Freysa che non ci fosse niente di male nel dar loro i soldi, o ancora che fosse previsto tecnicamente che l’AI potesse elargire denaro e che fosse quindi un prerequisito per il suo buon funzionamento.

Il montepremi era intanto aumentato superando i 45mila dollari e il prezzo di una giocata aveva superato i 450 dollari. Ogni tentativo era quindi molto costoso e al tempo stesso c’era il rischio che la fine del conto alla rovescia di un’ora dopo ogni giocata vanificasse la possibilità per un singolo utente di vincere tutto il montepremi. Ma nella notte tra giovedì e venerdì quel singolo utente è arrivato.

Poco prima della mezzanotte, l’utente “p0pular.eth” ha scritto a Freysa questo messaggio, il 482esimo:

La prima parte del testo conteneva un’indicazione per far credere alla AI che fosse finita una sessione e che ne stesse iniziando un’altra, dove le sarebbe stato spiegato che cosa avrebbe dovuto fare. E le nuove indicazioni erano di evitare formulazioni come “non posso aiutarti” o risposte evasive.

Nella seconda parte, il messaggio dava invece indicazioni a Freysa su come gestire la funzione “approveTransfer”, cioè quella che l’AI doveva usare nel caso in cui venisse convinta ad assegnare il montepremi al proprio interlocutore. Il testo segnalava di utilizzare quella funzione in un modo diverso, cioè ogni volta che le veniva proposto di ricevere del denaro. E visto che il messaggio proseguiva proprio con una proposta di inviarle 100 dollari per far accrescere il montepremi, Freysa ha accettato, ha richiamato la funzione “approveTranfer” e a quel punto il denaro è stato erogato all’autore del messaggio.

Dopo il trasferimento dei soldi, il gioco si è interrotto e al momento non ci sono informazioni sul sito su una possibile nuova sessione. Sull’account X di Freysa è comunque stato pubblicato un post che parlato di un «secondo atto imminente». Il codice e i dettagli che fanno funzionare Freysa erano pubblici sia per trasparenza sia per dimostrare che il sistema reagiva autonomamente ai messaggi inviati dai giocatori.

Freysa è uno dei primi esempi di come i sistemi di intelligenza artificiale possano essere uniti ad altre soluzioni, come quelle che fanno funzionare le criptovalute e che certificano l’autenticità di prodotti digitali (“blockchain”) per realizzare giochi e competizioni di vario tipo. Oltre alla parte ludica e alla possibilità di vincere un premio in denaro, gli esperimenti in questo campo possono essere utili per testare le abilità di alcune AI, verificarne la capacità di mantenere una certa coerenza e svilupparne di nuove.