Ricostruire voci che non esistono più

Attraverso tecnologie per far dire alle persone cose che non hanno mai detto, per esempio nei film: è in corso un dibattito etico

Un registratore nel film “American Hustle”

In un video condiviso su YouTube la scorsa settimana si sente qualcuno dire «la mia voce così come la conoscevo mi è stata portata via», ma «adesso posso esprimermi di nuovo». Ascoltando il messaggio, gli appassionati di cinema potrebbero capire che si tratta dell’attore statunitense Val Kilmer, diventato famoso tra gli anni Ottanta e gli anni Novanta per film come Top Gun, The Doors e Batman Forever: quella che si sente nel video però non è la sua voce naturale, bensì una voce artificiale ricostruita dalla startup inglese Sonantic su richiesta dell’attore, che dopo un intervento chirurgico del 2015 dovuto a un cancro alla gola non riesce più a parlare come prima.

Negli ultimi tempi moltissime startup e aziende di software hanno migliorato notevolmente le loro tecnologie per creare non soltanto voci artificiali come quelle delle assistenti vocali Alexa e Siri, ma anche per riprodurre il timbro e la parlata di persone reali, viventi o meno, che possono essere utilizzate in diversi ambiti, come il cinema o l’intrattenimento.

L’utilizzo dell’intelligenza artificiale per riprodurre la voce dei personaggi in questi ambiti è relativamente nuovo, ma oltre a poter fare un certo effetto sul pubblico mette di fronte a una serie di questioni etiche e legali, in particolare rispetto alla legittimità di usarla per manipolare o creare contenuti.

Di recente se n’è parlato parecchio anche per via del dibattito sull’uso della voce artificiale in Roadrunner, il film-documentario sul noto chef e divulgatore culinario Anthony Bourdain, morto nel 2018 a 61 anni.

Sonantic esiste da tre anni e si occupa prevalentemente del settore dei videogiochi, per cui realizza software che consentono ai vari studi di modificare le voci dei personaggi a loro piacimento, un po’ come se fosse «un Photoshop per la voce», ha spiegato al Washington Post John Flynn, il responsabile tecnologico della startup.

Flynn ha detto che per ricreare la voce di una persona ci vogliono circa 3 ore di tracce audio parlate, ma nel caso di Kilmer Sonantic ha dovuto lavorare con meno di mezz’ora di materiale per via di questioni legate ai diritti dei suoi film. Gli ingegneri della startup hanno quindi ripulito le tracce audio estratte da suoi vecchi video, messo a punto un codice in base al materiale che avevano a disposizione e utilizzato degli algoritmi che imparano a simulare la voce ascoltando le registrazioni e sono in grado di interpretare le varie emozioni a seconda delle parole che vengono dette o del loro contesto.

In questo modo Sonantic ha realizzato 40 diverse versioni della voce di Kilmer e ha selezionato quella che a suo parere rappresentava meglio l’espressività dell’attore, che potrà usarla come meglio crede, per un suo uso personale ma anche per tornare a fare cinema, dice l’azienda, se lo vorrà.

– Leggi anche: Una cosa che vedremo sempre di più

Secondo Sonantic in futuro queste tecnologie potrebbero essere utili per consentire a persone che come Kilmer hanno perso la loro voce naturale di comunicare e di continuare a lavorare, o per esempio per aiutare attrici e attori che hanno sforzato la voce troppo a lungo. Nel frattempo però l’uso di tecnologie di questo tipo sta sollevando le stesse perplessità che da qualche tempo sono collegate anche alla diffusione dei video deepfake, ovvero quelli manipolati con l’intelligenza artificiale per far dire a qualcuno cose che non ha mai detto o per mettere il viso di qualcuno sul corpo di qualcun altro, per esempio nei video porno.

In particolare, diversi esperti di tecnologie e intelligenze artificiali si chiedono se sia opportuno o comunque possibile fare un uso responsabile delle voci sintetiche nel cinema e nell’intrattenimento, e con che criteri.

Sonantic ha reso noto di aver iniziato il progetto per clonare la voce di Kilmer dopo la fine della produzione del documentario Val, che è uscito a metà luglio e racconta la carriera a Hollywood dell’attore, così come la sua lotta contro il cancro. Se la voce artificiale di Kilmer quindi non è stata utilizzata nel documentario, è invece andata diversamente per il film su Bourdain, in cui l’intelligenza artificiale è stata utilizzata per “far dire” al protagonista tre frasi che effettivamente erano state scritte dallo stesso chef, e che però non aveva mai pronunciato mentre era in vita: ma soprattutto, la voce artificiale di Bourdain è stata impiegata senza che la cosa fosse stata comunicata esplicitamente al pubblico.

L’utilizzo dell’intelligenza artificiale per ricreare la voce dello chef nel film è emerso soltanto durante alcune interviste al regista Morgan Neville dopo la sua uscita, e ha provocato reazioni per lo più negative, in cui si è parlato di «una cosa inquietante», di «una mostruosità».

“But there were three quotes there I wanted his voice for that there were no recordings of,” Neville explained. So he got in touch with a software company, gave it…hours of recordings, and, he said, “I created an A.I. model of his voice.”

WTF?!https://t.co/3ukaYqe9FJ

— Patrick Lucas Austin (@patbits) July 15, 2021

In un articolo sul New Yorker, la giornalista Helen Rosner ha notato che l’utilizzo della voce artificiale può dare particolare fastidio agli spettatori per via dello stretto legame che sentono di avere con un attore o un personaggio pubblico, un fenomeno che in psicologia si chiama relazione parasociale. Allo stesso tempo, Rosner ha osservato che la voce artificiale potrebbe essere particolarmente controversa proprio nei documentari, perché sono forme di narrazione «molto ampie e vaghe», in cui le storie possono essere estesamente ricostruite e manipolate.

La giornalista del MIT Technology Review Karen Hao, esperta di intelligenze artificiali, ha segnalato a Rosner due esempi di utilizzo delle voci artificiali che considera siano stati efficaci e di successo: la ricostruzione a scopo educativo del famoso discorso di Richard Nixon “In Event of Moon Disaster” (“In caso di disastro lunare”), cioè quello che avrebbe dovuto pronunciare se qualcosa fosse andato storto nella missione lunare dell’Apollo 11, e una recente puntata dei Simpson in cui per doppiare il personaggio di Edna Krabappel (la signora Caprapall nella versione italiana) è stata ricreata la voce della doppiatrice originale, Marcia Wallace, morta nel 2013.

A ogni modo, secondo Hao, bisognerebbe essere in grado di individuare il contesto opportuno per usare le voci artificiali: sia il discorso di Nixon che la puntata dei Simpson sono chiaramente prodotti di fiction, ha commentato Hao, ma in un documentario «di certo non ci si aspetta di ritrovarsi a vedere video o audio fake da un momento all’altro».

– Leggi anche: La startup che vuole cambiare il doppiaggio

Come ha spiegato a Rosner Sam Gregory, direttore di un’organizzazione non profit che si occupa dell’utilizzo etico dei video e delle tecnologie, l’impiego dell’intelligenza artificiale in Roadrunner potrebbe non sembrare così problematico perché è stato appunto usato per pronunciare frasi che aveva scritto lo stesso Bourdain. Secondo Gregory comunque ci sono due parametri che aiutano a definire «l’uso etico dei mezzi di comunicazione sintetici», che nel caso di questo documentario non sono stati seguiti.

Da un lato, c’è la questione legata al consenso da parte della persona la cui voce viene simulata, e dall’altro c’è quella della responsabilità da parte di chi sceglie di utilizzare queste tecnologie, che implica il dovere di renderlo noto al pubblico o comunque di chiarire con che scopo lo si fa, soprattutto nel caso di un documentario. Nel caso di Bourdain, oltre a non aver comunicato subito che era stata usata una voce artificiale, sembra che tra le altre cose non ci fosse l’approvazione unanime dei familiari stretti per utilizzarla, o per lo meno non c’era quella della ex moglie, Ottavia Busia.

Tag: anthony bourdain-cinema-deepfake-intelligenza artificiale-val kilmer-voce artificiale