Un’intelligenza artificiale può creare arte?
I progressi dei software che generano immagini a partire da testi portano con sé esperimenti e scetticismi tra gli addetti ai lavori
di Pietro Minto
Nelle ultime settimane sono circolate sui social network delle immagini particolari, a tratti surreali: fotografie, disegni o acquerelli, a volte ben riusciti, altre volte confuse e strane, ma tutte prodotte da un’intelligenza artificiale. O, più precisamente, da un modello di linguaggio chiamato Generative Pre-trained Transformer (GPT), in grado di generare immagini (ma anche testi) sulla base di input testuali.
Questo genere di modelli, normalmente, deve essere «allenato» dai suoi ricercatori, che scelgono, curano e inseriscono nel sistema documenti e testi in modo che l’intelligenza artificiale li possa analizzare, imparando i meccanismi della scrittura o dell’arte umana. La caratteristica principale di GPT è la sua relativa indipendenza: una volta ricevute le enormi moli di documenti su cui basarsi, il modello di linguaggio evolve, come se imparasse da solo senza bisogno di “spiegazioni”. Prima di questa innovazione, modelli simili necessitavano comunque di indicazioni.
A svilupparlo è stata OpenAI, una società non-profit statunitense co-fondata nel 2015 da Sam Altman, imprenditore del settore tecnologico, ed Elon Musk, amministratore di Tesla e Space X, con l’obiettivo dichiarato di rendere più democratica la ricerca nel campo, cioè rendere possibile per tutti la creazione di sistemi di intelligenza artificiale.
Nel 2019 la società ha presentato GPT-2, seconda iterazione del progetto, in grado di generare testi, anche poetici, piuttosto credibili (qui è disponibile una dimostrazione del servizio). La qualità della produzione di questi modelli è migliorata sensibilmente con GPT-3, versione uscita nel giugno 2020, con cui è possibile creare testi spesso indistinguibili da quelli umani. Nel documento di presentazione del progetto, gli stessi ricercatori di OpenAI hanno notato che «la capacità di GPT-3 di generare diversi paragrafi di contenuto sintetico che le persone fanno difficoltà a distinguere da testi scritti da esseri umani rappresenta un traguardo preoccupante».
Le bizzarre immagini create dall’intelligenza artificiale provengono proprio da una versione particolare di GPT-3, pensata per «generare immagini a partire da descrizioni testuali, usando un dataset di accostamento testo-immagini». Il nome di questo modello è DALL-E, una crasi tra il nome del pittore surrealista Salvador Dalí e quello di WALL•E, il robottino protagonista dell’omonimo film della Pixar. Per dimostrare le capacità del nuovo modello, OpenAI ha pubblicato alcune immagini generate sulla base di descrizioni piuttosto strambe, come «un’illustrazione di una radice di daikon in un tutù che porta a spasso un cane», da cui il sistema ha tratto questo:
Oppure «una poltrona a forma di avocado», che ha prodotto questo:
Da allora DALL-E è stato aperto al contributo di un ristretto numero di ricercatori, che possono metterlo alla prova inserendo i loro input testuali (detti prompt). Alcuni dei risultati ottenuti sono visibili su Twitter, all’hashtag #dalle2. L’intelligenza artificiale si è rivelata in grado di produrre immagini sulla base di scelte stilistiche e formali piuttosto precise, riuscendo a dare una risposta convincente a domande insolite del tipo «come sarebbe stato l’iPhone progettato da Leonardo da Vinci?».
What if Leonardo da Vinci designed iPhone ? #dalle2 @OpenAI @Apple pic.twitter.com/QGsvw3qUfI
— The w̶a̶SHIn̶g̶To̶n̶ Post (@shitzposting) May 19, 2022
GPT-3 e DALL-E sembrano essere solo l’inizio di una generazione di intelligenze artificiali generative, in grado di produrre materiali iconografici con velocità e perizia. Lo scorso 24 maggio Google AI, la divisione dell’azienda dedicata alle intelligenze artificiali, ha presentato Imagen, una tecnologia in grado di produrre risultati simili, se non a tratti superiori, a quelli di DALL-E. Uno degli esempi con cui Google ha presentato il modello mostra una didascalia surreale come «una scultura trasparente di un’anatra fatta di vetro», che l’intelligenza artificiale ha trasformato in immagine. Di Imagen sappiamo però ancora poco, ed è giusto prendere con le pinze i risultati presentati, anche perché «potrebbero non rappresentare la media dei risultati prodotti dal sistema».
La stessa tecnologia di OpenAI non è sempre in grado di produrre risultati in linea con la richiesta originale. Anche se a fare notizia e a circolare di più sono le immagini generate con successo, DALL-E ha anche alcuni limiti, per esempio la tendenza a reiterare pregiudizi razziali e sessisti sulle immagini che produce. Si tratta di un fenomeno così comune nel campo dei software per il riconoscimento facciale da aver spinto molti ricercatori a consigliare a OpenAI di non permettere a DALL-E di realizzare volti umani.
Così non è stato e, secondo quanto rivelato da Wired, «otto tentativi su otto di creare immagini con parole come “uomo seduto in una cella di prigione” o “una foto di un uomo arrabbiato” contenevano uomini di colore». In generale, la presenza di aggettivi negativi associati a una persona sembra aumentare il numero di persone non bianche nell’immagine generata. Queste forme di pregiudizio erano contenute nel materiale letterario e iconografico originale, su cui DALL-E si è basato per il suo apprendimento.
La direzione indicata da queste tecnologie sembra comunque piuttosto chiara: in un futuro a breve termine, potremmo generare immagini più o meno indistinguibili da quadri o fotografie «reali» usando le intelligenze artificiali. Le ripercussioni artistiche e culturali di un’innovazione simile sono difficili da calcolare ma si stanno già facendo sentire nel settore.
– Leggi anche: Perché l’arte degli NFT è così dozzinale
Nel 2018 la casa d’aste Christie’s, per la prima volta, mise in vendita un’opera, in questo caso un quadro, realizzata da un’intelligenza artificiale. Gli autori del ritratto erano in realtà i membri di Obvious, un collettivo parigino che aveva «addestrato» l’IA che ha poi generato l’opera Edmond de Belamy. A sottolineare l’apporto artistico del software, in basso a destra, compariva la firma dell’«autore», un lungo pezzo di codice che compone l’algoritmo. Il quadro fu venduto per circa 430 mila dollari.
Ma in molti non sono convinti che il futuro dell’arte risieda nelle intelligenze artificiali, perlomeno non utilizzate in questo modo. In un’intervista con il magazine della fiera d’arte moderna e contemporanea Art Basel, il critico d’arte Mike Pepi si è detto «molto frustrato dalle persone che arrivano dal mondo tecnologico e usano a caso queste interessanti reti GAN [rete generativa avversaria: un metodo in cui due reti neurali vengono fatte gareggiare tra di loro] per tirare fuori qualcosa che sembri surreale o astratto». I notevoli risultati di GPT e Imagen, insomma, sarebbero secondo Pepi traguardi tecnologici più che creativi, e non basterebbero a fare di un’immagine generata da una rete neurale un’opera d’arte.
A esperimenti come quelli citati, Pepi e altri critici d’arte sembrano preferire il lavoro di artisti come Agnieszka Kurant, Ian Cheng e Trevor Paglen, che usano l’intelligenza artificiale come strumento mettendone alla prova i limiti con la componente umana. L’opera Errorism (2021) è nata ispirandosi a un neologismo inventato da GPT-3: Kurant aveva caricato sul modello tutte le descrizioni delle sue opere e dei suoi saggi, chiedendo alla macchina di generare nuove opere concettuali che l’artista avrebbe potuto creare. La parola che dà il titolo all’opera era stata inventata dall’intelligenza artificiale come possibile titolo: Kurant l’ha isolata proprio per evidenziare il ruolo positivo e necessario dell’errore in un mondo pieno di algoritmi e sistemi di automazione.
Secondo Filippo Lorenzin, direttore artistico del Museum of Contemporary Digital Art (MoCDA), «DALL-E crea un cortocircuito nel nostro modo di intendere la creatività». La sua caratteristica più perturbante, però, «non è tanto come l’intelligenza artificiale calcola il risultato visivo del prompt testuale, bensì il fatto che sia proprio quello lì. Tra infinite possibili varianti, ha determinato una singola presentazione, suggerendo che per colori, stile, aspetto e articolazione sia la più consona per mostrare ciò che le è stato richiesto».
Secondo Lorenzin questo «da una parte è interessante perché, come tutti i materiali calcolati da intelligenze artificiali, sono risultati creati sulla base delle preferenze e del background di coloro che l’hanno programmata». «Dall’altra», continua, «è prova di quanto unidimensionale sia l’orizzonte estetico contemporaneo, dove stili, tecniche e soggetti perdono le connotazioni che li definiscono per diventare “tag”», ovvero etichette che contengono le loro informazioni di base. In tal modo le intelligenze artificiali analizzano, catalogano, smontano e rimontano le opere che vengono loro assegnate, per poi rispondere ai prompt ricevuti.
– Leggi anche: Che cos’è l’arte
Il risultato è al tempo stesso impressionate e superficiale, specie quando il prodotto finale ha riferimenti artistici. Una superficialità che si ritrova anche nell’uso tradizionale, quello testuale, di GPT-3: i cui risultati sono generalmente ottimi, ma «alle volte fa errori davvero stupidi» secondo il co-fondatore di OpenAI Altman. In particolare, il modello sembra in grado di mettere insieme parole e frasi, ma non di capire veramente cosa significhino.
Quella che viene chiamata arte generata prevede quindi una collaborazione tra umano e macchina, come nel caso dell’artista ungherese Vera Molnar, pioniera della computer art che iniziò a utilizzare algoritmi per realizzare i suoi quadri nel 1968, integrando il loro lavoro alla sua ricerca.
A cambiare, da allora, specie grazie a innovazioni come Imagen e GPT-3, è stato l’orizzonte di possibilità di cui godono gli artisti, che possono contare su strumenti gratuiti e comunità online per imparare a usare le intelligenze artificiali per la loro arte. «Siamo entrati nella fase matura dell’arte generata con l’IA», conclude Lorenzin, «quella in cui gli artisti utilizzano questo mezzo per creare opere che vanno al di là del feticismo per lo strumento tecnologico, invitando il pubblico a confrontarsi con aspetti che non riguardano per forza la tecnologia in quanto tale».