• Media
  • Sabato 1 giugno 2024

I giornali stanno facendo un grave errore con OpenAI?

Vari gruppi editoriali stanno cedendo per milioni di dollari i loro contenuti, necessari per allenare i sistemi di intelligenza artificiale: non tutti sono convinti sia un buon affare

Immagine ottenuta con un sistema di intelligenza artificiale (DALL•E 3)
Immagine ottenuta con un sistema di intelligenza artificiale (DALL•E 3)
Caricamento player

Nella settimana appena trascorsa il gruppo editoriale dell’Atlantic, storica e rispettata rivista statunitense, e Vox Media, che gestisce tra gli altri i seguiti siti Vox e The Verge, hanno annunciato di avere dato in licenza d’uso i propri archivi all’azienda OpenAI per lo sviluppo di ChatGPT e degli altri suoi sistemi di intelligenza artificiale (AI). I due accordi sono solo gli ultimi di una lunga serie di contratti firmati da alcuni dei più grandi editori di giornali al mondo con OpenAI, che ha bisogno di contenuti di qualità per migliorare le proprie AI e al tempo stesso ha la necessità di evitarsi cause legali per violazioni del diritto d’autore.

Per molti editori è un’opportunità per ricavare velocemente denaro e affrontare le difficoltà di un settore da tempo in crisi, ma secondo diversi osservatori gli accordi di questo tipo sono rischiosi e portano alla svendita del bene più prezioso dei giornali: i loro contenuti.

L’Atlantic esiste in varie forme dal 1857, quando iniziò le pubblicazioni a Boston, e da allora ha raccontato le evoluzioni della società statunitense, della politica e del costume, ottenendo numerosi riconoscimenti e premi Pulitzer, tra i più importanti nel giornalismo. Il suo sito ha subìto diverse trasformazioni e offre buona parte dei contenuti che vengono pubblicati sulla rivista, oltre a un ricco archivio contenente gli articoli pubblicati fino dalle origini. Con l’accordo annunciato in settimana, questi contenuti saranno messi a disposizione di OpenAI per “allenare” le proprie AI e migliorare le risposte che danno agli utenti.

Molto in generale, alcuni particolari sistemi di AI come ChatGPT sono basati su modelli linguistici di grandi dimensioni (LLM) per la generazione di testi, che prevedono le parole da utilizzare man mano che scrivono una frase. Tra i modi per fare acquisire alle AI questa capacità e raffinarla nel tempo c’è la somministrazione di grandi quantità di dati, per lo più testi, da analizzare e usare come modello. I sistemi possono poi essere affinati e calibrati su testi specifici, ritenuti più affidabili di altri per rispondere a determinate richieste come: “Era davvero bianco il cavallo di Napoleone?” (Dipende).

OpenAI, come altre società che sviluppano AI, sono quindi costantemente alla ricerca di testi da utilizzare per allenare i loro sistemi. Per diverso tempo lo hanno fatto senza porsi troppi problemi, attingendo alla enorme quantità di dati disponibili online, in una fase in cui l’interesse verso ChatGPT e simili riguardava per lo più gli addetti ai lavori e poco il pubblico in generale.

Le cose cambiarono sensibilmente un paio di anni fa quando ChatGPT iniziò a riscuotere un certo successo, portando anche a una discreta frenesia intorno ai temi delle AI. Per tutelare i propri contenuti, alcuni editori chiesero l’esclusione dei propri archivi e minacciarono di fare causa a OpenAI e agli altri, accusandoli di violazione del diritto d’autore. Le aziende sviluppatrici di AI inizialmente si difesero sostenendo che le risposte fornite dai loro sistemi non fossero dei copia-e-incolla dei testi prodotti da altri, ma nuove elaborazioni realizzate utilizzando talvolta i contenuti degli editori come fonti di partenza. Ma non tutti trovarono convincente questa versione.

Alla fine del 2023 il New York Times ha per esempio fatto causa a OpenAI accusandola di avere utilizzato i propri archivi senza permesso per lo sviluppo di ChatGPT. L’azienda si è difesa citando la questione delle fonti e della rielaborazione dei testi, ma la vicenda non è ancora risolta e in mancanza di un accordo tra le due parti potrebbe finire in tribunale. Non è escluso che alla fine il New York Times e OpenAI trovino un compromesso che soddisfi entrambi, ma la causa ha comunque spinto OpenAI a essere più cauta e a cercare la collaborazione degli editori promettendo loro in cambio l’accesso ad alcune funzionalità extra di ChatGPT e soprattutto denaro. In alcuni casi molto denaro.

Gli accordi sono riservati e dunque pubblicamente nessun editore ha fornito informazioni sulla loro effettiva entità economica, ma in questi mesi sono circolate diverse stime, complice la quantità crescente di contratti stretti da OpenAI. La società ha infatti accordi con alcuni dei più importanti editori di notizie al mondo come l’agenzia di stampa internazionale Associated Press, il grande gruppo editoriale tedesco Axel Springer, il giornale francese Le Monde, il gruppo editoriale spagnolo Prisa che pubblica il quotidiano El País, così come il giornale finanziario britannico Financial Times e il gruppo statunitense News Corp, che controlla tra gli altri il Wall Street Journal e il New York Post.

Il CEO di OpenAI, Sam Altman (Kent Nishimura/Getty Images)

A oggi si stima che l’accordo più grande abbia riguardato proprio News Corp, sia per l’importanza del gruppo editoriale nel panorama internazionale sia per la quantità di testate, con una cifra intorno ai 250 milioni di dollari per cinque anni di collaborazione. Il Financial Times avrebbe ottenuto tra i 5 e i 10 milioni di dollari, mentre altre testate qualcosa di meno, anche se come abbiamo visto non ci sono conferme ufficiali e i contratti vincolano a non svelare l’entità degli accordi.

Il risultato più evidente per chi utilizza ChatGPT o i sistemi derivati usati da altre aziende, come Microsoft che ha un importante investimento dentro OpenAI, sarà quello di ricevere risposte con brevi estratti degli articoli dei giornali con un link verso le loro versioni complete online. OpenAI sostiene che in questo modo gli editori potranno aumentare i propri lettori online, ma non è molto chiaro quale possa essere l’incentivo a cliccare se si ottiene già la risposta desiderata all’interno di ChatGPT.

La parte meno evidente degli accordi, ma che interessa di più a OpenAI, è quella di poter accedere agli archivi delle testate con cui ha stretto accordi, in modo da utilizzarne i dati per allenare i propri sistemi e sviluppare nuovi servizi, senza rischiare cause per violazione del copyright o altri diritti. Per la società è un’enorme opportunità per utilizzare dati di qualità e ridurre la frequenza di risposte scorrette fornite dai propri sistemi, ma in molti si chiedono se i vantaggi per OpenAI non superino abbondantemente quelli per gli editori, che forse stanno sottovalutando il valore dei loro archivi.

Tra le persone a esserselo chiesto c’è Damon Beres, giornalista e responsabile della sezione “Tecnologia” dell’Atlantic, testata fresca di accordo con OpenAI: «Sembra un po’ come se gli editori stiano facendo un patto con… beh, posso dirlo? Quel tizio rosso con una coda appuntita e due corna?». In un articolo pubblicato sul sito della rivista – che mantiene una propria autonomia dall’editore che la gestisce – Beres ha elencato i problemi resi evidenti dai primi usi delle AI oltre alle violazioni del copyright: la diffusione di notizie sbagliate e false, eppure pericolosamente convincenti, i numerosi dissidi intorno a OpenAI proprio sul modo in cui gestisce gli affari e il modo poco trasparente in cui spesso si muove l’intero settore.

Beres ha scritto che a peggiorare ulteriormente l’impressione dell’attuale situazione c’è un certo senso di «ineludibile déjà vu», legato a come si erano comportati gli editori di giornali negli anni scorsi. Davanti alle difficoltà economiche portate dalla digitalizzazione, alcuni avevano sperato di poter risolvere i loro problemi grazie alle grandi aziende tecnologiche come Facebook e Google, le stesse che paradossalmente erano state la causa di alcune di quelle difficoltà, per esempio con il loro forte controllo della pubblicità online su cui le testate cercavano di sostenersi.

Nel 2016, per esempio, alcuni editori accettarono di buon grado le offerte di denaro da parte di Facebook per finanziare la produzione di video che sarebbero stati mostrati sul social network, che aveva molto interesse nel diffondere la propria piattaforma video dove poteva mostrare annunci pubblicitari più redditizi. Il “pivot to video” (letteralmente “passaggio al video”) sembrò essere una grande opportunità per testate storiche come il New York Times e il Wall Street Journal, ma anche e soprattutto per siti di notizie e intrattenimento emergenti come BuzzFeed, che fece il suo famoso esperimento per vedere dopo l’applicazione di quanti elastici si distrugge un’anguria. Quell’anno BuzzFeed raggiunse una valutazione di 1,7 miliardi di dollari, poi Facebook si disinteressò ai video e concluse le collaborazioni, determinando un rapido ridimensionamento del fenomeno (oggi BuzzFeed ha una valutazione di meno di un decimo rispetto ad allora).

(BuzzFeed)

Dinamiche simili hanno riguardato i rapporti spesso conflittuali tra gli editori e Google, accusato a più riprese di utilizzare i contenuti dei giornali senza pagare licenze e diritti per farlo. Il motore di ricerca si è sempre difeso sostenendo di utilizzare solo il minimo indispensabile per segnalare gli articoli nel proprio motore di ricerca, e nei servizi collegati come Google News, ma al tempo stesso ha avviato vari progetti per finanziare iniziative giornalistiche viste da molti come una soluzione per tenersi buoni i giornali. Diversi editori hanno accettato quei finanziamenti, anche se i programmi e le iniziative giornalistiche collegate hanno avuto vita breve, comportando talvolta rapidi aumenti e altrettanto repentine contrazioni del personale giornalistico incaricato di occuparsene.

L’impressione è che qualcosa di analogo possa avvenire nell’attuale fase di grande eccitazione intorno ai sistemi di intelligenza artificiale, con l’aggravante per gli editori di svendere i loro contenuti, come ha segnalato Jessica Lessin, fondatrice del sito The Information, che si occupa spesso di questi temi: «Gli editori dovrebbero essere pazienti e dovrebbero astenersi dal dare in licenza i propri contenuti per pochi spiccioli. Dovrebbero proteggere il valore del loro lavoro, e i loro archivi. Dovrebbero avere l’integrità di dire no. È semplicemente troppo presto per andare a braccetto con le aziende che hanno allenato i loro modelli su contenuti professionali senza permesso e non hanno argomenti convincenti su come contribuiranno a costruire il business delle notizie».

Lessin identifica parte del problema nei cambiamenti spesso tumultuosi che hanno accompagnato il settore negli Stati Uniti, soprattutto con l’uscita di alcune importanti famiglie dai giornali che un tempo controllavano con una minore ossessione per i ricavi, rispetto a quanto facciano ora «i miliardari con certi interessi», come Jeff Bezos che da una decina di anni è proprietario del Washington Post. Secondo Lessin questi cambiamenti hanno portato molti grandi editori a essere «amministrati da dirigenti la cui aspettativa di vita è la prossima trimestrale di cassa, non organizzare le loro aziende per i prossimi 50 anni». In contesti di questo tipo, la proposta di qualche milione di dollari e la prospettiva di accedere ad alcuni strumenti di AI molto discussi è allettante, anche se promettono un futuro al momento ancora nebuloso e incerto.

Vox Media – la società che controlla The Verge, Vox e altre testate finanziata con un forte investimento di NBCUniversal – ha annunciato l’accordo con OpenAI segnalando che inizierà a condividere i propri dati con l’azienda nel corso delle prossime settimane. In cambio, oltre a un accordo finanziario riservato, Vox Media potrà utilizzare le tecnologie di OpenAI per lo sviluppo di alcune sezioni del proprio sito, come la parte dedicata ai consigli per fare acquisti.

Nilay Patel, che dirige The Verge, ha commentato la notizia dell’accordo senza particolare enfasi, ma ricordando ruoli e prerogative della testata rispetto a Vox Media: «Non ho molto da dire su questa cosa: la nostra redazione è indipendente dagli accordi dell’azienda in termini di business ed è sempre stato così. Troveremo il modo di mettere qualche avviso quando necessario, è una cosa in cui siamo piuttosto bravi ;)». In questi anni The Verge ha raccontato spesso i progressi di OpenAI e delle altre società che si occupano di AI, facendo emergere quando necessario contraddizioni e problemi in un settore in rapido sviluppo.

Il CEO di Alphabet, Sundar Pichai, durante la presentazione di AI Overviews il 14 maggio 2024 a Mountain View in California (AP Photo/Jeff Chiu)

È probabile che nei prossimi mesi agli accordi finora annunciati da OpenAI se ne aggiungano altri non solo negli Stati Uniti, considerato che l’azienda sta lavorando per offrire migliori versioni delle proprie AI in lingue diverse dall’inglese. Finora non sono circolate informazioni su eventuali interlocuzioni con gli editori italiani, nonostante in Europa OpenAI abbia già iniziato a collaborare con alcuni gruppi editoriali.

Gli editori sono inoltre in attesa di capire quale strategia vorrà seguire Google, che ha di recente annunciato un nuovo sistema per il suo motore di ricerca per mostrare risposte alle domande degli utenti direttamente nelle pagine dei risultati, con testi generati dalla propria soluzione di intelligenza artificiale Gemini. Google sostiene che le risposte conterranno indicazioni sulle fonti e rimandi verso le pagine da cui sono state tratte le informazioni, ma gli editori ritengono che in questo modo si possa ridurre sensibilmente il traffico verso i loro siti.

Il sistema, che si chiama AI Overviews, è in fase di attivazione negli Stati Uniti e ha portato a esiti non sempre soddisfacenti. Rispondendo ad alcune particolari richieste, ha suggerito di usare la colla come ingrediente per la pizza e ad altri di mangiare pietre. Google ha spiegato che il servizio è in fase di calibrazione e che quelle risposte erano state ottenute con domande strane e insolitamente specifiche, ma il fatto che siano state diffuse dal motore di ricerca più utilizzato al mondo ha suscitato molte perplessità, anche tra chi si fa trovare nell’infinità di informazioni sul Web come gli editori dei giornali.