I milioni di libri piratati per le intelligenze artificiali
Da una causa contro Meta è emerso come alcune grandi aziende informatiche attingano da una libreria illegale online per allenare i loro sistemi

Questa settimana Meta ha iniziato a introdurre anche in Europa, Italia compresa, il proprio assistente Meta AI con sistemi di intelligenza artificiale basati su Llama 3, il suo modello linguistico più recente per generare testi e altri contenuti. La società dice che l’assistente sarà disponibile all’interno delle chat di Instagram, WhatsApp e Facebook, per organizzare meglio le conversazioni, ottenere informazioni e produrre nuovi contenuti. L’annuncio è arrivato negli stessi giorni in cui sono stati diffusi documenti su una causa legale negli Stati Uniti per presunta violazione del copyright da parte di Meta, proprio per sviluppare i suoi sistemi di intelligenza artificiale come Llama 3.
I modelli linguistici vengono “allenati” su enormi quantità di documenti, come libri, articoli e lavori accademici, per migliorare la loro capacità di produrre testi e di farlo nel modo più naturale possibile. Le aziende come Meta – ma anche Google e OpenAI col suo ChatGPT – attingono soprattutto dalle biblioteche online, spesso senza chiedere l’esplicito permesso agli editori, sostenendo che l’impiego di quei dati rientri nel fair use (utilizzo equo) e quindi nella possibilità di impiegare liberamente il materiale protetto dal diritto d’autore. Le società sostengono che i loro sistemi producono testi nuovi, senza riproporre alla lettera quelli di partenza, quindi senza violazioni del copyright. Molti editori e autori ritengono che le cose stiano diversamente e nel tempo hanno avviato diverse cause legali contro i principali sviluppatori di sistemi di intelligenza artificiale.
Nel caso di Meta, una causa avviata in California sta offrendo la possibilità di vedere come la società abbia gestito sia le decisioni legate all’impiego di testi protetti dal diritto d’autore, sia il modo in cui ottenerli. La società stava lavorando a Llama 3 con una certa urgenza per rendersi più competitiva con OpenAI, diventata famosa grazie al suo ChatGPT, e in quel contesto impiegati e dirigenti di Meta avevano iniziato a valutare la possibilità di ottenere libri e articoli accademici in licenza, quindi pagando autori ed editori. Non era però una possibilità che piaceva a tutti, sia per la prospettiva di dover spendere molto, sia per il rischio di dover risolvere numerose questioni pratiche e legali con lunghi tempi per la consegna dei documenti da utilizzare per l’allenamento di Llama 3.
Uno dei responsabili dello sviluppo del sistema scrisse ai propri colleghi: «Il problema è che la gente non si rende conto che se prendiamo in licenza un singolo libro, non potremo poi orientare la questione sul fair use», perché a quel punto la società avrebbe ammesso nella pratica che pagare gli editori sarebbe stato più equo e corretto, creando un precedente. Lo stesso manager chiarì in seguito che «è molto importante avere i libri il prima possibile, […] i libri sono molto più importanti dei generici dati sul Web».
Fu a quel punto, stando ai documenti della causa e a una ricostruzione fatta dall’Atlantic, che alcuni impiegati di Meta valutarono la possibilità di utilizzare LibGen (da “Library Genesis”), una delle più grandi biblioteche non autorizzate su Internet che raccoglie milioni di libri e di studi accademici, una sorta di Pirate Bay, ma solo per i contenuti testuali. Se avessero attinto da quella biblioteca, avrebbero potuto accelerare il lavoro di raccolta e analisi dei test, rendendo più spedito l’allenamento di Llama 3. Il gruppo di lavoro ricevette il permesso di utilizzare LibGen da un responsabile citato nelle conversazioni come “MZ”, le stesse iniziali del CEO di Meta, Mark Zuckerberg.
Da altri documenti processuali, era emerso in passato che anche OpenAI aveva attinto da LibGen, sempre giustificando l’utilizzo di quei dati con il fair use e respingendo quindi le accuse di avere violato il diritto d’autore. La difesa secondo cui i modelli linguistici “trasformano” i testi generandone di nuovi, senza plagiare i contenuti di partenza, è molto dibattuta e continuerà a essere al centro di molte iniziative legali, ma i documenti della causa contro Meta mostrano che c’è probabilmente dell’altro.
Scaricare libri e altri contenuti da LibGen in grandi quantità implica l’utilizzo di BitTorrent, un protocollo per lo scambio e la condivisione dei file online di tipo peer-to-peer. Solitamente, chi scarica un contenuto in questo modo contribuisce automaticamente anche alla sua condivisione, così che possa essere trovato e scaricato anche da qualcun altro. Il sistema è decentralizzato (cioè coinvolge direttamente i computer di chi condivide i file) ed è di per sé lecito, ma diventa illegale nel momento in cui si distribuiscono contenuti protetti dal diritto d’autore.
Scaricando i testi trovati su LibGen, Meta potrebbe averli anche condivisi, violando il copyright. La società sostiene di avere preso le precauzioni del caso per evitare questa circostanza e dice che non ci sono prove che sia successo altrimenti, ma i documenti della causa legale mostrano che almeno inizialmente c’erano dubbi e incertezze tra i dipendenti.
Come segnala sempre l’Atlantic, un impiegato consigliò di rimuovere dal materiale scaricato «i dati chiaramente segnati come piratati/rubati» e invitò i colleghi a «non citare all’esterno l’uso di dati per l’allenamento inclusi quelli ottenuti tramite LibGen». Fu anche proposto di rimuovere ogni riferimento al diritto d’autore dalle opere scaricate e anche il loro ISBN, il codice internazionale di catalogazione dei prodotti editoriali. Un impiegato scrisse in una comunicazione che «scaricare i torrent da un computer aziendale non mi sembra una buona idea», mentre un altro suggerì di inserire alcuni limiti dentro Llama 3 in modo che si rifiutasse di rispondere a specifiche richieste come “Riproduci le prime tre pagine di Harry Potter e la pietra filosofale”, cosa che avrebbe dimostrato l’impiego diretto di quei testi non solo nel processo di allenamento, ma anche di produzione delle risposte.
LibGen esiste dal 2008 e fu creata in Russia con l’obiettivo di rendere più accessibili soprattutto le ricerche accademiche, quasi sempre pubblicate da riviste scientifiche per le quali è necessario pagare un abbonamento online. Secondo i suoi fondatori questo sistema ostacola la libera circolazione della conoscenza, specialmente a svantaggio di chi fa ricerca nei paesi più poveri e non può permettersi gli abbonamenti. Il sistema è una sorta di grande motore di ricerca, che permette poi di arrivare ai file veri e propri tramite BitTorrent o altri sistemi di condivisione. Periodicamente viene bloccato per violazione del copyright, ma come spesso avviene con questo tipo di risorse ricompare online con un nuovo indirizzo e il suo intero catalogo.
Nel 2017 Elsevier, una delle più grandi case editrici di riviste scientifiche e accademiche, provò a far bloccare LibGen e altre biblioteche non autorizzate simili. Un tribunale degli Stati Uniti impose la chiusura dei siti e il pagamento di risarcimenti da svariati milioni di dollari. Nel 2023 avvenne qualcosa di simile con una causa avviata da alcuni importanti editori statunitensi come Macmillan e McGraw-Hill. In entrambi i casi i risarcimenti non furono mai pagati e fu sostanzialmente impossibile bloccare LibGen e i suoi simili.
I cataloghi di queste biblioteche non autorizzate sono sterminati e questo probabilmente spiega perché siano così ambite da alcune delle società che sviluppano modelli linguistici. La loro offerta varia di continuo e soprattutto comprende buona parte dei libri appena pubblicati, dando quindi la possibilità di aggiornare e arricchire i sistemi di allenamento per le intelligenze artificiali. È però molto difficile, se non impossibile, ricostruire quali parti di LibGen siano state utilizzate da Meta o da OpenAI per lo sviluppo dei loro sistemi, anche se altri elementi potrebbero emergere dai documenti legati alle cause per la violazione del copyright.
Prima di diventare disponibile in Europa, l’assistente di Meta AI era già stato utilizzato da centinaia di milioni di persone negli Stati Uniti e in altri paesi in giro per il mondo. Nell’Unione Europea la diffusione del sistema era stata ritardata non tanto per questioni legate al diritto d’autore, ma per verificare che l’assistente rispettasse le regole sulla tutela della privacy e dei dati degli utenti, più stringenti per i cittadini europei.