Il sistema di Google che trasforma qualsiasi cosa in un podcast

Basato sull'intelligenza artificiale, NotebookLM ora crea conversazioni audio tra due conduttori, realistiche e spesso sorprendenti, partendo da qualsiasi fonte

(DALL•E)
(DALL•E)

Esistono milioni di podcast in decine di lingue, al punto da pensare che esista almeno un episodio di un podcast praticamente su qualsiasi argomento. Naturalmente non è così considerata la vastità dello scibile umano, eppure c’è un sistema che ha le potenzialità di colmare qualsiasi lacuna nel racconto a voce di qualsiasi cosa. Si chiama NotebookLM, è inevitabilmente basato su sistemi di intelligenza artificiale, può essere usato da chiunque e produrre in pochi minuti un podcast di ogni genere, basandosi sui documenti che gli vengono forniti.

È tutt’altro che perfetto e porta talvolta a risultati sotto le aspettative, non a caso quelli di Google che lo hanno inventato lo definiscono “sperimentale”, eppure dà l’idea di quanto rapidamente si siano evoluti i sistemi di questo tipo con tutte le implicazioni del caso.

NotebookLM esiste dal 2023, ma nella sua versione iniziale non comprendeva l’opzione per generare un podcast. Il suo nome deriva dall’unione delle parole “notebook”, cioè “quaderno” in inglese, e LM che sta invece per “Language Model”, cioè un modello che funziona su base probabilistica per analizzare e produrre dei contenuti, per lo più testuali. Di LM si è parlato molto negli ultimi anni soprattutto in seguito ai progressi ottenuti dall’azienda statunitense OpenAI con il suo ChatGPT e in seguito per quelli ottenuti da Google, attraverso il suo sistema di AI chiamato Gemini che inizia a essere inserito in diversi servizi online offerti dall’azienda.

I sistemi come ChatGPT sono noti soprattutto per dare una risposta a qualsiasi domanda venga loro posta, grazie all’enorme quantità di dati che le AI hanno usato per allenarsi e alle fonti che possono consultare online. E proprio a causa delle fonti che utilizzano, e del modo in cui le mettono insieme, le risposte non sono sempre molto affidabili oppure sono completamente sbagliate a causa di gravi fraintendimenti (chiamati tecnicamente “allucinazioni” delle AI). La possibilità di restringere il campo delle conoscenze di questi sistemi, fornendo loro un elenco ristretto di fonti affidabili su cui lavorare, può ridurre il problema ed è un’opzione cui si ricorre spesso per esempio in ambito aziendale o accademico.

Partendo da questa possibilità, Google ha quindi sviluppato NotebookLM, proponendolo come un sistema per prendere più facilmente appunti mentre si effettua una ricerca su un determinato argomento. Si possono caricare fonti in numerosi formati, dai PDF ai file audio, passando per i video di YouTube e le pagine normalmente accessibili sul Web. Il sistema analizza tutte le informazioni e prepara automaticamente un riepilogo testuale, un sommario, una serie di domande frequenti e una guida allo studio.

Oltre alle risposte predefinite, si può interrogare direttamente l’AI di NotebookLM attraverso una chat, facendo quindi domande più specifiche su un determinato argomento. Ogni risposta è accompagnata da note e riferimenti alle parti delle fonti da cui sono state tratte le informazioni, in modo da poterle verificare e confrontare. In alcuni casi, il sistema offre anche qualche ulteriore dettaglio di contesto facendo riferimento alle “proprie” conoscenze, segnalando comunque che si tratta di informazioni aggiuntive da verificare in modo indipendente. Il sistema non usa i documenti che gli vengono sottoposti per allenarsi, di conseguenza i dati sono utilizzati al solo scopo di dare le risposte al singolo utente, dice Google.

NotebookLM è una versione più semplice da usare rispetto a strumenti simili, che permettono di mettere in relazione grandi quantità di dati e di estrarne le informazioni desiderate. In ambito accademico vengono impiegati per raccogliere gli studi che trattano un determinato argomento, in modo da confrontare le metodologie applicate e le conclusioni in vista della produzione di nuovi studi. In ambito aziendale possono essere utili per ottimizzare i processi o condividere più facilmente informazioni e pratiche tra le varie divisioni.

Dopo l’introduzione nel 2023 negli Stati Uniti, Google ha lavorato a vari aggiornamenti per portare NotebookLM in altri paesi, compresa l’Italia, e arricchirlo di nuove funzionalità. Circa un mese fa, la società ha aggiunto la funzione “Riassunto audio” che consente di produrre una “conversazione di approfondimento” sull’argomento che si sta ricercando. Il file audio viene generato entro qualche minuto ed è organizzato come una conversazione tra due conduttori di podcast, che spiegano e si confrontano sui contenuti delle fonti fornite al sistema.

La conversazione è sostanzialmente pensata per essere un breve episodio di un podcast, con una voce maschile e una femminile che dialogano, si interrompono, ogni tanto parlano in modo più incerto, con pause e altre imperfezioni che rendono più realistico il risultato finale. Ogni episodio segue più o meno la stessa scaletta: c’è una parte introduttiva in cui i due conduttori inquadrano l’argomento, spesso con esempi e perdendo un po’ di tempo, una parte centrale in cui espongono i temi principali e infine una conclusione che riassume il senso della conversazione. La qualità della conversazione varia molto, anche in base al tipo e alla quantità di fonti che sono state caricate su NotebookLM e per ora l’unica lingua disponibile è l’inglese (ma si possono utilizzare fonti praticamente in qualsiasi lingua).

L’audio qui sotto è la parte iniziale di una conversazione prodotta dal sistema di intelligenza artificiale basata sul secondo numero di Cose spiegate bene, la rivista-libro del Post, dedicato alle questioni di genere. La sensazione è di ascoltare qualcuno (qualcosa?) che ha colto il senso del libro, gli obiettivi e l’approccio seguito per trattare argomenti molto delicati e talvolta polarizzanti.

Il sistema permette di ottenere testi anche da fonti con contenuti non propriamente discorsivi o divulgativi. Nel caso qui sotto la conversazione è su un recente numero della Gazzetta Ufficiale della Repubblica Italiana, attraverso cui si pubblicano e si rendono note le norme in vigore in Italia. La conversazione parte annunciando che si parlerà di «burocrazia italiana», aggiungendo subito dopo «ma prima che facciate click per andarvene pensando “che noia”, fidatevi, diventerà interessante».

Nei circa dieci minuti di podcast non sono naturalmente trattati tutti gli argomenti presenti nella Gazzetta Ufficiale, ma sono messi in evidenza i più rilevanti. L’approccio è molto discorsivo, inoltre i due conduttori si tengono spesso sul generico e non c’è la possibilità di personalizzare il risultato audio in base alle proprie necessità. Soprattutto per questo motivo il sistema non ha entusiasmato più di tanto alcuni ricercatori ed esperti di informatica, che lo hanno messo alla prova con alcuni dei loro studi.

Un docente di informatica della Brown University (Stati Uniti) ha per esempio segnalato che il sistema sembra comportarsi come «un ricercatore alle prime armi: coglie in generale il senso di ciò di cui si parla, ma non sempre sa su cosa concentrarsi». In un test su una ricerca scientifica, ha per esempio «mancato parte o tutto ciò che rende questo studio rilevante».

Difficilmente quindi le conversazioni prodotte da NotebookLM possono essere utilizzate per facilitare lo studio di un argomento, rispetto agli altri strumenti messi a disposizione dal sistema. Al tempo stesso, però, mantengono un certo fascino perché il sistema ha il compito di produrre un file audio in qualsiasi caso, mostrando di saper simulare una certa creatività. L’audio qui sotto è stato per esempio prodotto sottoponendo al sistema di intelligenza artificiale il PDF di un menu di un fast food che vende kebab in Italia. Nonostante la fonte contenga solamente nomi di piatti e prezzi, le due voci riescono a reggere la conversazione, per quanto questa appaia in diversi momenti straniante.

È probabile che nei prossimi mesi il sistema per produrre conversazioni sia ampliato non solo per migliorarne ulteriormente la resa, ma anche per aggiungere altre lingue come l’italiano e ridurre la quantità di stranezze dovute alla traduzione dalla nostra lingua all’inglese. E forse il modo migliore per farsi un’idea sull’affidabilità dei due conduttori è ascoltare la loro conversazione qui sotto, prodotta utilizzando come fonte l’articolo che avete appena finito di leggere.