Moderare i video sui social è sempre più importante, e difficilissimo
Ormai sono il contenuto prevalente online, ma individuare quelli violenti o pericolosi è molto più complicato rispetto al semplice testo
Come accade ormai da diversi anni, in vista delle elezioni di metà mandato statunitensi di martedì diverse organizzazioni e ricercatori che si occupano di identificare e combattere disinformazione e contenuti fuorvianti online avevano segnalato che gli sforzi fatti dalle varie aziende tecnologiche per identificare ed eventualmente rimuovere questi contenuti dalle proprie piattaforme erano stati insufficienti.
Il problema si poneva già quando le piattaforme social più utilizzate erano principalmente testuali, come Facebook e Twitter, o basate su immagini statiche, come è stato a lungo il caso per Instagram. Ma il fatto che oggi milioni di persone si informino e passino moltissimo del proprio tempo online su applicazioni come TikTok, che propone un flusso costante di nuovi video selezionati dall’algoritmo, rappresenta una sfida senza precedenti per chi è preoccupato della diffusione delle notizie false su Internet.
La moderazione dei contenuti è un affare notoriamente complesso, e le aziende spesso cercano di minimizzare il più possibile le spese che comporta. Assumere moderatori umani che conoscano bene la lingua e il contesto in cui viene creato un contenuto (e che verranno senza dubbio esposti ad alcune delle cose più violente, inquietanti e traumatizzanti che si possano immaginare) è costoso, e i sistemi automatizzati di moderazione che esistono per ora hanno ancora grossi limiti.
Questi limiti sono particolarmente evidenti quando si tratta di moderare i contenuti video, che però compongono una percentuale crescente dei nuovi contenuti che vengono creati e consumati online. Non solo grazie a TikTok, ma anche perché le altre applicazioni, da Instagram a YouTube, stanno investendo nel formato dei video brevi e nella raccomandazione algoritmica dei contenuti per cercare di imitare il successo del social network cinese.
Da un punto di vista tecnico, i sistemi automatizzati che vengono usati per la moderazione dei contenuti funzionano così: l’intelligenza artificiale esamina un’immagine e la ricollega ad una mole di altre immagini su cui è stata, in precedenza, allenata. In questo modo, sa dire se una persona in una foto è nuda o vestita, se qualcuno ha in mano una pistola, se in un dipinto che dice “questa non è una pipa” c’è, in realtà, una pipa. La questione però si complica con i video, dato che ogni minuto di filmato è composto da migliaia di immagini statiche disposte una dietro l’altra, appaiate a una traccia audio.
«YouTube ha probabilmente l’esperienza di più lunga data con la moderazione automatizzata dei video, ma ciò non toglie che ogni giorno video che violano le sue linee guida vengano visualizzati milioni di volte», scrive Arthur Holland Michel sull’Atlantic.
In parte, il problema è che ogni video contiene tantissimi dati da analizzare: le migliaia di fotogrammi fissi che compongono un video possono non violare, di per sé, le linee guida, ma possono andare a formare una narrazione che invece senza dubbio lo fa. Un esempio perfetto è quello di un video che è circolato molto su TikTok negli ultimi mesi, in cui una persona sosteneva falsamente che fosse possibile creare dell’idrossiclorochina – un farmaco contro la malaria che è stato spacciato, erroneamente, come cura per il Covid – in casa, a partire da un pompelmo. Di per sé, le immagini del pompelmo non violano le linee guida: l’intento di disinformare lo spettatore è chiaro soltanto se si conosce e si considera il contesto nella sua interezza.
Per questo motivo, un’intelligenza artificiale che consideri soltanto i singoli fotogrammi non è sufficiente. «Un sistema che segnala qualsiasi video contenga contenga un’arma da fuoco segnalerebbe una clip di due persone che discutono del valore di un fucile d’epoca. Nel frattempo, non riconoscerebbe la clip di una persona colpita da un’arma da fuoco fuori dall’inquadratura. Visivamente e forse anche uditivamente, una clip di qualcuno che tenta di produrre idrossiclorochina potrebbe essere difficile da distinguere da quella di qualcuno che estrae il succo di un pompelmo, soprattutto se quella persona fa attenzione a non dire nulla sul Covid», spiega Holland Michel.
«Le aziende di social media non potrebbero sopportare un controllo particolarmente zelante basato sull’intelligenza artificiale, perché ostacolerebbe il tipo di contenuto che spesso ottiene maggiore attenzione dal pubblico: i video scioccanti, quelli oltraggiosi e, ovviamente, quelli osé».
Il fatto che i video di TikTok siano, sostanzialmente, dei meme tridimensionali in cui l’audio, il video e il testo sono tutti elementi fondamentali per capire appieno il contesto e il tono del contenuto rende la questione ancora più complessa. «Il filmato di un paesaggio desolato in cui rotola un’erbaccia sospinta dal vento non sarebbe problematico di per sé, né per un essere umano né per una macchina, così come non lo sarebbe una clip audio di qualcuno che dice: “Guarda quante persone ti amano”. Ma se combini i due e pubblichi il risultato per dire a qualcuno che nessuno lo ama, un computer non lo capirebbe mai», scrive Holland Michel.
Per questi motivi, al momento, soltanto il 40 per cento circa dei video rimossi da TikTok vengono individuati da sistemi automatizzati: milioni di altri controlli vengono ancora affidati ad esseri umani.
Il problema, però, non è soltanto che i sistemi automatizzati di moderazione non riconoscono i video vietati sulla piattaforma: c’è anche il fatto che molti di questi video vengono proposti a una platea ampissima di persone dagli algoritmi di raccomandazione. TikTok, Instagram e YouTube raccolgono costantemente informazioni sulle interazione dei propri utenti con i contenuti: sanno quante volte hai rivisto un video, se l’hai condiviso con qualcuno, quanto ne hai visto prima di passare a quello dopo, se ti piacciono contenuti che hanno lo stesso hashtag o che usano lo stesso suono di sottofondo. Ma non sanno se il motivo per cui hai guardato o condiviso o commentato tante volte lo stesso video è perché lo ami o perché ne trovi ributtante il contenuto, e quindi rischiano di amplificare video che contengono cose disgustose, false o politicamente estreme.
Specialmente in vista di elezioni importanti e che vedono candidarsi personaggi di estrema destra – come è accaduto nelle recenti tornate elettorali in Brasile, Israele e Stati Uniti – la reperibilità e l’amplificazione di questi contenuti diventa un problema. In vista delle elezioni presidenziali statunitensi del 2020 (e in risposta alla tantissima disinformazione attorno alla pandemia che era stata condivisa online quell’anno) le piattaforme aggiornarono le proprie linee guida e cominciarono ad investire più del solito nella moderazione dei contenuti politici.
Quest’anno, per esempio, YouTube ha speso 15 milioni di dollari per assumere più di 100 moderatori di contenuti per gestire i contenuti legati alle elezioni di metà mandato e le elezioni presidenziali in Brasile, e la società ha più di 10 mila moderatori in tutto il mondo. Ma le grandi piattaforme stanno comunque facendo fatica ad affrontare l’enorme mole di nuovi post che vengono pubblicati ogni giorno. A maggior ragione perché di modi per creare un video “falso” ne esistono sempre di più: oltre ai cosiddetti deepfake, che permettono di simulare digitalmente i volti delle persone, si possono tagliare i filmati o modificarne la velocità o la sequenza, associare a un video un suono registrato in un altro contesto. Un esempio perfetto è un video che su TikTok è girato molto negli ultimi mesi, in cui un utente aveva aggiunto fischi e schiamazzi finti come sottofondo a un video della first lady statunitense Jill Biden che visitava dei malati di cancro.
«Il pericolo dei media manipolati non sta necessariamente nei singoli post, ma nel modo in cui rischiano di danneggiare ulteriormente la capacità di molti utenti di capire cosa è vero o no», ha scritto Tiffany Hsu sul New York Times. «La questione è che l’esposizione prolungata a media manipolati può intensificare la polarizzazione e ridurre la capacità e la volontà degli spettatori di distinguere la verità dalla finzione. (…) La maggior parte dei contenuti manipolati attualmente sui social media è scadente ed palesemente falsa/fasulla. Ma le tecnologie che possono alterare e sintetizzare con molta più finezza sono sempre più accessibili e spesso semplici da imparare».