Cosa si può imparare dal disastro di CrowdStrike

Non moltissimo, in realtà: guasti informatici simili continueranno a succedere, anche se ci sarebbero modi migliori per gestire gli aggiornamenti di software

Dipendenti di United Airlines attendono accanto a un monitor che mostra una schermata di errore blu all'aeroporto internazionale di Newark, in New Jersey, il 19 luglio (REUTERS/Bing Guan)
Dipendenti di United Airlines attendono accanto a un monitor che mostra una schermata di errore blu all'aeroporto internazionale di Newark, in New Jersey, il 19 luglio (REUTERS/Bing Guan)
Caricamento player

Venerdì scorso milioni di computer in tutto il mondo sono stati interessati da un guasto che li ha messi fuori uso per ore, creando enormi problemi ad aeroporti, banche, aziende, mercati finanziari e servizi sanitari. Non c’era mai stato un disastro informatico di questa entità in precedenza: quello che più ci si avvicina risale al 2017, fu causato da un attacco informatico e bloccò in poche ore circa 300mila computer in oltre 150 paesi, criptandone i dati e chiedendo come riscatto un pagamento in bitcoin.

Questa volta la responsabile è stata un’azienda pensata proprio per aiutare le grandi società impegnate in settori strategici a proteggersi dagli attacchi informatici: CrowdStrike, produttrice di software considerati tendenzialmente sicuri e affidabili. Nella notte tra giovedì e venerdì CrowdStrike aveva inviato un aggiornamento del suo software di sicurezza informatica Falcon. Nell’aggiornamento era però presente un errore (un bug, in gergo) che interagiva male con il sistema operativo Windows. Tutti i computer Windows che avevano installato l’aggiornamento sono stati inutilizzabili per ore, a volte giorni, perché non era possibile riavviarli da remoto: lo si poteva fare solo manualmente.

Nei giorni successivi vari esperti hanno condiviso analisi sul tema, cercando di spiegare cosa sia andato storto e quali accorgimenti e trasformazioni siano necessari per evitare che avvenga nuovamente un guasto del genere.

Non sono emerse molte soluzioni concrete: una delle questioni centrali, su cui non si può fare granché, è che un numero crescente di settori economici sono ormai altamente digitalizzati e inseriti in un sistema transnazionale complesso e molto interdipendente. La maggior parte delle volte tutti i pezzi del meccanismo si incastrano come dovrebbero. Quando anche una sola parte si inceppa, però, l’impatto può essere gigantesco. È un discorso che ricorda quanto successo nel marzo del 2021, quando la portacontainer Ever Given si incagliò nel canale di Suez, creando un intasamento nella cosiddetta “catena dell’approvvigionamento” globale.

Ci sono comunque alcune accortezze che CrowdStrike avrebbe potuto prendere e ragionamenti che le aziende che dipendono fortemente dalla tecnologia possono fare per ridurre rischi futuri. Mercoledì l’azienda ha pubblicato un documento tecnico in cui ha fornito nuovi dettagli sulla serie di errori che hanno reso possibile un guasto così grande. Ha detto che normalmente i suoi ingegneri testano gli aggiornamenti dei software prima di distribuirli tra i clienti: il 19 luglio c’è stato in primo luogo un bug nel programma che esegue questi test, che fino a quel momento non aveva mai dato problemi.

– Leggi anche: Che cos’è CrowdStrike

Il programma ha quindi approvato un aggiornamento difettoso, comunicando agli ingegneri che era pronto per essere distribuito. La distribuzione è stata messa in pausa dopo un’ora e mezza circa, ma a quel punto milioni di computer avevano già installato automaticamente l’aggiornamento. CrowdStrike ha detto che sta sviluppando un ulteriore livello di controllo di questo programma di convalida degli aggiornamenti.

Sul Guardian l’esperto di tecnologia Alex Hern ha ricordato che uno dei consigli più frequenti per evitare che un eventuale bug abbia un impatto così vasto è di implementare gli aggiornamenti in modo graduale. In sostanza, invece di distribuire contemporaneamente l’aggiornamento ai milioni di computer che usano Falcon, CrowdStrike avrebbe potuto distribuirlo a un numero più piccolo di dispositivi, e procedere gradualmente a installarlo su un numero di computer sempre più ampio fino ad aggiornarli tutti. È una cosa che le aziende che si occupano di sicurezza informatica fanno raramente: per via della natura stessa del loro lavoro, che richiede di rispondere molto velocemente ad attacchi e all’emergere di nuove vulnerabilità, tendono a dare la priorità ad aggiornamenti rapidi per tutti i loro clienti.

«Fino alla settimana scorsa lo scenario peggiore [per il settore] era un ransomware come WannaCry o NotPetya: un malware che non solo provoca danni critici alle macchine colpite, ma può diffondersi automaticamente all’interno e attraverso le reti aziendali», scrive Hern. «Per questo il fronte della difesa è abituato a muoversi a ritmo sostenuto. Invece di attendere di distribuire un aggiornamento nell’arco di giorni o addirittura settimane, l’azienda invia quotidianamente piccoli aggiornamenti che coprono le minacce più recenti ai sistemi che protegge».

Alcuni esperti hanno sottolineato che l’aggiornamento difettoso ha interferito negativamente solo con i computer che usano il sistema operativo Windows perché probabilmente, al contrario dei dispositivi Apple o di quelli che usano Linux, Windows dà a software come Falcon l’accesso al kernel. Con kernel si intende il programma al centro del sistema operativo che generalmente ha il controllo completo dell’intero sistema.

Windows ha cercato di dare la colpa di questa autorizzazione a un accordo stretto con la Commissione europea nel 2009, che offrirebbe ai produttori di software di sicurezza «lo stesso livello di accesso a Windows [e al suo kernel] che ha Microsoft». Questo accordo aveva lo scopo di contrastare la posizione monopolistica di Microsoft nei browser web, data la popolarità di Internet Explorer all’epoca. La Commissione europea ha detto però che Microsoft non aveva provato a negoziare per evitare che questo accesso fosse richiesto e non aveva mai segnalato che concederlo avrebbe creato possibili problemi di sicurezza. Apple, al contrario, si è ripetutamente opposta all’idea di concedere un accesso di quel tipo.

Altri commentatori hanno detto che una delle principali ragioni per cui il guasto ha avuto un impatto tanto ampio è che le aziende che operano in molti settori strategici sono spesso tenute a dimostrare di avere una strategia di sicurezza informatica solida. Uno dei modi più semplici ed efficaci per farlo è rivolgersi ad aziende come CrowdStrike, che vendono grossi pacchetti di servizi pensati per proteggere le grandi aziende.

Falcon, per esempio, viene impiegato per proteggere gli endpoint, ovvero i vari dispositivi che si connettono e scambiano informazioni all’interno di una rete di computer (e quindi PC ma anche smartphone e tablet) e più in generale di una rete cloud. I suoi sistemi vengono quindi impiegati per controllare contemporaneamente l’intera “superficie di attacco”, ovvero tutti gli endpoint che possono essere presi di mira. Al tempo stesso raccoglie e analizza i dati relativi a eventuali attacchi per successive analisi e valutazioni.

Paradossalmente, quindi, CrowdStrike è in genere un software che viene installato dalle aziende che hanno un dipartimento informatico competente e informato sugli standard del settore. «“Compra la cosa che ti rende più sicuro” è l’unica richiesta ragionevole che si può fare alla stragrande maggioranza delle aziende, e CrowdStrike faceva bene quel lavoro, eccetto per questa singola, sfortunata volta», scrive Hern. «L’unica lezione che mi sento a mio agio a trarne è che queste cose continueranno a succedere».

– Leggi anche: Gli antivirus per il computer sono sempre più obsoleti

In questo contesto, Fortune ha raccolto qualche consiglio su quello che le aziende potrebbero fare per farsi trovare preparate, la prossima volta. L’azienda tecnologica Akamai Technologies ha raccontato alla rivista di non essere stata colpita direttamente dal guasto di CrowdStrike perché da tempo ha chiesto ai suoi tecnici di approvare manualmente gli aggiornamenti provenienti da partner esterni in modo da avere un po’ di tempo per valutarne il contenuto e le possibili conseguenze. Altri hanno consigliato di assicurarsi che esista un canale di comunicazione tra dipendenti separato dal resto del sistema, nel caso in cui un guasto mandi fuori uso i canali utilizzati di solito.

Tom Parker, chief technology officer della società di sicurezza NetSPI, ha detto poi che «i clienti di CrowdStrike dovrebbero eseguire un’analisi approfondita di ciò che è accaduto all’interno delle loro aziende durante la crisi e organizzare in futuro delle simulazioni in modo da formare i dipendenti [su come comportarsi durante una crisi] ed evidenziare eventuali punti deboli».