Il 19 luglio 2024 si è verificato blackout di CrowdStrike, il più grande della storia del settore informatico, quali lezioni trarne? La prima riguarda il rischio concentrazione dell’offerta di servizi informatici, la seconda la propagazione dell’errore. Se la rete ICT (information and communications technology) è fragile, tutti sistemi a rete sono fragili: dall’energia alle forze armate, dalle banche agli stabilimenti industriali.
Un minuscolo file creato da un’azienda per proteggere i computer dagli hacker ha evidenziato la fragilità dell’intera rete ICT globale. Ma se la rete ICT è fragile, tutti sistemi a rete sono fragili: dall’energia alle forze armate, dalle banche agli stabilimenti industriali.
Quindi dobbiamo cercare una chiave per comprendere le criticità dello sviluppo e della sicurezza globale, a partire dai sistemi energetici ed elettrici in particolare, in quanto vitali per tutti i sistemi sociali ed economici.
L’azienda, la CrowdStrike Holdings, uno dei maggiori produttori di software per la sicurezza informatica, ha rilasciato un aggiornamento software difettoso che ha scatenato il 19 luglio 2024 un blackout ICTglobale, paralizzando aeroporti, banche, borse e aziende di mezzo mondo.
Si tratta del più grande blackout della storia del settore ICT.
Il file incriminato, chiamato “C-00000291*.sys”, era nascosto in un aggiornamento del software Falcon di CrowdStrike ed ha causato un errore nel sistema operativo Windows di Microsoft, rendendo inutilizzabili i computer e attivando la temutissima “schermata blu della morte” sui computer di milioni di utenti Windows.
Prima fragilità, la concentrazione della tecnologia altamente specializzata
Questi incidenti, per quanto enormi siano le conseguenze, costituiscono occasioni imperdibili per apprendere i punti deboli del sistema ICT globale, su una scala senza precedenti; tuttavia, esso ha già evidenziato i pericoli derivanti dalla eccessiva concentrazione di alcune funzioni vitali in pochissime aziende, dai cui prodotti dipende il funzionamento di innumerevoli organizzazioni e imprese, oltre che di singoli utenti finali.
Questa è la prima fragilità, che si collega all’alta specializzazione della tecnologia ed ai connessi elevati investimenti di sviluppo, perché solo le economie di scala consentono di distribuire gli investimenti necessari su un numero di utenti finali che solo il mercato globale può assicurare.
Ma se anche uno solo di essi subisce un’interruzione o viene violato, le ricadute possono ripercuotersi su interi settori vitali dell’economia globale.
Microsoft, come noto, ha una posizione dominante sul mercato del software, grazie al suo sistema operativo Windows. CrowdStrike è a sua volta l’azienda leader a livello globale sula mercato degli strumenti software di sicurezza cyber.
Dopo Microsoft, CrowdStrike è il secondo più grande produttore al mondo di software di protezione dalle minacce cyber, che vengono supportati dal sistema operativo Windows e controlla il 18% di un mercato da circa 13 miliardi di dollari, secondo la società di ricerca IDC. L’azienda vende i suoi prodotti a 29.000 organizzazioni in tutto il mondo, e per questo il blackout di CrowdStrike ha interessato milioni di computer.
La compagnia aerea statunitense Delta intende perseguire azioni legali per le conseguenze del blackout sia contro CrowdStrike che contro Microsoft, puntando a risarcimenti danni per almeno mezzo miliardo di dollari.
Questo ci dà una idea della dimensione del problema, ma senza l’incidente occorso sarebbe rimasto solo oggetto di discussione fra ingegneri, senza effetti sulle decisioni di investimento di dimensioni globali.
L’11 settembre della sicurezza informatica
Le interruzioni delle comunicazioni si sono diffuse dall’Asia e dall’Australia in tutta Europa e negli Stati Uniti venerdì 19 luglio 2024, data che per la sicurezza informatica resterà come l’11 settembre per la sicurezza fisica dei paesi occidentali.
George Kurtz, co-fondatore e amministratore delegato di CrowdStrike, ha riconosciuto immediatamente l’errore, affermando che non si tratta di “un incidente di sicurezza o un attacco informatico”, tanto che il “bug” è stato in poche ore identificato, isolato ed eliminato”.
(Nel 2010 Mr. Kurtz era CTO presso McAfee, famosa azienda pioniera del software antivirus. Nell’aprile di quell’anno McAfee aveva pubblicato un aggiornamento errato per il sistema operativo Windows, che ha paralizzato i sistemi informatici di ospedali, scuole e agenzie governative di tutto il mondo. L’azienda rimosse l’aggiornamento difettoso in soli 16 minuti, ma a quel punto era stato installato sui computer di oltre 1.600 clienti, secondo autorevoli osservatori. Seguì un report governativo americano sull’evento.)
Non sapremo forse mai la verità, perché nessuno vuole creare allarmi in un mercato così ricco. Ma questo non basta a bloccare le critiche.
Un evento raro ma non impossibile
I concorrenti di CrowdStrike denunciano che, per massimizzare i profitti (riducendo i costi e massimizzando il capital gain), sono stati sacrificati i principi di sicurezza informatica di base gettando le basi per il blackout.
Ovviamente l’allarme si estende a tutto il settore della informatica avanzata, ed in particolare alla Intelligenza Artificiale (IA) ed alle tecnologie di calcolo avanzate. Forse è tempo che il settore cresca con maggiore prudenza. Riscoprendo alcune vecchie regole (“don’t put all the eggs in one basket”) e riservando maggiore attenzione alle tecnologie che sono, per loro natura, invasive, sino a diventare intrinseche alla gestione di tutte le attività.
Diciamo subito che quello che è successo è un fenomeno estremamente raro, ma ricordiamo al tempo stesso il concetto di rischio nucleare: il prodotto della probabilità che un evento si verifichi moltiplicato per l’entità del danno potenziale.
Gli osservatori del settore informatico si chiedono se CrowdStrike imparerà dal proprio errore, ma potremmo dire lo stesso per molti altri operatori del settore. Adesso ci si chiede come difendersi dai rischi di sistema, imputabili ad un solo o pochissimi operatori, che tuttavia possono bloccare l’attività di intere organizzazioni e interi settori vitali dell’economia.
Come difendersi dai rischi di sistema?
L’incidente del 19 luglio innescherà sicuramente una nutrita discussione sulla crescente concentrazione di potere – e rischi – nelle mani di poche società di sicurezza informatica.
Alcuni esperti, tra cui Justin Cappos, professore di informatica alla New York University, hanno fatto notare che il concentramento delle competenze nel settore della sicurezza, e il processo decisionale centralizzato che ne deriva, è causa intrinseca di rischi rilevanti.
Il blackout ICT globale del 19 luglio 2024 causato da CrowdStrike è stato ampiamente ripreso dalla stampa internazionale, per cui nel seguito non verrà descritto l’evento, ma sarà evidenziato il quadro di riferimento concettuale, comune anche alla transizione energetica.
Molte volte, come nel caso del disservizio di fine giugno 2024, che ha interessato ben quattro paesi del sistema elettrico balcanico, di cui si riporta un primo report dell’associazione dei TSO elettrici europei ENTSO-E, si attribuiscono genericamente e superficialmente le cause dei disservizi elettrici ai “cambiamenti climatici” o al “riscaldamento globale”.
Questo approccio non è solo superficiale, ma fuorviante. Le cause degli incidenti sono legate alla complessità crescente del sistema elettrico e della necessità di pianificarne l’evoluzione utilizzando tecnologie avanzate, per aumentare la sicurezza dei servizi critici.
Sono molte le condizioni e le configurazioni di funzionamento del sistema elettrico, che, se non governante, mettono a rischio la sicurezza dei sistemi elettrici e di tutti i sistemi sociali e produttivi. L’attuale fase di transizione energetica è caratterizzata da molteplici fenomeni a loro volta complessi, a causa della sempre più stretta interazione delle diverse reti e dei diversi componenti delle reti, che integrano anche le funzioni di trasmissione dei segnali ICT, e quindi la sempre più stretta integrazione di sistemi elettrici e sistemi ICT.
A questo proposito IDC, che sviluppa analisi di market intelligence nell’ambito ICT, ha pubblicato un rapporto molto interessante sul ruolo delle tecnologie ICT nella gestione dei servizi nel settore elettrico.
Gli episodi come il blackout ICT globale del 19 luglio 2024 causato da CrowdStrike stanno all’ingegneria dei sistemi come i terremoti stanno all’ingegneria civile nel caso di grandi terremoti: queste sono occasioni imperdibili per fare esperienza e comprendere come gestire i sistemi complessi.
L’“errore” ha causato a guasti a catena a livello di sistema,bloccando interi settoricome il traffico aereo, il circuito bancario, l’assistenza sanitaria. Per questo avremo informazioni più adeguate solo dopo una analisi indipendente, come avvenuto già nel 2023, quando in un caso simile il Governo americano ha incaricato dell’indagine la America’s Cyber Defense Agency.
Quindi per ora è inutile parlare di soluzione del problema, ma è evidente che anche un incidente apparentemente isolato in un sistema fortemente interconnesso può coinvolgere milioni di utenti, con effetti di dimensioni globali.
Quindi il tema è come si propagano gli errori in un sistema complesso ed interconnesso e quali sono le funzioni di recupero da predisporre e da salvaguardare.
Non resiliente ma reattivo
Ecco perché il sistema non deve affatto essere “resiliente”, nel senso di recuperare lo stato di funzionamento del sistema vigente prima del guasto, ma deve reagire agli effetti dell’errore, per evitare che la propagazione si ripeta.
Questa è la prima lezione da imparare.
Nel merito, in base all’ampia descrizione riportata sulla stampa internazionale, il tipo di software fornito da CrowdStrike è molto diverso dai tipi di software di sicurezza del passato, quando gli antivirus erano fatti per gli albori dell’informatica e di Internet, e si caricavano con dei dischetti su ogni PC. Quelle tecniche di difesa sono state progressivamente abbandonate, man mano che le minacce cyber sono diventate più sofisticate.
Oggi i prodotti software di “rilevamento e risposta degli endpoint” sviluppati da aziende come CrowdStrike fanno molto di più, perché scansionano continuamente le macchine su cui sono installati, alla ricerca di eventuali sintomi di attività sospette e automatizzano una risposta corrispondente.
Ma per fare ciò, questi programmi devono necessariamente avere accesso, per ispezionarlo, al nucleo stesso dei sistemi operativi di ogni computer, alla ricerca di “bug” nel sistema di sicurezza. Questo accesso dà loro la possibilità di interrompere la funzionalità dei sistemi che stanno cercando di proteggere.
Ed è così che i sistemi Windows di Microsoft sono entrati in gioco nel blackout causato da CrowdStrike, innescando la temuta “schermata blu della morte” sui device degli utenti.
4 prime lezioni
La tecnologia attuale di difesa è generalmente considerata efficace per difendersi dalle minacce cyber, in quanto, se interessati dall’errore, i servizi chiave possono essere bloccati con loro. Tuttavia, a causa del costo elevato (anche superiore ai 50 dollari per macchina), la maggior parte delle grandi organizzazioni clienti non installa il software su tutti le proprie macchine, ma solo su quelle più importanti da proteggere. Quel che introduce dei rischi, perché l’errore può partire proprio dalle macchine non protette e “infettare” tutto il sistema che lo ospita.
Possiamo quindi anticipare alcune considerazioni generali sul tema della sicurezza cyber, quali:
- la concentrazione dell’offerta di servizi informatici e di calcolo avanzato costituiscono un rischio di sistema, da cui il cliente finale, in assenza di regole, non si può difendere. Per cui il sistema dei controlli deve considerare la pericolosità delle imprese con quote elevate di mercato in questi settori. E questo vale anche, e soprattutto, per l’IA ed i software di calcolo avanzato condivisi (cloud computing).
- L’aumento della complessità e della connettività dei sistemi complessi introducono rischi di propagazione degli errori, aumentando le interazioni fra i diversi componenti del sistema e le possibilità di propagazione, e soprattutto per i sistemi critici, come quello energetico e delle tlc, da cui dipendono tutti gli altri settori economici vitali ed i servizi di sicurezza (difesa, sanità, forze dell’ordine), a loro volta sempre più complessi ed interconnessi.
- Vantaggi e svantaggi della digitalizzazione e dell’interconnessione dei sistemi critici, come quelloenergetico, delle tlc, della IA e del calcolo avanzato: se da un lato consentono di ridurre i costi operativi e di aumentare l’efficienza dei processi, dall’altro introducono fragilità connesse alla propagazione degli errori.
Pertanto, la sicurezza riveste la prima priorità del trilemma energetico – sicurezza, sostenibilità, accessibilità economica.
Michelangelo Celozzi è Executive President of TEN – Trans Med Engineering Network – Ltd.
Potrebbero interessarti anche
L’Italia nella storia della geopolitica delle reti elettriche, di Massimo Rebolini, 28 Maggio 2024
L’Europa nell’era dell’insicurezza energetica, di Redazione, 27 Giugno 2023
Ridondanza infrastrutturale, per coniugare sicurezza e transizione, di Redazione, 26 Giugno 2023
Foto: Wikimedia
Per aggiungere un commento all'articolo è necessaria la registrazione al sito.
0 Commenti
Nessun commento presente.
Login