Il 19 luglio 2024, un guasto tecnico globale ha colpito i sistemi operativi Windows in tutto il mondo, causando il famigerato “schermo blu della morte” (BSoD). Questo problema ha messo KO 8.5 milioni di dispositivi Windows, tra cui banche, aeroporti, servizi di emergenza e altri settori, impossibilitate a svolgere qualsiasi attività.
CrowdStrike ha rilasciato un comunicato ufficiale chiarendo che non si tratta di un attacco informatico o di un incidente di sicurezza e ha offerto una soluzione temporanea. Anche il CEO George Kurtz ha ribadito sul social network X che “non c’è stato nessun incidente di sicurezza o attacco hacker”. L’azienda si impegna a pubblicare un’analisi completa delle cause una volta conclusa l’indagine.
Cosa abbiamo imparato da questo blackout?
- Fidarsi solo delle fonti ufficiali: CrowdStrike ha chiarito che non si tratta di un attacco informatico, quindi è fondamentale fare riferimento solo ai comunicati ufficiali dell’azienda per evitare disinformazione.
- Fare attenzione ai domini falsi: durante queste crisi, i cyber criminali approfittano della situazione per mettere in atto delle vere e proprie truffe e attacchi informatici. È stato segnalato ad esempio che i cyber criminali stanno creando siti web falsi simili a quelli ufficiali di CrowdStrike.
- Avere sempre un piano B: il guasto tecnico ha riguardato in particolare il mondo occidentale. L’Oriente ha subito meno interruzioni di servizio perché le aziende avevano un’alternativa di sicurezza. Questo evidenzia la necessità di avere un piano di azione e di diversificazione dei fornitori, soprattutto per le aziende con una presenza globale.
- Saper gestire la crisi e la comunicazione aziendale: le aziende devono essere pronte a reagire rapidamente, fornire informazioni accurate e gestire le aspettative del pubblico per salvaguardare la propria reputazione e la fiducia dei clienti.
Come prevenire questi incidenti?
Vediamo alcune strategie per prevenire questa tipologia di incidenti, evitando il fermo operativo.
- Resilienza del software e test:
- Implementare diversi tipi di test per una risposta rapida (local developer testing, content update and rollback testing, stress testing, fuzzing, fault injection, stability testing e content interface testing).
- Aggiungere controlli di convalida al Content Validator per prevenire il rilascio di contenuti problematici in futuro.
- Potenziare la gestione degli errori esistenti nel Content Interpreter.
- Distribuzione dei contenuti di risposta rapida:
- Implementare una strategia di distribuzione graduale per i contenuti di risposta rapida, partendo da un deployment canary.
- Migliorare il monitoraggio delle prestazioni del sensore e del sistema, raccogliendo feedback durante la distribuzione dei contenuti di risposta rapida per guidare un rollout graduale.
- Consentire ai clienti un maggiore controllo sulla consegna degli aggiornamenti dei contenuti di risposta rapida, permettendo la selezione granulare di quando e dove questi aggiornamenti vengono distribuiti.
- Fornire dettagli sugli aggiornamenti dei contenuti tramite note di rilascio, a cui i clienti possono iscriversi.
Conclusione
Le aziende dovrebbero valutare attentamente i rischi e le opportunità associate a ciascun fornitore, e sviluppare un piano di azione che permetta di passare a un altro fornitore in caso di necessità. In futuro eventuali blackout potrebbero non riguardare il fermo dei voli o attività finanziarie, ma l’infrastruttura di servizi sanitari, di energia elettrica che in periodi cruciali dell’anno potrebbero mettere a rischio la vita di migliaia di persone.
Analisi di Vasily Kononov – Threat Intelligence Lead, CYBEROO