Sentirsi Burioni.

Uriel Fanelli

20 Jul 2024 • 5 min read

Da quando e' iniziato il blackout legato alla patch di Crowdstrike, i giornali hanno cominciato a vomitare cazzate di ogni genere, e per un Systems Architect con 32 anni di esperienza sul campo, ho capito come si sentiva Burioni durante la pandemia, quando gli esperti sono stati sommersi di minchiate di ogni genere da parte di una stampa di un'ignoranza e di un'incompetenza fuori dal comune. UPDATE: > Il corriere ha appena pubblicato il parere di "esperti", secondo il quale al posto del file da distribuire ci sarebbero stati zeri e caratteri a casaccio. Gli esperti, cioe', ignorano l'esistenza delle checksum e delle firme crittografiche. Dopotutto, si usano solo da 40 anni. END UPDATE Vedo che tutti cercano di addossare la colpa a Crowdstrike, ma dimentichiamo sempre una cosa: essere la causa di qualcosa non significa necessariamente essere il colpevole di qualcosa. Per prima cosa: Azure e' un sistema di cloud, di proprieta' di Microsoft, che vi consente di creare dei computer virtuali, di solito dei server, che sono macchine virtuali, VM , e che vi sollevano - per una certa cifra - dall'onere di tenere in piedi dei server vostri. Ci pensano loro. L'azienda che prima aveva uno stanzone pieno di server non fa altro che prendersi un tenant su un cloud, cioe' ritagliarsi uno spicchio di cloud fatto di rete, firewall, routers, spazio su disco, VM, e tanti altri servizi presi da un portafogli. E ricostruiscono, usando del software, quello che prima avevano dentro lo stanzone. Solo che invece di aprire uno storage e infilarci un disco a mano, scrivono da qualche parte (terraform/opentufu/interfacciaweb/quelchele) che attaccato a quel computer virtuale c'e' un disco virtuale. Prima attaccavate un disco vero ad un disco vero. Fatto questo, vi chiederete: come garantiamo la sicurezza delle nostre VM? In quel caso, si tratta di endpoint security, e potete scegliere tra molte aziende, Microsoft compresa che vi offre Azure Endpoint Protection, per dire. A quel punto arrivano aziende come Crowdstrike, che vi offrono di installare un pezzo del loro software sulle vostre VM, e a pagamento mediante quel pezzo riescono a vedere cosa passa per la VM, e se la VM sta venendo attaccata/modificata contro il vostro consenso. Quindi, per chiarezza: - Microsoft vi offre il cloud, piu' tutta una serie di servizi. - Crowdstrike vi VENDE servizi di Endpoint security. Per prima cosa, quindi, la responsabilita' di aver usato Crowdstrike non e' di Microsoft, e' semplicemente di chi (Aereoporti, Compagnie Aeree, Aziende di ogni genere) ha scelto di usare quello e non, che so , WiZ (che e' un prodotto molto diverso) , o altri. C'erano altre scelte: - Wiz: Conosciuto per la gestione della postura di sicurezza dei dati (DSPM) e la scansione agentless, Wiz offre una visibilitÃ rapida e completa dei dati critici attraverso vari repository cloud. - Lacework: Offre una piattaforma di sicurezza cloud che utilizza l'apprendimento automatico per rilevare comportamenti anomali e minacce. - Microsoft Defender for Cloud: Una soluzione di sicurezza integrata di Microsoft che protegge le risorse cloud e ibride. - Palo Alto Networks Prisma Cloud: Fornisce una sicurezza completa per applicazioni, dati e infrastruttura cloud. - Tenable Vulnerability Management: Specializzato nella gestione delle vulnerabilitÃ per ambienti cloud e on-premises. - Snyk: Una piattaforma di sicurezza per sviluppatori che si concentra sulla sicurezza del codice e delle dipendenze. - Qualys TruRisk Platform: Offre una piattaforma di gestione del rischio e delle vulnerabilitÃ con una copertura estesa per ambienti cloud. e altri e altri. Per la cronaca e per i complottisti, WIZ e' in trattativa con Google per essere comprato. E guarda caso Microsoft va in panne. (dai, qui e' tutto complotto. Che aspettate? Non sa di Anticristo e Angela Merkel?) ------------------------------------- Detto questo: le aziende colpite hanno avuto problemi per via di una patch che impedisce alla VM di ripartire, se non con un alto numero di restart dopo aver tolto l'aggiornamento molesto, nei dintorni del 15. Di solito, peraltro il cloud non consente 15 riavvii automatici, e isola le VM che si comportano in quel modo, quindi si puo' fare solo a mano. La VM viene isolata e l'immagine tenuta per quella che si chiama analisi post-mortem. Ma non so di preciso come fossero configurati quei tenant. In ogni caso, va fatto manualmente, come 30 anni fa. Se avete tre VM, nessun problema. Ma se il vostro IT e' un contratto con un'azienda pakistana e avete 50.000 VM, e occorre riavviarle in un ordine preciso.... auguri. E allora sono tutti li' a dire "buuuu Cloudstrike". Si', e' vero che si poteva testare di piu' e meglio. Sono quelle cose che col senno di poi sanno tutti. E' la cosiddetta "analisi post analisi". Ok. Adesso sappiamo che a saperlo lo avremmo saputo. Ma finisce li'? Decisamente no. Qui cominciano le colpe delle aziende che hanno costruito cosi' male la loro presenza sul cloud. I servizi di cloud normalmente forniscono molti servizi, tra cui: - Load balancer globali - con cui sono ANNI che ci scartavetrano la minchia. - Ambienti Multicloud basati su Kubernetes - una specie di Predator con le emorroidi incarnite che diventa un blob dopo aver incontrato La Cosa. - Disaster Recovery Automatico. - Snapshot Intelligente. - Backup continuo - Edge computing e blablabla. Il blablabla non e' dovuto al fatto che io non creda a queste soluzioni. E' dovuto al fatto che si PARLA di queste soluzioni, ma quando si va all'implementazione si scopre sempre che era' "pianificata la prossima settimana". Se una qualsiasi di queste strategie fosse stata messa in atto dai "danneggiati", non vi sareste accorti del problema. Una strategia di mitigazione. Una qualsiasi. Ma il problema e' che NESSUNO di quelli che dicono di essere stati "danneggiati" alla fine aveva implementato - ed' e' chiaro che non lo hanno fatto - alcuna best practice del caso, e a volerla dire tutta, nemmeno delle strategie di mitigazione decenti, cioe' delle good practice. Perche' questo non e' stato fatto? La storia dei load balancer globali, cosi' come dei sistemi multitenant su cloud multipli,e tutta la fuffa che ne sapremmo dire , e' che non esistono davvero. - A volte vengono inclusi nelle "EPIC" , ma guarda caso, dopo l'approvazione del CTO e del CEO, quelle EPIC non vengono mai implementate. - Vengono implementati ma poi spenti. Si fa una cosa che ha una copia su un altro cloud, che so Azure piu' AWS, ma poi siccome qui siamo tutti uomini windows si spegne AWS che costa e si va solosu Azure. - Sono costosi e quindi non si implementano. Con affermazioni di infinita imbecillita' come "ma se sei in un cloud non hai bisogno del backup" , oppure "ma loro del cloud ci hanno dato uno SLA, vero?", e altre cose che non voglio nominare, tipo "vabe' ma succede ogni morto di papa". ## Tutta la retorica vuole che le aziende vittime di disservizi siano poveri agnelli innocenti che sono stati pugnalati a tradimento da Microsoft e Crowdstrike, ma le cose non stanno proprio cosi'. L'impatto sarebbe stato molto piu' piccolo se una qualsiasi delle strategie di mitigazione o di replicazione fossero mai state adottate. Avremmo dovuto semplicemente vedere lo switch del traffico su un altro ambiente. (Cosa che Microsoft ha cercato di fare, causando oscillazioni non trascurabili sulla rete carrier, ma attenzione, stavano trasferendo traffico da loro stessi a loro stessi, cioe' da parti diverse della loro stessa infrastruttura, agendo sui BGP reflector ). ------------------------ Quindi si: - La causa e' Crowdstrike - La colpa e' anche delle aziende che usano il cloud come servizio di hosting. Sto dicendo che Crowdstrike sia innocente? Beh, no. Le strategie di distribuzione di patch sono molte e variegate, e onestamente quella specie di "on/off globale totale inesorabile panzerkampfwagen" che hanno usato e' discutibile assai. Potevano usare qualsiasi variante di una strategia canary, cioe' deployare solo su ALCUNE VM e osservarle, per esempio. Quindi no, e' chiaro che se la patch blocca le VM il testing non ha funzionato nel modo giusto, ed e' chiaro che questo modo di distribuire il software non sia piu' di moda dai tempi di Attila. MA d'altro canto, ripeto, dove sono tutte le strategie di mitigazione del caso? Perche' non esistevano snapshot della situazione precedente alla patch? Eccetera, eccetera, eccetera. ------------------------------------- Detto questo, torniamo all'effetto Burioni. Perche' io leggo i giornali e mi sento Burioni mentre ascoltava Salvini. >Microsoft ha creato un virus a Wuhan, che attraverso i mercati rionali del silicio e' uscito fuori controllo, ha fondato un'azienda in Texas , dove ora vuole trasferirsi Tesla - non puo' essere un caso - e ha poi infettato i computer per obbligarci a mettere la mascherina al computer e controllare la nostra mente. Burioni, sappi che ti capisco. I know how it feels, bro.