Blackout: la lezione spagnola.

Lavorando nel settore delle tecnologie emergenti, mi e' capitato di accettare di mandare live dei servizi ancora non troppo maturi. Il management ordina di testarli, magari di fare un test di traffico con il traffico elevato, ma dimentica sempre una cosa. La scalabilita'. E' l'errore tipico di tutti quelli che pensano che la scalabilita' di un servizio si misuri con un test di carico, o di performance. Qui e' dove cadono tutti.

Ed e' qui che, osservando il blackout in Spagna e Portogallo, mi suona un campanellino. Uhm. Ho gia' visto questa cosa. Cadono tutti sulla scalabilita'.

Ah, le gioie delle tecnologie emergenti. Quell'adrenalina nel lanciare servizi ancora acerbi, come servire uno stufato mezzo crudo e sperare che nessuno noti il retrogusto di “avremmo dovuto testare di più”. Il management, nella sua infinita saggezza, ordina test di carico come se fossero la soluzione a tutti i mali. Peccato che spesso si dimentichino di chiedersi: “Ma tutto questo scalerà? O stiamo costruendo un castello di carte in una stanza con il ventilatore acceso?”

E poi, guarda caso, arriva il blackout in Spagna e Portogallo. Mentre leggo i report, mi sale quella sensazione di déjà-vu: “Ehi, questa sceneggiatura l'ho già vista. Anzi, l'ho pure vissuta.”

La Scalabilità: Quell'Amica che Tutti Danno per Scontata

Il problema, come sempre, è la confusione tra performance e scalabilità. La performance è quel collega che si vanta di aver ottimizzato un ciclo for fino a farlo volare... peccato che poi, in produzione, il sistema collassi non appena più di tre utenti provano a usarlo contemporaneamente.

La scalabilità, invece, è quell'ingegnere noioso che insiste per progettare le cose “bene fin dall'inizio”, invece di mettere pezze su pezze e sperare che nessuno noti il technical debt accumulato come fosse una pila di piatti sporchi in una startup.

E cosa è successo in Spagna? Semplice: qualcuno ha sottovalutato la differenza tra “funziona in laboratorio” e “funziona quando mezzo continente ci si attacca”. Spoiler: non è finita bene.

Morale: Se Ignori la Scalabilità, Lei Si Ricorderà di Te (Al Momento Peggiore)

Il blackout iberico è un promemoria perfetto: la scalabilità non è un optional, è il freno di emergenza che ti salva quando il treno sta per deragliare. E se c'è una cosa che ogni sviluppatore, architetto o manager dovrebbe imparare, è che “scala finché non esplodi” non è una strategia – è un modo costoso per finire sui giornali.

Quindi, cari amici del “tanto in produzione va tutto bene”, la prossima volta che pensate di saltare i test di scalabilità, ricordatevi della Spagna. E magari mettete da parte un po' di budget per quel load balancer che avete rimandato per mesi. Prima o poi, servirà.


Il Falso Mito della Scalabilità Lineare

Tutti parlano di scalabilità come fosse una questione di numeri grezzi: “Quanti utenti possiamo gestire?”. Ma la realtà è molto più sadica. Non si tratta di quanti, ma di come e dove colpiscono. È la differenza tra: – “Possiamo gestire 1 milione di utenti”“Possiamo gestire 1 milione di utenti che fanno tutti la stessa cazzo di cosa nello stesso momento, da device diversi, con connessioni instabili, client modificati e la voglia di fotterti il sistema”

DAZN e la Sindrome dello Streaming Selvaggio

Prendiamo DAZN – che ne sa qualcosa di picchi imprevedibili. Il problema non è lo streaming in sé. È:

È come progettare un'autostrada pensando al traffico medio, quando in realtà devi prepararti per il giorno in cui tutti decidono di uscire dall'uscita 23 contemporaneamente.

L'Effetto Conga Digitale

Il vero incubo della scalabilità? Quando tutti gli utenti:

  1. Scelgono la stessa feature marginale
  2. Ignorano il 90% del tuo sistema
  3. Si accaniscono su un singolo endpoint

È come se in un ristorante stellato, tutti i clienti ordinassero solo il pane e l'acqua. La tua cucina da 3 stelle Michelin diventa inutile, mentre il fornaio impazzisce.

Morale: Scalabilità ≠ Resistenza Bruta

La lezione del blackout iberico è chiara: – Testare il carico medio è inutile – Bisogna stressare ogni singolo componente come se fosse l'unico disponibile – Prepararsi per il peggior pattern d'uso possibile (perché sarà quello che accadrà)

Perché nella guerra della scalabilità, gli utenti non attaccano mai dove li aspetti. E quando lo fanno, è sempre nel modo più stronzo possibile.


Il Mito del Sistema “Testato”: Quando la Realtà Ti Sputa in Faccia

Lo Stress Test che Non Stressa Abbastanza

Tutti quei manuali pieni di best practices con la loro aria saccente dovrebbero essere riscritti per dire: “Prendi il tuo bel test di carico perfettamente pianificato e buttalo nel cestino. Ora immagina che mentre il sistema è sotto stress, un operaio tagli il cavo sbagliato, un piccione decida di nidificare nel trasformatore, e il meteoropatico del team operations abbia una crisi esistenziale”. Perché le condizioni reali sono sempre una presa per il culo cosmica rispetto ai nostri puliti scenari di test.

La Dura Verità sulla Maturità dei Sistemi

Nel mondo esistono due categorie ben distinte di sistemi. Da un lato abbiamo quelli che hanno passato anni a farsi maltrattare dalla realtà, quelli che sanno cosa fare quando la corrente va e viene come un ubriaco all'una di notte, quando i dischi iniziano a fare quel rumore strano che non promette nulla di buono, o quando il database decide che oggi è il giorno giusto per fare lo sciopero.

Dall'altro lato ci sono i sistemi “testati”, quelli che in teoria hanno superato tutti i controlli ma che in pratica non hanno mai visto un vero problema. Questi sono come quei ragazzi usciti dalle migliori università che poi vanno nel panico quando devono cambiare una lampadina. Hanno tutte le certificazioni del caso, ma se il vento soffia dalla direzione sbagliata o se qualcuno starnutisce troppo forte sul server, il sistema va in tilt come una vecchia Fiat Panda in salita.

Il Grande Inganno delle Condizioni Controllate

Il vero problema è che testiamo sempre nelle condizioni sbagliate. Facciamo prove di carico quando tutto è perfetto, quando la rete è stabile, quando l'alimentazione è pulita, quando i pianeti sono allineati. Ma nella realtà, le cose vanno male sempre nel modo più stupido e imprevedibile possibile.

Prendiamo le reti elettriche con le rinnovabili: abbiamo veramente considerato cosa succede quando per tre giorni non c'è un filo di vento e il cielo è coperto? Abbiamo testato cosa accade quando mezzo paese accende l'aria condizionata nello stesso momento in cui i pannelli solari stanno producendo meno del previsto? O abbiamo solo fatto delle belle simulazioni con i numeri che ci facevano comodo?

Morale: la Maturità si Vede solo Sotto Tormenta

Un sistema è veramente maturo solo quando ha visto abbastanza merda da saperci nuotare dentro. Quando il team operations non ha più bisogno delle procedure scritte perché ormai ha visto così tanti disastri che potrebbe scrivere un libro.

La prossima volta che qualcuno vi dice “il sistema è testato”, chiedetegli: sì, ma ha mai affrontato un vero lunedì mattina con il bufalo nel data center e l'operatore che ha appena litigato con la moglie? Perché sono queste le prove che contano davvero.


C'è un'evidenza che ci guarda in faccia ogni giorno ma che preferiamo ignorare. Le energie rinnovabili, quel miracolo tecnologico che dovrebbe salvarci dal collasso climatico, soffrono dello stesso problema di qualsiasi sistema giovane: sono testate ma non mature. È come sostituire il motore di un Boeing 747 in volo con un prototipo che ha solo fatto qualche ora in galleria del vento.

La differenza tra “funziona in teoria” e “funziona nella realtà” si misura in decenni di prove ed errori. Le centrali a combustibili fossili hanno avuto un secolo per affinarsi, per capire come comportarsi quando tutto va storto. Le rinnovabili no. Sono adolescenti brillanti ma inesperti a cui stiamo affidando le chiavi di casa.

Prendiamo il caso del fotovoltaico. Sì, sappiamo produrre pannelli efficienti. Ma sappiamo davvero cosa succede quando una tempesta di sabbia copre metà dei pannelli di un'intera regione mentre la domanda energetica raggiunge il picco? O quando il ghiaccio si accumula sulle pale eoliche in contemporanea a un'ondata di freddo che fa impennare i consumi?

La verità è che stiamo facendo un enorme esperimento collettivo. Abbiamo sostituito sistemi prevedibili, anche se inquinanti, con una rete fragile che dipende da variabili incontrollabili. E lo abbiamo fatto senza avere un vero piano B, senza aver accumulato quell'esperienza che solo il tempo può dare.

I politici continuano a parlare di rivoluzione verde, di obiettivi climatici, di transizione energetica. Parlano a raffica, convinti, entusiasti. Ma non ascoltano gli ingegneri che cercano di spiegare che tra il progetto e la realtà c'è di mezzo il mondo. Non vogliono sentire che servirebbero ancora anni, forse decenni, per rendere questo sistema veramente resiliente.

Il blackout in Spagna è stato un assaggio di quello che potrebbe accadere su scala più ampia. Un campanello d'allarme che nessuno vuole sentire. Perché ammettere il problema significherebbe rallentare la transizione, e questo è politicamente inaccettabile.

Così continueremo, testardamente, a correre verso il futuro con un sistema energetico acerbo, sperando che la legge di Murphy non ci presenti il conto al momento sbagliato. Perché quando si tratta di energia, l'ottimismo non è una strategia – è un atto di fede. E la fede, si sa, a volte vacilla quando serve di più.


C’è una verità che tutti conoscono ma che pochi hanno il coraggio di urlare: i sistemi critici vengono testati per fallire in modo educato, non in modo realistico.

Prendiamo i piani di failover. Li proviamo, certo. Ma sempre con garbo, sempre con delicatezza, sempre con l’assurda premessa che “se qualcosa va male, tutto il resto funzionerà perfettamente”. È come testare i paracadute saltando da un aeroplano… ma solo quando il meteo è sereno, il vento è calmo e hai un team di soccorso pronto a recuperarti al primo accenno di problema.

Poi arriva la realtà, quella stronza, e ti presenta il conto.

Perché il “Multi-Failure” Non Si Testa? Perché Scomoda Troppa Gente

Quando fai notare che “forse dovremmo verificare cosa succede se l'alimentazione principale salta E il backup non parte E la squadra di turno è composta dal tirocinante e da quello che sta per andare in pensione”, la risposta è sempre la stessa: “Ma no, è troppo specifico. Noi non testiamo la doppia failure!”.

E invece no.

Quello spagnolo era un blackout “raro”? Certo. Ma “raro” non significa “impossibile”, significa solo “quando succede, non sai che cazzo fare”. E la verità è che i veri disastri nascono sempre dall’accumulo di problemi banali, non da un singolo evento catastrofico:

Il trasformatore si surriscalda e l’allarme non scatta perché qualcuno ha disattivato le notifiche “troppo rumorose”.

La comunicazione tra i reparti si interrompe e nessuno sa chi dovrebbe prendere la decisione.

Il generatore di emergenza parte, ma nessuno ha mai fatto manutenzione alla valvola del carburante.

L’Incompetenza è Parte del Sistema, Non un Bug

Il vero fallimento non è mai solo tecnico. È tecnico + umano + organizzativo, una combo perfetta che i test sterilizzati ignorano bellamente.

Morale: Se Non Testi il Caos, Il Caos Testa Te

La prossima volta che qualcuno dice “non testiamo failure multiple perché sono tropo specifiche”, rispondigli: “Perfetto, allora non serve neanche un estintore nell'ufficio, tanto gli incendi sono rari.”

Perché alla fine è questo il punto: i sistemi non muoiono per un singolo colpo, muoiono per mille taglietti. E ci vuole tempo per sperimentarli tutti nel mondo reale, e raggiungere maturita'. Se non raggiungete la maturita', state solo aspettando che il mondo vi faccia il culo a striscie.

E fidatevi, lo farà.


Questo e' il punto che nessuno vuole far notare della cosiddetta “transizione verde”. Stiamo facendo una transizione globale verso tecnologie NON MATURE.

Ripeto, NON MATURE.

Uriel Fanelli


Il blog e' visibile dal Fediverso facendo il follow a: @uriel@keinpfusch.net

Contatti: