Il blackout AWS sull’Italia Digitale

Condividi

Il 20 ottobre 2025 è una data che molti ricorderanno per la semiparalisi della Rete. Un malfunzionamento di Amazon Web Services (AWS), non un cyberattacco, ha bloccato servizi essenziali in giro per il mondo, Italia inclusa.

Quella mia mattinata è iniziata con un incubo burocratico. Per una serie di inefficienze da bullshit jobs, la mia PEC non andava bene e la banca destinataria chiedeva una raccomandata cartacea. Ovviamente chiuderò quel conto.
Insomma, avevo una raccomandata urgente da fare con il sistema di Poste Italiane. Mi connetto e il sito è lento e non accetta la raccomandata. Riproverò varie volte, con vari comportamenti bislacchi. Due ore senza fare la raccomandata.

Ho scoperto che il problema non era solo per Poste Italiane, ma anche per Intesa Sanpaolo, Agenzia delle Entrate, TIM e Vodafone, chissà anche sulla stessa Amazon che nei giorni dopo ha riprogrammato mail e consegne.

US-EAST-1 in tilt

La radice del problema era nella regione Amazon Web Services nota come US-EAST-1 (Virginia del Nord), la più antica e trafficata del gigante del cloud. L’interruzione è stata innescata da un problema di risoluzione DNS (Domain name system) relativo agli endpoint dell’API del servizio DynamoDB, il database chiave-valore di punta di Amazon: le applicazioni (come quelle usate indirettamente da Poste Italiane o dalle banche) non riuscivano a trovare l’indirizzo corretto per comunicare con il database cruciale DynamoDB.

Anziché restare circoscritto in Virginia, il problema ha avuto un effetto domino su altri servizi essenziali e globali di AWS, causando tassi di errore elevati e latenza su scala planetaria.

Aziende e piattaforme in Italia che si affidano a questa specifica regione per il loro backend o per servizi critici ne sono state travolte.

Multi-AZ non è Multi-Regione

Alcune domande sulle strategie di continuità operativa aziendale sono subito sorte. Di fatto, lavoriamo male. In genere le aziende in cloud implementano una protezione multizona: se un singolo data center fallisce, il sistema esegue un failover automatico verso un altro data center della stessa regione. Tuttavia, il guasto del 20 ottobre ha colpito il piano di controllo dell’intera regione US-EAST-1: in questo scenario, la strategia multizona non è sufficiente.

L’unica difesa veramente efficace contro un fallimento a livello regionale è una strategia multiregione: replicare e mantenere attive o pronte all’uso le infrastrutture critiche in una seconda regione geograficamente lontana (ad esempio, a Francoforte o a Milano).

Perché questa non era la norma? Perché il costo è alto e l’evento è piuttosto raro. In realtà, in questo caso ci si attendeva un degrado del servizio e non un blocco totale. C’è necessità di regolarizzare questo settore, troppo variegato per essere resiliente. C’è poi da sperare che chi eroga servizi importanti paghi il prezzo del servizio multiregione.

La resilienza sia ibrida

Il malfunzionamento di AWS è stato una sveglia per l’intero settore. Santiago Pontiroli, Lead TRU Researcher di Acronis, ha sintetizzato in un commento scritto il punto nevralgico della vicenda. “Strategie hybrid e multi-cloud, l’isolamento del DNS e una progettazione che consenta un funzionamento controllato anche in condizioni di errore sono ormai indispensabili per garantire la continuità dei servizi critici.”

L’outage in US-EAST-1 ha evidenziato come l’uso di un database strettamente legato a un singolo provider (come DynamoDB con AWS) comporti un alto rischio di vendor lock-in. Sul mercato esistono diverse soluzioni con maggior grado di apertura, ma richiedono un approccio dei vertici aziendali rivolto al miglioramento del servizio e non al mantenimento dello status quo. Certo va ricordato che in Europa le conformità legali costano parecchio, archiviazione e sviluppo sono in forte aumento e il rischio di multe è molto forte, per cui c’è convenienza a fare le cose negli Usa.

Le alternative esistono. Mi sono recentemente aggiornato su MongoDb, la cui versione gestita, Atlas, permette questo tipo di gestione, mentre una versione autonoma può essere installata su cloud operator italiani. Sicuramente queste opzioni sono/saranno disponibili anche per molte altre soluzioni analoghe: è ora di considerare la questione globale da un diverso punto di vista, certo tecnologico ma anche economico: una proposta potrebbe essere l’abbattimento dei costi per la seconda regione, un’altra il citato ricorso a soluzioni esterne ai grandi fornitori d’infrastruttura.

Vedremo.

Leo Sorge
Leo Sorge
Leo Sorge è laureato in ingegneria elettronica, ma ha preferito divulgare scienze e tecnologie reali o presunte. Ritiene che lo studio e l’applicazione vadano separate dai risultati attesi, e che l’ambizione sia il rifugio dei falliti. Ha collaborato a molte riviste di divulgazione, alle volte dirigendole. Ha collaborato a molti libri, tra i quali The Accidental Engineer (Lulu 2017), Lavoro contro futuro (Ultra 2020) e Internetworking (Future Fiction 2022). Copia spesso battute altrui, come quella sull’ambizione e anche l’altra per cui il business plan e la singolarità sono interessanti, ma come spunti di science fiction.

Altri Editoriali

La semplificazione come atto di leadership

Prima o poi, c’è un momento, nella vita di...

AI europea spinta dalla SAI 304 223

La sicurezza dell’AI è centro di dibattito in qualsiasi...

Elogio dell’indecisione, del dubbio e del pensiero

Milano, cinema strapieno, prima nazionale de “La grazia”, l'ultimo...

Il capitale umano come leva della reputazione aziendale

Leggendo gli scritti di Francesca Caputo, autrice del libro...

Sarà il quantum a far esplodere la AI bubble?

Per rivoluzionare ottimizzazione, telecomunicazioni e crittografia, la parola d’ordine...

La difficile strada dell’AI europea

È stato durante la recente cerimonia di inaugurazione del...