Con la diffusione crescente dell’intelligenza artificiale, le aziende stanno intensificando gli investimenti nelle infrastrutture per sfruttare al massimo i benefici in termini di produttività offerti dalle nuove applicazioni. Tuttavia, queste soluzioni richiedono un’ingente quantità di risorse, in particolare sul piano computazionale. I nuovi carichi di lavoro impongono l’adozione di sistemi ad alte prestazioni, che a loro volta necessitano di soluzioni di alimentazione e raffreddamento capaci di garantire efficienza e affidabilità anche in presenza di consumi energetici elevati. Di conseguenza, la gestione del calore generato dai processi di elaborazione diventa una priorità, spingendo verso lo sviluppo di una nuova generazione di impianti di alimentazione e raffreddamento, da progettare con cura, gestire in modo intelligente e sottoporre a una manutenzione costante e mirata.
La progettazione delle infrastrutture necessarie a supportare le più avanzate GPU — cuore delle applicazioni AI di nuova generazione — è affidata a produttori, consulenti e operatori altamente specializzati. Un aspetto cruciale da considerare sin dalle prime fasi progettuali è la manutenzione, che deve essere pianificata in modo accurato per garantire affidabilità e continuità operativa nel tempo.
Le soluzioni HPC/AI si distinguono inoltre per esigenze energetiche particolarmente complesse. Nonostante l’evoluzione dell’hardware server abbia migliorato l’efficienza energetica per unità di elaborazione, le applicazioni AI restano energivore a causa della natura intensiva dei processi, come l’addestramento dei modelli o le inferenze in tempo reale. A complicare ulteriormente la gestione energetica, interviene la variabilità dei carichi: il profilo di consumo può cambiare sensibilmente in base al tipo di operazioni eseguite, alla configurazione del sistema e all’architettura della GPU impiegata.

“Questo fabbisogno energetico extra mette a dura prova le attuali soluzioni di raffreddamento richiedendo sia aria che liquido per gestire il calore prodotto dai nuovi server – spiega Andrea Faeti, Sales Director Enterprise Accounts di Vertiv per l’Italia –. Il potenziamento dei sistemi raffreddati ad aria con un sistema di raffreddamento a liquido a “rear door” (con porte refrigerate adattate direttamente al rack che consentono lo smaltimento del calore prodotto prima che questo si possa diffondere nell’ambiente) o “direct to chip” (con liquido refrigerante che raggiunge direttamente i componenti critici all’interno del server) richiede agli operatori la gestione di soluzioni a differenti temperature e la gestione dell’inerzia termica del sistema per soddisfare gli SLA (service-level agreement) della soluzione. L’implementazione del raffreddamento a liquido richiede, ad esempio, un attento monitoraggio delle dispersioni, il campionamento regolare dei fluidi (per verificarne le caratteristiche chimico-fisiche) e una attenta gestione della sostituzione dei server installati.
Tradizionalmente, i responsabili operativi dei data center si affidano a eventi e notifiche provenienti da diversi sistemi di gestione, come i BMS (Building Management System) e gli EPMS (Electrical Power Management System). Sebbene utili per le attività quotidiane, queste informazioni risultano spesso insufficienti per un’analisi approfondita in tempo reale. La mancanza di dati granulari e tempestivi — come i valori di pressione e di flusso dei fluidi — limita la capacità di identificare inefficienze energetiche, con il rischio di un incremento dei costi operativi e un rallentamento nel raggiungimento degli obiettivi di sostenibilità. Inoltre, l’assenza di strumenti avanzati di analisi predittiva ostacola una manutenzione realmente proattiva delle apparecchiature.
“I metodi tradizionali di manutenzione delle infrastrutture per l’energia elettrica e termica sono basati sulle previsioni temporali e prevedono controlli di routine, indipendentemente dalle condizioni effettive delle apparecchiature – continua Faeti -. Questo approccio comporta un rischio nella gestione manuale e può portare a tempi di inattività imprevisti, operazioni inefficienti e rischi non identificati. In applicazioni HPC, in cui il funzionamento dipende in larga misura dalle prestazioni dell’infrastruttura, compresi componenti come il liquido di raffreddamento, le valvole, le pompe, i filtri, le batterie, le ventole e i condensatori, l’uso di analisi dei dati avanzate è essenziale per garantire una risposta efficace”.
“I principali produttori per le infrastrutture digitali critiche, come Vertiv, offrono servizi completi che soddisfano i requisiti dei nuovi sistemi di alimentazione e raffreddamento per supportare le applicazioni di AI. I servizi offrono un’assistenza personalizzata per la configurazione e il funzionamento, oltre alla raccolta di dati in tempo reale sugli asset critici. Alcuni nuovi servizi sono in grado di trasmettere in tutta sicurezza i dati tecnici delle apparecchiature a una piattaforma cloud, dove l’AI e il machine learning li analizzano per produrre punteggi sull’efficienza dei sistemi e rilevare le anomalie” conclude il manager.
Con l’accesso a strumenti analitici e di reporting dettagliati, è possibile prendere decisioni mirate. La maggiore visibilità sull’operatività aumenta la fiducia degli stakeholder e favorisce l’efficienza operativa. Gli strumenti di analisi tipici includono i seguenti:
- Valutazione dello stato di salute degli impianti. Identifica sia i siti sani che quelli potenzialmente problematici, e fa un benchmarking delle apparecchiature installate in ambienti elettrici e fisici simili per determinare le attività di manutenzione e la frequenza.
- Valutazione dello stato di salute dell’apparecchiatura. I parametri relativi allo stato di sottosistemi e componenti vengono registrati per consentire programmi di manutenzione e sostituzione accurati per l’intero ciclo di vita.
- Alert critici. Vengono evidenziati gli avvisi che richiedono un’attenzione immediata da parte dei tecnici.
- Numero di alert critici. Gli impianti con frequenti e/o specifici tipi di eventi critici vengono evidenziati per una corretta pianificazione e prevenzione (ad esempio, le parti di ricambio necessarie a magazzino).
Per ridurre i rischi economici, tecnici e di sicurezza dovuti alla crescente complessità dei data center moderni servono soluzioni di manutenzione personalizzabili e scalabili, tra cui:
- Approccio alla manutenzione che riconosca i problemi prima che si verifichino, misurando le condizioni tecniche dei sistemi infrastrutturali critici, identificando le anomalie, segnalando gli interventi necessari e attivando una manutenzione ordinaria allineata alle reali esigenze delle apparecchiature.
- Supporto avanzato per la gestione degli incidenti che offra la risoluzione dei problemi, l’analisi delle cause e la risposta agli incidenti collegando i sistemi critici con tecnici esperti. I dati in tempo reale vengono monitorati per individuare le tendenze, prevedere i comportamenti e risolvere le anomalie. I problemi possono essere risolti da remoto o con l’invio di un tecnico sul campo. Questo servizio integrato ottimizza le prestazioni delle apparecchiature e la disponibilità.
- I portali per i clienti offrono un’interfaccia intuitiva, basata su cloud, per un facile accesso alle informazioni sugli asset dei data center e alle rappresentazioni grafiche dei declini rapidi o graduali dei livelli di efficienza delle apparecchiature. Grazie a dashboard complete, gli utenti possono prendere rapidamente decisioni ponderate, migliorando l’efficienza e riducendo i rischi di fermo macchina.
LEGGI ANCHE:
Powertrain la filiera della potenza elettrica di Vertiv va oltre il white space

