C’è un cambiamento profondo in corso nell’adozione dell’intelligenza artificiale nel settore life science. Un’evoluzione che va oltre le applicazioni più note e generiche, come chatbot e assistenti virtuali, per abbracciare un impiego altamente specialistico e misurabile: quello del dato sintetico generato da modelli AI e validato per essere utilizzato nella ricerca clinica.
A illustrare i dettagli di questo percorso è stato un recente evento stampa promosso da NTT Data, in collaborazione con la start-up deep-tech Train, spin-off dell’IRCCS Istituto Clinico Humanitas per lo sviluppo dell’AI generativa, e con il supporto scientifico diretto dell’ospedale stesso. Il progetto al centro dell’incontro riguarda lo sviluppo e l’uso di una piattaforma AI per generare dati sintetici validati, destinati in particolare all’ambito della sperimentazione farmacologica.

Secondo Emanuele Corbetta, head of Life Sciences di NTT DATA Italia, l’iniziativa rappresenta un cambio di paradigma rispetto all’approccio convenzionale all’AI: “Noi mettiamo sempre al centro l’impatto e l’adozione che le tecnologie hanno sulle persone. Il nostro motto è humanize complexity: semplificare la complessità e renderla utile per l’uomo. È questo che abbiamo cercato di fare anche in questo progetto, unendo eccellenza tecnologica e sensibilità clinica”.
Il dato sintetico come motore dell’innovazione regolatoria

L’elemento chiave del progetto è l’impiego di modelli generativi sviluppati internamente da Train, capaci di creare dati clinici sintetici partendo da dataset reali ma senza comprometterne la privacy. Come ha spiegato Saverio D’Amico, co-fondatore e CEO di Train, “abbiamo sviluppato un nostro stack tecnologico che consente l’addestramento e il miglioramento in locale dei modelli, in ambienti ospedalieri, grazie all’approccio federated learning (basato sulla piattaforma GenoMed4All nata da un progetto europeo N.d.R.), evitando qualsiasi condivisione di dati sensibili. Questo è essenziale per lavorare su domini clinici ad alta complessità come le malattie rare”.
Uno degli aspetti distintivi della soluzione è il framework di validazione denominato SAFE, pensato per assicurare la qualità, la fedeltà clinica e la privacy dei dati sintetici generati. Il framework valuta ogni dato generato su tre assi principali: coerenza statistica con i dati reali, utilità clinica del dato sintetico e impossibilità di risalire al paziente reale.

La validazione non è un elemento accessorio, ma il fulcro stesso dell’adozione. Come ha precisato il professor Matteo Della Porta, ematologo, co-fondatore e Chief Scientific Officer di Train: “Nel nostro approccio, l’AI diventa uno strumento clinicamente rilevante solo se risponde a un bisogno medico reale e se viene validata con lo stesso rigore di un farmaco. Il nostro obiettivo è certificare la qualità e la fedeltà del dato sintetico affinché possa essere realmente utile nella pratica clinica e nei trial”.
I benefici concreti per la ricerca clinica
L’adozione di dati sintetici validati, come emerso nel corso dell’incontro, può avere impatti molto significativi sia in termini scientifici sia economici. In primo luogo, consente di affrontare il problema della scarsità di dati nei trial clinici, specialmente nei contesti delle malattie rare. Qui la difficoltà nel reclutare pazienti reali ostacola spesso la conduzione di studi robusti, etici ed economicamente sostenibili.
Attraverso i dati sintetici, invece, è possibile simulare bracci di controllo virtuali per clinical trial, migliorando la robustezza statistica dello studio e riducendo il numero di pazienti reali da arruolare, con un risparmio di tempo e risorse. Il tutto senza compromettere la qualità dei risultati, come dimostrato da una pubblicazione scientifica realizzata da Train, in cui un clinical trial sulla sindrome mielodisplastica è stato replicato utilizzando esclusivamente dati sintetici, ottenendo esiti clinici analoghi allo studio originale.
Inoltre, la generazione di dati sintetici consente di bilanciare dataset sbilanciati, per esempio, quando ci sono troppe poche donne o uomini, migliorando così l’equità e la rappresentatività dei dati clinici. E, aspetto non secondario, le tecnologie AI di Train si sono dimostrate scalabili anche in altri ambiti oltre l’ematologia, come le neuroscienze (sclerosi multipla) e la chirurgia.
Il ruolo di NTT Data nel rendere scalabile l’adozione dell’AI
L’apporto di NTT Data è stato determinante per integrare le tecnologie AI in un framework operativo solido, conforme ai requisiti normativi e industriali. Oltre alla partnership tecnologica, l’azienda ha messo a disposizione il proprio know-how in ambito compliance GxP, cybersecurity, cloud e validazione software. In particolare, ha fatto riferimento alle linee guida “Good Machine Learning Practices” pubblicate dalla FDA, che oggi rappresentano un punto di riferimento per lo sviluppo di soluzioni AI affidabili in ambito medico.
Come ha ricordato Corbetta, “l’esperienza ci ha permesso di portare le tecnologie AI in contesti regolamentati, integrandole con i sistemi informativi ospedalieri, abilitando funzionalità di Explainable AI e garantendo l’aderenza agli standard più stringenti. Questo è fondamentale per poter realmente trasferire i benefici dell’intelligenza artificiale nella pratica clinica quotidiana”.
Il progetto, che coinvolge anche diversi organismi finanziati dalla Commissione Europea, come il Consorzio Synthema all’avanguardia nel promuovere l’uso di dati sintetici negli studi clinici e con il supporto di partner del mondo farmaceutico di primo piano tra cui Pfizer, Bristol Myers Squibb e Novo Nordisk, si pone dunque come un esempio concreto di come l’intelligenza artificiale, se progettata con rigore e guidata da esigenze cliniche reali, possa cambiare davvero il modo in cui si fa medicina.

