Le AI sanno troppo: è il momento dei dati sintetici

È ancora relativamente frequente, ma non più episodico, che un’AI conversazionale risponda ad un utente con dati che non dovrebbe avere. Tra gli ultimi casi, ChatGPT conosceva lo stranissimo nome del gatto di un utente. Interrogata, l’AI ha negato di conoscerlo. La questione sembra futile, ma non lo è: dietro c’è la vendita dei dati social -ovviamente non anonimizzati- da chi li ha a chiunque li voglia. Se poi l’AI stabilisce delle connessioni illecite e ne fa uso, se si tratta del nome del gatto si sorride, ma se si tratta di cose più importanti non si sorride più.

La sfida della restrizione sui dati

Una strada che appare percorribile è bloccare questo uso indiscriminato di qualsiasi informazione, come si sta facendo da più parti. Ma questa potrebbe non essere la strada giusta, come dice l’articolo “Le restrizioni sui dati per l’intelligenza artificiale stanno ostacolando lo sviluppo di tecnologie più sicure”, scritto da Cade Metz sul New York Times online dal 19 luglio 2024.

Il giornalista parte dal documento pubblicato da un gruppo di esperti in campo di sicurezza e AI, nel quale si dice che le restrizioni sui dati stanno limitando la capacità degli sviluppatori di creare modelli di intelligenza artificiale più sicuri e robusti.

La privacy, insomma, colliderebbe con la security. Gli sviluppatori di nuove AI stanno avendo difficoltà a ottenere dati per addestrare i modelli, il che sta limitando la loro capacità di creare tecnologie più sicure. Inoltre, aggiungo io, questa limitazione non riguarda chi finora ha fatto incetta di qualsiasi cosa gli passasse a distanza raggiungibile.

Insomma, è necessario trovare un modo per proteggere la privacy degli utenti senza limitare lo sviluppo di tecnologie più sicure. Da un lato si potrebbe cercare un diverso equilibrio tra la protezione della privacy e lo sviluppo di tecnologie più sicure, in modo da poter creare tecnologie che siano sia sicure, sia efficaci.

Dall’altro si può ricorrere ai cosiddetti dati sintetici, ovvero inventati, ma in modo realistico.

Già usati per integrare basi di dati scarsi o poco puliti, potrebbero diventare una formula di successo. Ipotizziamo, teoricamente, che benché sintetici si riesca a farli realmente rappresentativi di una determinata situazione: in questo modo, il distorto legame con le nostre reali attività sarebbe indissolubilmente bloccato. Come se non bastasse, la regolamentazione sulla generazione di dati sintetici potrebbe essere affrontata con una certa semplicità rispetto alle questioni di privacy dei dati reali.

Per questo non è strano che a lavorare in tal senso sia stato l’Istituto Italiano per la Privacy e la valorizzazione dei dati (IIP), una realtà privata presieduta dal giurista Luca Bolognini, che porta avanti numerosi argomenti a sfondo sociale.

I dati sintetici sono una soluzione?

L’IIP ha recentemente presentato il paper “Il futuro regolatorio dei dati sintetici”, che esamina questa emergente tecnologia nel contesto europeo, analizzandone le implicazioni tecniche e giuridiche.

I dati sintetici sono generati da algoritmi di apprendimento automatico e intelligenza artificiale, che creano insiemi di dati nuovi e statistici equivalenti a quelli reali ma senza informazioni identificative.

Questi dati sintetici offrono una soluzione efficace per mantenere l’anonimato, risolvendo il dilemma tra anonimizzazione e pseudonimizzazione che oggi è cruciale. Le avanzate tecniche di sintesi usate includono Generative Adversarial Networks (GANs), modelli autoregressivi e variational autoencoders (VAE), tutte soluzioni che assicurano una stretta corrispondenza dei dati sintetici con le caratteristiche dei dati originali.

L’IIP analizza le azioni da intraprendere alla luce del GDPR (che riconosce i dati sintetici), dei regolamenti Data Governance Act e Data Act (diritto al riuso e all’accesso equo ai dati) e l’AI Act (che ne parla negli articoli 10 e 59). Una nota a parte riguarda lo European Health Data Space, che propone l’uso dei dati sintetici per migliorare la sanità digitale, promuovendo la ricerca senza compromettere la privacy dei pazienti.

Va però notato che le nuove norme collidono spesso con quelle vecchie, che a loro volta collidono a livello dei diversi Stati dell’UE.

“Oggi tutto il patrimonio digitale che ci riguarda si muove su una scacchiera governata dagli oligopoli di gigantesche piovre digitali, di fatto degli Stati sovrani”, dice il giurista informatico Andrea Lisi. A lui ho chiesto se sia possibile applicare le nuove norme con tante leggi (e prassi) nazionali: “E’ molto difficile”, ha risposto.

Condividi

La sfida della restrizione sui dati

I dati sintetici sono una soluzione?

LASCIA UN COMMENTO Cancella la risposta

Altri Editoriali

Privacy ed enforcement nel caso Telegram

Servizi ICT tra GPU, DPU e AI Storage

Navigare nella tempesta 6 mosse per i CEO

Caro Produttore ti scrivo

Innovazione: la tenacia, prima di tutto

I gemelli della relatività e dell’entanglement quantistico