Le AI sanno troppo: è il momento dei dati sintetici

Condividi

È ancora relativamente frequente, ma non più episodico, che un’AI conversazionale risponda ad un utente con dati che non dovrebbe avere. Tra gli ultimi casi, ChatGPT conosceva lo stranissimo nome del gatto di un utente. Interrogata, l’AI ha negato di conoscerlo. La questione sembra futile, ma non lo è: dietro c’è la vendita dei dati social -ovviamente non anonimizzati- da chi li ha a chiunque li voglia. Se poi l’AI stabilisce delle connessioni illecite e ne fa uso, se si tratta del nome del gatto si sorride, ma se si tratta di cose più importanti non si sorride più.

La sfida della restrizione sui dati

Una strada che appare percorribile è bloccare questo uso indiscriminato di qualsiasi informazione, come si sta facendo da più parti. Ma questa potrebbe non essere la strada giusta, come dice l’articolo “Le restrizioni sui dati per l’intelligenza artificiale stanno ostacolando lo sviluppo di tecnologie più sicure”, scritto da Cade Metz sul New York Times online dal 19 luglio 2024.

Il giornalista parte dal documento pubblicato da un gruppo di esperti in campo di sicurezza e AI, nel quale si dice che le restrizioni sui dati stanno limitando la capacità degli sviluppatori di creare modelli di intelligenza artificiale più sicuri e robusti.

La privacy, insomma, colliderebbe con la security. Gli sviluppatori di nuove AI stanno avendo difficoltà a ottenere dati per addestrare i modelli, il che sta limitando la loro capacità di creare tecnologie più sicure. Inoltre, aggiungo io, questa limitazione non riguarda chi finora ha fatto incetta di qualsiasi cosa gli passasse a distanza raggiungibile.

Insomma, è necessario trovare un modo per proteggere la privacy degli utenti senza limitare lo sviluppo di tecnologie più sicure. Da un lato si potrebbe cercare un diverso equilibrio tra la protezione della privacy e lo sviluppo di tecnologie più sicure, in modo da poter creare tecnologie che siano sia sicure, sia efficaci.

Dall’altro si può ricorrere ai cosiddetti dati sintetici, ovvero inventati, ma in modo realistico.

Già usati per integrare basi di dati scarsi o poco puliti, potrebbero diventare una formula di successo. Ipotizziamo, teoricamente, che benché sintetici si riesca a farli realmente rappresentativi di una determinata situazione: in questo modo, il distorto legame con le nostre reali attività sarebbe indissolubilmente bloccato. Come se non bastasse, la regolamentazione sulla generazione di dati sintetici potrebbe essere affrontata con una certa semplicità rispetto alle questioni di privacy dei dati reali.

Per questo non è strano che a lavorare in tal senso sia stato l’Istituto Italiano per la Privacy e la valorizzazione dei dati (IIP), una realtà privata presieduta dal giurista Luca Bolognini, che porta avanti numerosi argomenti a sfondo sociale.

I dati sintetici sono una soluzione?

L’IIP ha recentemente presentato il paper “Il futuro regolatorio dei dati sintetici”, che esamina questa emergente tecnologia nel contesto europeo, analizzandone le implicazioni tecniche e giuridiche.

I dati sintetici sono generati da algoritmi di apprendimento automatico e intelligenza artificiale, che creano insiemi di dati nuovi e statistici equivalenti a quelli reali ma senza informazioni identificative.

Questi dati sintetici offrono una soluzione efficace per mantenere l’anonimato, risolvendo il dilemma tra anonimizzazione e pseudonimizzazione che oggi è cruciale. Le avanzate tecniche di sintesi usate includono Generative Adversarial Networks (GANs), modelli autoregressivi e variational autoencoders (VAE), tutte soluzioni che assicurano una stretta corrispondenza dei dati sintetici con le caratteristiche dei dati originali.

L’IIP analizza le azioni da intraprendere alla luce del GDPR (che riconosce i dati sintetici), dei regolamenti Data Governance Act e Data Act (diritto al riuso e all’accesso equo ai dati) e l’AI Act (che ne parla negli articoli 10 e 59). Una nota a parte riguarda lo European Health Data Space, che propone l’uso dei dati sintetici per migliorare la sanità digitale, promuovendo la ricerca senza compromettere la privacy dei pazienti.

Va però notato che le nuove norme collidono spesso con quelle vecchie, che a loro volta collidono a livello dei diversi Stati dell’UE.

“Oggi tutto il patrimonio digitale che ci riguarda si muove su una scacchiera governata dagli oligopoli di gigantesche piovre digitali, di fatto degli Stati sovrani”, dice il giurista informatico Andrea Lisi. A lui ho chiesto se sia possibile applicare le nuove norme con tante leggi (e prassi) nazionali: “E’ molto difficile”, ha risposto.

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Leo Sorge
Leo Sorge
Leo Sorge è laureato in ingegneria elettronica, ma ha preferito divulgare scienze e tecnologie reali o presunte. Ritiene che lo studio e l’applicazione vadano separate dai risultati attesi, e che l’ambizione sia il rifugio dei falliti. Ha collaborato a molte riviste di divulgazione, alle volte dirigendole. Ha collaborato a molti libri, tra i quali The Accidental Engineer (Lulu 2017), Lavoro contro futuro (Ultra 2020) e Internetworking (Future Fiction 2022). Copia spesso battute altrui, come quella sull’ambizione e anche l’altra per cui il business plan e la singolarità sono interessanti, ma come spunti di science fiction.

Altri Editoriali

Privacy ed enforcement nel caso Telegram

Tra le recenti questioni emerse sul rapporto tra poteri...

Servizi ICT tra GPU, DPU e AI Storage

Mi trovo spesso a parlare con manager di grandi...

Navigare nella tempesta 6 mosse per i CEO

Se un manager si fosse addormentato a inizio 2020...

Caro Produttore ti scrivo

Caro Vendor (o Fornitore, o Produttore, che dir si...

Innovazione: la tenacia, prima di tutto

Abbiamo ormai numerose controprove che dimostrano come all'origine di...

I gemelli della relatività e dell’entanglement quantistico

Nel vasto campo della fisica moderna, due concetti fondamentali...