I dati sintetici non cancellano i rischi pri…

I dati sintetici stanno diventando uno strumento sempre più rilevante nello sviluppo dei sistemi AI. Possono ridurre alcuni rischi privacy e semplificare testing e training, ma richiedono valutazioni su re-identificazione, qualità del dato, bias, governance e conformità all’AI Act.

In molti settori – dalla sanità alla finanza, fino alla cybersecurity e all’automotive – le aziende si trovano davanti a un’esigenza sempre più evidente: sviluppare modelli AI efficaci senza poter contare, almeno con facilità, su grandi quantità di dati reali liberamente utilizzabili.

Il tema non riguarda soltanto la disponibilità del dato, ma anche la crescente complessità normativa e organizzativa legata al trattamento dei dati personali. Condividere dataset tra team, utilizzare dati per attività di testing, coinvolgere vendor esterni o addestrare modelli su categorie particolari di dati richiede oggi livelli di governance e controllo sempre più elevati.

Come funzionano i dati sintetici

È in questo contesto che i dati sintetici stanno trovando spazio concreto. Non come soluzione “magica” ai problemi di compliance, ma come strumento che, se correttamente progettato e governato, può contribuire a ridurre alcuni rischi e a rendere più flessibile il ciclo di sviluppo dei sistemi AI.

Con l’espressione “dati sintetici” si fa generalmente riferimento a dati generati artificialmente tramite modelli statistici, simulazioni o tecniche di machine learning generativo, con l’obiettivo di riprodurre le caratteristiche e le correlazioni di un dataset reale senza coincidere con i dati originari. In termini molto pratici, il punto non è creare dati “casuali”, ma generare informazioni statisticamente coerenti con il fenomeno reale che si vuole rappresentare.

In molti casi, i dati sintetici vengono creati “addestrando” un modello su dati reali, così che possa apprenderne pattern, distribuzioni e correlazioni e generare poi nuovi dati artificiali con caratteristiche simili. In altri scenari, invece, i dati vengono prodotti tramite simulatori o ambienti virtuali che riproducono artificialmente determinati contesti operativi: è il caso, ad esempio, dei sistemi utilizzati per simulare scenari di guida autonoma, traffico urbano o processi industriali.

I vantaggi dei dati sintetici

L’interesse verso questi strumenti deriva soprattutto dal fatto che consentono, almeno in parte, di sviluppare e testare sistemi AI senza utilizzare direttamente dati reali relativi a persone fisiche. Ed è proprio qui che il tema assume particolare rilevanza anche dal punto di vista privacy.

Un equivoco piuttosto diffuso consiste infatti nel considerare automaticamente “anonimi” i dati sintetici. In realtà, la questione è più complessa: la qualificazione giuridica del dataset dipende dal concreto rischio che, direttamente o indirettamente, sia ancora possibile ricostruire o inferire informazioni riferibili agli interessati presenti nei dati originari.

L’interesse crescente verso i dati sintetici deriva soprattutto dalla possibilità di superare alcuni limiti che oggi rendono sempre più complesso utilizzare dati reali nello sviluppo dei sistemi AI.

Flessibilità operativa e vantaggi organizzativi

Il primo vantaggio riguarda la maggiore flessibilità operativa. Disporre di dataset sintetici può semplificare attività di sviluppo, testing e condivisione dei dati, consentendo alle organizzazioni di lavorare in ambienti più controllati e meno esposti alle complessità tipiche della gestione dei dati personali. In molti casi, questo permette anche di accelerare il ciclo di sviluppo dei modelli, riducendo i tempi necessari per accedere ai dataset reali, autorizzarne l’utilizzo o coinvolgere fornitori e partner tecnologici nelle attività di training e validazione.

Per molte aziende, il tema è anche organizzativo. La possibilità di utilizzare dati sintetici in ambienti di test o sandbox consente di sperimentare nuovi casi d’uso AI con minori vincoli operativi, limitando la circolazione interna dei dati reali e riducendo la necessità di replicare continuamente controlli e autorizzazioni su dataset contenenti informazioni personali o sensibili.

Valore tecnico e conformità

In altri contesti, il valore dei dati sintetici emerge soprattutto sotto il profilo tecnico. La sintesi può aiutare a gestire problemi di scarsità o sbilanciamento del dato, simulare scenari rari oppure generare casistiche difficilmente osservabili nella pratica. È il caso, ad esempio, degli eventi clinici poco frequenti in ambito sanitario, delle anomalie nei sistemi antifrode o di determinati scenari di cybersecurity che non risultano disponibili in quantità sufficienti nei dataset reali. In questo senso, la sintesi non viene vista soltanto come uno strumento “privacy-oriented”, ma anche come una leva per migliorare qualità e resilienza dei sistemi AI.

A rendere particolarmente interessante il tema è poi il crescente collegamento tra dati sintetici, gestione del rischio e compliance AI. Lo stesso European Data Protection Board, nell’Opinion 28/2024, ha richiamato l’utilizzo dei dati sintetici tra gli strumenti tecnici che possono contribuire a ridurre i rischi nella fase di sviluppo e addestramento dei modelli AI.

Limiti e rischi connessi agli utilizzi dei dati sintetici

Se è vero che i dati sintetici possono aiutare le aziende a sviluppare sistemi AI in modo più flessibile e meno esposto ai rischi legati all’utilizzo diretto di dati personali, è altrettanto vero che il loro utilizzo non elimina automaticamente i problemi privacy o di compliance.

Uno dei temi più delicati riguarda il rischio che, partendo dai dati sintetici o dal modello che li ha generati, sia comunque possibile ricostruire – almeno in parte – informazioni riconducibili alle persone presenti nel dataset originario. Questo può accadere, ad esempio, quando il sistema “impara” in modo troppo preciso caratteristiche presenti nei dati reali e finisce per riprodurre informazioni molto simili a quelle di partenza.

Il rischio tende ad aumentare soprattutto quando il dataset originario è molto piccolo
quando contiene informazioni rare o particolarmente distintive
o quando il modello viene addestrato in modo eccessivamente aderente ai dati utilizzati nella fase di training

Il fatto che un dataset sia “sintetico” non basta, da solo, a escludere la presenza di rischi privacy: occorre invece valutare concretamente come i dati siano stati generati, quali informazioni siano state utilizzate e quanto sia realisticamente possibile ricostruire collegamenti con gli interessati originari.

Qualità e bias nei dati sintetici

Accanto ai profili privacy, esiste poi un altro tema spesso sottovalutato: la qualità del dato sintetico. Un dataset sintetico è utile solo se riesce a rappresentare in modo sufficientemente realistico il fenomeno che il modello AI dovrà affrontare. Se i dati generati risultano troppo semplificati, distorti o poco rappresentativi, il rischio è addestrare sistemi AI meno accurati o meno affidabili rispetto a quanto atteso.

Lo stesso vale per