Un utente di Reddit ha recentemente affermato di essere “desperatamente alla ricerca di aiuto”: per circa un mese, ha detto, il suo telefono aveva ricevuto chiamate ininterrotte da «sconosciuti» che chiedevano un avvocato, un designer del prodotto o un serrurificio. I chiamanti sembravano essere stati indirizzati in modo errato da Google Gemini, il chatbot di Google.

Nel marzo scorso, uno sviluppatore software in Israele è stato contattato tramite WhatsApp dopo che Gemini ha fornito, per errore, istruzioni di servizio clienti che includevano il suo numero. Ancora più recentemente, nel mese di aprile, una dottoranda all’Università di Washington si è divertita a chiedere informazioni casuali su Gemini, scoprendo che poteva ottenere il numero di cellulare di un suo collega.

Gli esperti di ricerca sull’AI e gli esperti di privacy online hanno da tempo avvertito dell’enorme numero di rischi che le tecnologie basate su AI generativa rappresentano per la privacy personale. Tuttavia, questi casi evidenziano un problema in particolare: la possibilità che chatbot dell’intelligenza artificiale espongano effettivamente numeri di telefono reali, mettendo a rischio i destinatari.

Secondo gli esperti, questi episodi di privacy compromessa sono probabilmente legati all’uso di informazioni identificative personali (PII, Personal Identifiable Information) nei grandi dataset utilizzati per addestrare i modelli AI. Benché non sia chiaro il meccanismo esatto che permette a tali informazioni di apparire nei risultati dei chatbot, l’effetto è sempre dannoso per i destinatari. Ancora più inquietante è che non sembra esserci alcun modo concreto per evitare che questo accada.

Non è possibile determinare con esattezza quanto frequentemente accadano casi di esplicita divulgazione di numeri telefonici via chatbot AI, ma gli esperti ritengono che stiano crescendo in modo esponenziale rispetto a quanto comunemente segnalato. DeleteMe, azienda che si occupa di eliminare informazioni personali da internet su richiesta, ha riportato un aumento del 400% nell’interesse da parte dei clienti riguardo a questi temi, portando a migliaia di richieste mensili in soli sette mesi.

Rob Shavell, fondatore e CEO di DeleteMe, ha spiegato che i reclami riguardano principalmente due tipi di situazioni:

Questo modello è stato verificato da Daniel Abraham, un ingegnere software israeliano. A marzo una sconosciuta l’ha contattato tramite WhatsApp con un messaggio strano a riguardo del suo account su PayBox, un’app di pagamento israeliana.

«Pensavo fosse uno scherzo», ha scritto Abraham a MIT Technology Review in un'email. «Qualcuno che voleva solo farmi fare brutta figura». Quando ha chiesto chi lo aveva trovato, il mittente ha inviato uno screenshot delle istruzioni fornite da Gemini: un messaggio richiamava il numero di Abraham come supporto clienti su WhatsApp.

Il problema? Abraham non ha alcun rapporto con PayBox e l’app non offre il servizio clienti su WhatsApp. Gabay, un rappresentante del supporto clienti, ha confermato che PayBox non ha canali ufficiali su WhatsApp.

In seguito, Abraham ha chiesto a Gemini di nuovo come contattare il servizio PayBox e il modello ha restituito un numero WhatsApp diverso, stavolta non collegato a PayBox ma a un’altra azienda di carte di credito affiliata.

Sebbene l’interazione sia terminata rapidamente, Abraham ha espresso forti preoccupazioni riguardo a come tali interazioni potrebbero evolversi: «Cosa succederebbe se qualcuno chiedesse soldi per “risolvere” il problema?».

Dopo questa esperienza, Abraham ha effettuato una ricerca Google su un motore di ricerca tradizionale: il suo numero era apparso online, pubblicato in un forum locale tipo Quora nel 2015. È possibile che questo abbia spianato la strada al modello Gemini, che ha in seguito riprodotto quell’informazione più di dieci anni dopo.

I chatbot come Gemini, ChatGPT di OpenAI e Claude di Anthropic si basano su LLM (Large Language Models) addestrati su dataset massicci, provenienti da tutto Internet. Questo processo include inevitabilmente centinaia di milioni di esempi di informazioni identificative personali. Per fare un esempio, abbiamo segnalato l’estate scorsa come un dataset popolare open-source abbia incluso copie di curriculum, patenti di guida e schede di credito.

La possibilità di ottenere informazioni personali in questo modo sta crescendo man mano che i dataset online tradizionali si esauriscono e i provider AI si rivolgono a nuove fonti: aziende di dati e portali di ricerca persone. Secondo il registro dei data broker della California, ad esempio, 31 su 578 aziende registrate hanno dichiarato di aver «condiviso o venduto dati degli utenti a sviluppatori di sistemi AI generativi nel corso dell’ultima anno».

I modelli AI sanno memorizzare e riprodurre letteralmente dati di addestramento specifici — e la ricerca recente indica che non è soltanto il contenuto ricorrente che è soggetto a essere memorizzato.

É una norma comune, oggi, includere barriere interne ai modelli per limitare o bloccare determinati output: filtri di contenuto tentano di riconoscere PII e di evitare la sua diffusione. Anthropic ad esempio fornisce linee guida per Claude, istruendolo a fornire risposte con il minore contenuto di informazioni personali.

Tuttavia, come hanno sperimentato recentemente due studenti dottorando dell’Università di Washington, queste protezioni non sempre funzionano. Un giorno, uno di loro, Meira Gilbert, ha iniziato a divertirsi con Gemini, cercando le informazioni di contatto di un’amica, Yael Eiger.

Dopo aver digitato «Yael Eiger contact info», Gemini ha fornito un riepilogo delle sue ricerche — come previsto da Gilbert. Ma inaspettatamente ha incluso anche il numero di telefono personale di Eiger. «Era scioccante», ha detto Gilbert.

A fronte del risultato mostrato su Gemini, Eiger si ricordò che il suo numero era stato effettivamente condiviso online pochi anni addietro in occasione di un workshop sulle tecnologie — ma non immaginava che sarebbe rimasto così visibile. «Essere il possessore di informazioni accessibili a un pubblico limitato e improvvisamente scoprire che le rendi accessibili a chiunque» rappresenta un enorme contraccolpo, ha affermato Eiger. Questo era specialmente vero quando le informazioni erano nascoste in una semplice ricerca Google. «Era