L’uso di modelli AI generalisti in ambito sanitario pone rischi clinici, normativi e operativi spesso sottovalutati. Dalla qualità delle fonti alla protezione dei dati, fino alla validazione clinica, la sanità richiede strumenti verticali progettati per supportare il medico senza sostituirlo.

Un medico di base, una guardia medica, un medico specialista o un professionista sanitario. Davanti a un caso insolito, a un’interazione farmacologica sospetta, a una linea guida che non ricordano con precisione. Il gesto più naturale oggi è aprire un browser e chiedere a un modello linguistico generalista.

Non c’è niente di irrazionale in questo comportamento. C’è invece un problema strutturale che rischia di passare inosservato fino a quando non causa un danno concreto: gli strumenti AI generalisti non sono stati progettati per il contesto clinico, non sono stati validati su di esso, e il loro utilizzo in ambito sanitario espone professionisti e istituzioni a rischi che la maggior parte di chi li usa non ha ancora pienamente valutato. Ed è proprio questa apparente normalità a rendere il rischio sistemico invisibile.

I grandi modelli linguistici generalisti sono addestrati su corpus vastissimi di testo. Questa è la loro forza in contesti generici. In ambito clinico, diventa una criticità sistematica. Perché la medicina non richiede solo informazione, ma selezione, pesatura e contestualizzazione dell’evidenza.

La gerarchia dell’evidenza non esiste per gli AI generalisti

Il primo problema è la qualità e gerarchia delle fonti. Un modello generalista non distingue una metanalisi Cochrane da un articolo di opinione su una rivista di terza fascia. Non applica la gerarchia delle evidenze che è il fondamento della medicina moderna: tratta un case report e un trial randomizzato controllato con lo stesso peso, perché non è stato addestrato per farlo diversamente, né per rendere esplicito il livello di evidenza associato a ogni affermazione. Il risultato è una risposta che suona autorevole ma che può riflettere le evidenze peggiori disponibili su un argomento.

I bias dei dati diallenamento sono sistematici

Il secondo problema è il bias nei dati di training. I modelli generalisti sovrarappresentano popolazioni, patologie e contesti geografici più presenti nella letteratura anglofona e nelle fonti web. Questo introduce distorsioni sistematiche nelle risposte, spesso invisibili all’utente e non documentate dal sistema.

Leallucinazioni: una minaccia diretta in contesti ad alto rischio

Il terzo problema, il più noto ma non per questo meno rilevante, sono le allucinazioni. In un contesto clinico, un’allucinazione non è un’imprecisione accettabile: è un’informazione formulata con linguaggio scientifico corretto, riferita a studi che non esistono o a dosaggi che non corrispondono alle fonti reali. In un contesto ad alto rischio, è una fonte di errore con impatto diretto sul paziente.

Gli AI generalisti violano le leggi sulla protezione dei dati

L’adozione di strumenti AI generalisti in ambito sanitario non è soltanto una questione di affidabilità tecnica. È una questione di conformità normativa che coinvolge direttamente le strutture che li adottano.

Il GDPR classifica i dati sanitari tra le categorie particolari che richiedono le massime garanzie di trattamento. Nel concreto, questo significa che l’utilizzo di modelli generalisti per analizzare dati clinici, anche apparentemente anonimizzati, può esporre la struttura a trattamenti non conformi, in assenza di controllo su localizzazione, sicurezza e finalità del dato.

Norme europee richiedono dispositivi medici verificabili

L’AI Act europeo (Regolamento UE 2024/1689) classifica i sistemi di supporto decisionale clinico come sistemi ad alto rischio, con obblighi specifici di valutazione del rischio, qualità dei dati di training, supervisione umana e tracciabilità delle decisioni. Un modello generalista utilizzato in contesto clinico non soddisfa questi requisiti per definizione: non è stato sviluppato, documentato e validato per quel caso d’uso.

Il MDR (Medical Device Regulation, Regolamento UE 2017/745) aggiunge un ulteriore livello: uno strumento software che fornisce supporto a decisioni diagnostiche o terapeutiche su pazienti specifici può rientrare nella definizione di dispositivo medico, con tutti gli obblighi di certificazione che ne derivano. Utilizzare uno strumento non certificato in questo perimetro espone la struttura sanitaria, non solo il singolo professionista, a responsabilità concrete.

La mancanza divalidazione clinica rende gli strumenti generalisti rischiosi

Per uno strumento generalista, questa validazione è strutturalmente impossibile: non può essere validato in modo rigoroso su un dominio specifico perché è stato progettato per coprirne migliaia. La verticalizzazione non è una feature aggiuntiva. È la condizione che rende possibile la validazione, e quindi l’adozione responsabile. Un modello progettato per fare tutto non può essere validato in modo rigoroso per fare bene una cosa. In medicina, la generalizzazione è un vantaggio teorico. La specificità è una necessità operativa.

I sistemi verticali richiedono una progettazione precisa

La differenza tra un sistema generalista e uno verticale non è una questione di dominio, ma di progettazione. Ogni scelta architetturale, le fonti, il trattamento del dato, il ruolo assegnato al clinico, determina se uno strumento è adatto al contesto clinico o semplicemente utilizzabile in esso.

La medicina basata sulle evidenze non può basarsi su ipotesi generate a caso

Uno strumento verticale per la sanità deve essere connesso a banche dati scientifiche validate: PubMed e la letteratura biomedica peer-reviewed, i database farmacologici delle agenzie regolatorie (EMA, AIFA), le linee guida nazionali e internazionali delle società scientifiche, e, a livello istituzionale, la knowledge base aziendale dell’organizzazione che lo adotta. Non basta l’accesso alle fonti: il sistema deve applicare un’analisi qualitativa delle evidenze, pesare gli studi secondo la loro solidità metodologica, distinguere una raccomandazione di grado A da un’opinione di esperto. La medicina basata sulle evidenze non si simula: si implementa.

Le tecnologie come RAG e knowledge graph sono essenziali

Le tecnologie che oggi consentono di ancorare le risposte di un modello AI a fonti verificabili e tracciabili, come la retrieval-augmented generation (RAG), i knowledge graph, i sistemi agentici multi-step, non sono optional in ambito clinico: sono requisiti architetturali. In termini pratici, questo significa che la risposta non viene “inventata” dal modello, ma costruita a partire da fonti reali, esplicite e verificabili. Il risultato è un output citabile, tracciabile