Secondo uno studio condotto da Tencent Youtu Lab insieme a diverse università cinesi, i sistemi di intelligenza artificiale (IA) evolveranno progressivamente da chatbot interattivi a veri e propri colleghi digitali in grado di completare attività complesse. Lavorando in contesti persistenti e utilizzando competenze automatizzate, tali sistemi forniranno un supporto più concreto e duraturo rispetto al semplice scambio di informazioni.

Dal modello conversazionale ad un partner decisionale

Il punto chiave non è più migliorare la capacità di un modello di fornire risposte di alta qualità, bensì il suo potenziale per trasformare le intenzioni di un utente in risultati concreti. In tale contesto, la relazione uomo-macchina cessa di essere esclusivamente reattiva e diventa collaborativa: i sistemi diventano strumenti a cui delegare compiti specifici all'interno di scenari strutturati.

Dieci livelli evolutivi

I ricercatori descrivono l'evoluzione dei grandi modelli linguistici (large language models o LLM) attraverso cinque fasi, partendo dal mero chatbot fino all'agente autonomo che lavora in maniera indipendente. Questa transizione riflette l'abilità crescente dei modelli non solo di rispondere rapidamente, ma di esaminare, sperimentare e adattarsi in tempo reale a problematiche complesse.

Dal semplice output a processi decisionali avanzati

Nell'epoca dominata da ChatGPT, i modelli linguistici producevano testo basando la loro risposta su modelli di linguaggio e probabilità. Tuttavia, non esercitavano un controllo sull'andamento dei loro processi intermedi né effettuavano autonomamente un'analisi mirata. I modelli della nuova generazione, invece, investiranno parte delle loro risorse di elaborazione nel momento della risposta stessa, esplorando e verificando ciascun passo, grazie a forme avanzate di apprendimento con rinforzo.

Pensieri rapidi vs. riflessione lenta

I ricercatori descrivono questo approccio come un passaggio da un "Sistema 1" (rapido e intuitivo) ad un "Sistema 2" (consapevole e riflessivo), una distinzione introdotta in psicologia da Daniel Kahneman. Questa differenza non consiste solo nello stile delle risposte, ma nell'abilità crescente dei modelli di ragionare, correggere o iterare, quando necessario.

Dal singolo utilizzo a un lavoro strutturato

I primi agenti IA, sebbene in grado di compiere azioni specifiche, presentavano fragilità strutturali. Questi agenti avevano una visione limitata dell'ambiente, non mantenevano informazioni persistenti, non gestivano contesti variabili in modo coerente e spesso abbandonavano i compiti prima del completamento. Per risolvere tali problemi, i ricercatori hanno identificato la necessità di ambienti operativi persistenti.

Un workspace per risultati duraturi

Nel paradigma OpenClaw, i sistemi IA lavorano in un contesto protetto che include file, terminali, cicli di verifica e competenze riusabili, fino a garantire un completamento verificabile delle attività. Strumenti come OpenHands e SWE-agent integreranno tali Agenti in contesti di sviluppo controllati.

Il nucleo del modello: workspace e skill

I ricercatori indicano la combinazione di workspace e skill come il cuore del progresso. Il workspace fornisce contesto, dati e strumenti, mentre una skill introduce procedimenti testati e organizzati che il sistema può richiamare facilmente. Gli agenti basati su skill riconoscono che le procedure non sono statiche. Questo modello, applicato nella forma di file SKILL.md e script gestibili, offre una strutturazione modularizzata del lavoro ricorrente.

Le criticità del modello

Tuttavia, le competenze ripetibili possono anche degenerare. Possono diventare obsolete, ristrette a flussi di lavoro molto specifici, o rappresentare vulnerabilità per il sistema. Inoltre, la natura persistente di tali agenti potrebbe introdurre nuove sfide di sicurezza, in termini di accessi indebiti o rischi di corruzione.

Orientamenti per l’addestramento e la misurazione

Con i nuovi sistemi cambia anche il modo in cui vengono addestrati e valutati i modelli. I chatbot tradizionali si basano su coppie di istruzioni e risposte, misurando l’esattezza di una risposta. I modelli basati su workspace valutano invece la completazione del compito, con criteri di verificabilità e tracciabilità chiavi.

Più che una risposta: l’importanza del processo

Le nuove basi di test e validazione, come SWE-bench, OSWorld e WebArena, richiedono condizioni iniziali riconoscibili, tracce eseguibili e verifiche del risultato finale. Ad esempio, GPT-4 riusciva a completare solo il 14% delle attività in WebArena, evidenziando l’ampiezza del divario tra compiti statici e dinamici. La misurazione non riguarda più solo la risposta finale, ma l’intera traiettoria del comportamento decisionale.

Problemi di sicurezza e gestione

La struttura persistente del workspace comporta anche rischi di accesso non autorizzati: gli agenti hanno chiavi di autenticazione, file locali, token identificativi e canali comunicativi esterni. Progetti come OpenClaw PRISM e ClawGuard cercano di implementare controlli durante l’esecuzione per limitare le violazioni. La proprietà dei dati diventa essenziale, in vista della possibilità che tali agenti acquisiscano informazioni riservate.

Complessità operativa crescenti

Un'autonomia crescente rende i difetti più persistenti e difficili da correggere. Si delineano nuove problematiche, come il rollback (tornare allo stato precedente), la gestione del ciclo vite delle skill, la pulizia del workspace e la tracciabilità completa del sistema. Senza una governance, l'uso ripetuto di skill può generare nuovi errori.

Un futuro di autonomia crescente

I ricercatori sottolineano che non esiste una soluzione definitiva al momento. Sia i workspace che le skill possono accumulare errori e obsolescenza. La loro validità come strumenti dipenderà da una gestione attenta e una struttura di controllo permanente. Il saggio prefigura un futuro in cui tali sistemi apprendano da sé, migliorando lentamente e progressivamente come veri e propri colleghi digitali.