LeWorldModel è un world model di tipo JEPA addestrato in modo end-to-end direttamente da pixel grezzi, con un setup ridotto a soli 15 milioni di parametri e una singola GPU NVIDIA L40S. I risultati mostrano che pianifica 48 volte più velocemente rispetto al modello di riferimento DINO-WM, grazie a uno spazio latente compatto. Questo lavoro, pubblicato in un preprint di arXiv, fa parte del piano industriale seguito da Yann LeCun dopo la sua partenza da Meta e la fondazione di AMI Labs, startup che ha ottenuto uno dei finanziamenti più grandi della storia dell’Europa, 1,03 miliardi di dollari.

Architettura e Approccio Tecnico

LeWorldModel è addestrato su osservazioni visive e utilizza un modello di tipo Joint Embedding Predictive Architecture (JEPA), proposto inizialmente da Yann LeCun nel 2022. A differenza dei modelli generativi tradizionali, che tentano di ricostruire pixel per pixel l’ambiente, LeWM prevede l’evoluzione di una rappresentazione compatta e astratta del mondo, detta embedding. Lo studio mostra che le osservazioni visive vengono compresse in un vettore di 192 dimensioni, che il modello utilizza per prendere decisioni in maniera più diretta e veloce.

Efficienza Computazionale

La caratteristica più significativa di LeWM è la capacità di ridurre drasticamente il tempo di pianificazione, passando da 47 secondi a circa 0,98 secondi in compiti simili a quelli del riferimento DINO-WM. Questo è ottenuto utilizzando un modello molto più leggero e meno costoso computazionalmente, grazie alla riduzione del numero di token necessari per rappresentare le informazioni visive, circa 200 volte inferiori.

Il modello è già in grado di risolvere compiti in robotica come “PushTo” o in ambienti 3D come “OGBench-Cube” con successo variabile dal 86% al 96%. Questa performance è ottenuta con una complessità di ordini di grandezza inferiore rispetto ai modelli attuali. Ad esempio, modelli linguistici come GPT-5 o Claude Opus 4.7 utilizzano migliaia di miliardi di parametri.

Il Problema delle Rappresentazioni e la Soluzione SIGReg

Uno dei problemi principali in questo tipo di modelli è il collasso delle rappresentazioni – quando il modello smette di rappresentare informazioni utili e predice semplicemente lo stesso output per ogni input. Per superare questa problematica, gli autori di LeWM hanno implementato una funzione chiamata SIGReg (Sketched-Isotropic-Gaussian Regularizer).

SIGReg funziona forzando le rappresentazioni latenti a distribuirsi come una gaussiana isotropa nello spazio vettoriale. Questo rende matematicamente impossibile il collasso, perché un vettore costante non può mai corrispondere a una gaussiana. Il risultato è un modello estremamente stabile e adatto all’apprendimento end-to-end. A differenza delle soluzioni precedenti, che richiedevano un set complesso di iperparametri, LeWM si basa su un unico parametro (lambda), rendendo il processo di ottimizzazione più efficiente.

Confronto con gli altri Approcci

LeWM non è l’unico tentativo nel campo dei world model. Solo pochi mesi prima, World Labs, fondata da Fei-Fei Li, ha presentato Marble, un modello che genera mondi tridimensionali esportabili in formati come GLTF, a partire da immagini o prompt testuali. Mentre Marble punta a simulazioni molto realistiche, LeWM invece predilige la compressione e la predizione di rappresentazioni minimali.

Esempi di Applicazione Realti

Gli studi del preprint includono sperimentazioni con traiettorie disturbate, che aiutano a valutare la capacità del modello di discernere cambiamenti anomali. In questi test, il modello reagisce statisticamente al cambiamento di colore visivo, ma risponde in modo significativo (con p<0.01) alle perturbazioni fisiche – ovvero all’improvvisi spostamenti di oggetti, che violano le previsioni basate su una struttura fisica coerente.

In robotica, questo permetterebbe ai bracci robotici o ai veicoli autonomi di identificare e adattarsi a situazioni anomale senza compromettere la velocità e la precisione. Per il controllo predittivo, la capacità di reagire in modo istantaneo a condizioni inaspettate può fare la differenza tra un sistema utile e uno non utilizzabile in contesti reali.

Direzioni Future

Secondo AMI Labs, LeWM potrebbe essere applicabile in diversi ambiti industriali. Le aree indicate sono:

L'obiettivo dichiarato di AMI Labs è di avanzare entro il 2026 la messa a punto di una versione commerciale di LeWM, estendendo le sue capacità di simulazione per integrarlo direttamente in sistemi robotici autonomi.

Impatto Tecnologico e Industriale

L’effetto di LeWM va ben oltre la sola tecnologia. Riduce i costi computazionali, permettendo a una più ampia gamma di aziende e ricercatori di sviluppare world models con risorse limitate. La riduzione drastica del numero di parametri e il supporto end-to-end aprono la strada a una maggiore flessibilità del modello, indispensabile in settori dove i dati d’input possono variare significativamente.

Un Modello per il Futuro

Il lavoro di LeCun e i suoi collaboratori mostra che un world model non necessita di miliardi di parametri e di infrastrutture computazionali estreme per funzionare bene. Al contrario, con un’architettura ben progettata che forza rappresentazioni latenti compatte, è possibile ottenere risultati paragonabili a modelli molto più complessi ma con un impatto sul calcolo molto ridotto.

Questo indica che la tecnologia può seguire due strade: una che punta alla realismo visivo estremo e l’altra a una astrazione efficiente