home›Addestramento›

Come LeJEPA Raggiunge l'Identificabilità Lineare dei World Model

Scopri il ruolo cruciale della distribuzione gaussiana e le implicazioni del teorema "se e solo se" per l'apprendimento di rappresentazioni latenti.

28 maggio 2026

#Accademico #Addestramento #Agenti #Sviluppo

Questo articolo esplora come LeJEPA, bilanciando allineamento e regolarizzazione gaussiana, riesca a identificare linearmente i world model. Approfondiamo il perché la gaussianità sia essenziale per il recupero lineare e le conseguenze della sua assenza, fornendo una comprensione chiara delle basi teoriche e delle evidenze empiriche.

La ricerca di World Model identificabili

Per pianificare e ragionare, un'IA deve distillare osservazioni ad alta dimensionalità — pixel da una telecamera, letture di sensori — in un world model compatto che catturi il vero stato latente nascosto.
Una sfida fondamentale è l'identificabilità: la rappresentazione appresa può recuperare le variabili latenti sottostanti a meno di trasformazioni semplici e innocue?
Molti metodi auto-supervisionati non riescono a garantirlo e producono rappresentazioni mescolate o distorte.

L'articolo introduce una proprietà notevole: l'identificabilità lineare.
Significa che il codice latente appreso uguaglia il vero stato latente ruotato da una matrice ortogonale — l'informazione è perfettamente conservata in modo linearmente invertibile.
E mostra che un apprenditore chiamato LeJEPA (allineamento più regolarizzazione gaussiana) raggiunge questa proprietà, ma solo quando i latenti del mondo seguono una distribuzione gaussiana.
Questo teorema “se e solo se” ridisegna il modo in cui pensiamo al ruolo delle assunzioni statistiche nell'apprendimento di rappresentazioni.

Come LeJEPA apprende il mondo

Il mondo è un sistema dinamico: uno stato latente ( z ) evolve sotto una dinamica stazionaria con rumore additivo ( z' = m(z) + \eta ), e lo osserviamo attraverso una mappatura non lineare sconosciuta ( x = g(z) ).
LeJEPA addestra un codificatore ( h ) che mappa ogni osservazione in un embedding.
Bilancia due obiettivi:

Allineamento: minimizzare la distanza quadratica attesa ( | h(z') - h(z) |^2 ) per stati consecutivi, favorendo la coerenza temporale.
Vincolo di gaussianità: la distribuzione degli embedding deve essere normale standard ( \mathcal{N}(0, I_n) ), imposta dal Sketched Isotropic Gaussian Regularizer (SIGReg).

Questa combinazione è sottile e potente.
Il termine di allineamento spinge il codificatore a preservare ciò che è stabile nel tempo, mentre il vincolo di gaussianità fornisce un'ancora statistica fissa che vieta distorsioni non lineari.
Insieme costringono il codificatore a diventare una mappa lineare e ortogonale — una pura rotazione dei latenti veri.

A luminous bell curve of soft blue light hovers in a dark void, its surface rippling with subtle motion. Inside the curve, faint, ghostly threads of gold twist into a perfect orthogonal lattice, rotating slowly as if turned by an invisible hand. Around it, shimmering, translucent spheres drift in a spiral, each casting a faint shadow of the bell curve behind them. The scene glows with a quiet, mathematical elegance, evoking hidden order and pure rotation.

Il segreto gaussiano: perché una curva a campana sblocca il recupero lineare

Al cuore del teorema diretto si trova un argomento spettrale che usa i polinomi di Hermite, la base naturale per funzioni sotto una misura gaussiana.
Qualsiasi codificatore candidato ( h ) può essere espanso in polinomi di Hermite.
Quando i latenti veri sono gaussiani, la perdita di allineamento si decompone in una somma di termini, ciascuno associato a un grado polinomiale.
Crucialmente, il coefficiente per il grado lineare è più grande che per qualsiasi grado di ordine superiore.
Le componenti non lineari contribuiscono meno alla correlazione temporale e sono quindi strettamente penalizzate.
Minimizzare l'allineamento rimanendo gaussiani costringe tutti i contributi non lineari ad annullarsi.
Ciò che resta è una mappa lineare, e il vincolo gaussiano ne fissa la covarianza all'identità, rendendola una trasformazione ortogonale ( Q ).
Così la rappresentazione appresa è esattamente ( h(z) = Qz ), una versione ruotata della verità.
Questo è il Teorema 1: se il mondo è gaussiano, LeJEPA identifica linearmente i latenti.

Il rovescio della medaglia: i mondi non gaussiani infrangono la garanzia

Il risultato inverso (Teorema 2) è altrettanto netto: all'interno dell'ampia classe dei mondi stazionari con rumore additivo, la gaussiana è l'unica distribuzione latente per cui LeJEPA raggiunge l'identificabilità lineare.
Cambia la distribuzione — rendila a code pesanti, di Laplace o uniforme — e la decomposizione spettrale della dimostrazione non privilegia più il termine lineare nello stesso modo. L'ottimo lineare scompare.

L'ablazione empirica lo conferma con forza.
Esplorando la famiglia delle normali generalizzate (parametro di forma ( \alpha ) che va da valori quasi nulli a code pesanti fino all'uniforme), il recupero ( R^2(h, z) ) raggiunge un picco netto a ( \alpha = 2 ), esattamente il caso gaussiano.
Questo picco netto conferma l'unicità.
La teoria predice che ogni deviazione dalla gaussianità causi un collasso, e gli esperimenti lo riecheggiano con precisione rigorosa.

Scalare ad alte dimensioni

La garanzia regge quando gli spazi latenti diventano grandi?
L'articolo testa codificatori adattati a un mix RealNVP su dimensioni da 2 a 1024.
La tabella seguente confronta SIGReg, VICReg (vincolo sui secondi momenti) e InfoNCE (basato su coppie).

N	R²(x→z) ±std ×10⁻³	SIGReg R²(h→z) ±std ×10⁻⁷	VICReg R²(h→z) ±std ×10⁻⁷	InfoNCE R²(h→z) ±std ×10⁻³
2	0.781 ±2.1	0.999998 ±3.4	0.999996 ±8.4	0.950961 ±1.6
4	0.727 ±24