La ricerca di World Model identificabili
Per pianificare e ragionare, un'IA deve distillare osservazioni ad alta dimensionalità — pixel da una telecamera, letture di sensori — in un world model compatto che catturi il vero stato latente nascosto.
Una sfida fondamentale è l'identificabilità: la rappresentazione appresa può recuperare le variabili latenti sottostanti a meno di trasformazioni semplici e innocue?
Molti metodi auto-supervisionati non riescono a garantirlo e producono rappresentazioni mescolate o distorte.
L'articolo introduce una proprietà notevole: l'identificabilità lineare.
Significa che il codice latente appreso uguaglia il vero stato latente ruotato da una matrice ortogonale — l'informazione è perfettamente conservata in modo linearmente invertibile.
E mostra che un apprenditore chiamato LeJEPA (allineamento più regolarizzazione gaussiana) raggiunge questa proprietà, ma solo quando i latenti del mondo seguono una distribuzione gaussiana.
Questo teorema “se e solo se” ridisegna il modo in cui pensiamo al ruolo delle assunzioni statistiche nell'apprendimento di rappresentazioni.
Come LeJEPA apprende il mondo
Il mondo è un sistema dinamico: uno stato latente ( z ) evolve sotto una dinamica stazionaria con rumore additivo ( z' = m(z) + \eta ), e lo osserviamo attraverso una mappatura non lineare sconosciuta ( x = g(z) ).
LeJEPA addestra un codificatore ( h ) che mappa ogni osservazione in un embedding.
Bilancia due obiettivi:
- Allineamento: minimizzare la distanza quadratica attesa ( | h(z') - h(z) |^2 ) per stati consecutivi, favorendo la coerenza temporale.
- Vincolo di gaussianità: la distribuzione degli embedding deve essere normale standard ( \mathcal{N}(0, I_n) ), imposta dal Sketched Isotropic Gaussian Regularizer (SIGReg).
Questa combinazione è sottile e potente.
Il termine di allineamento spinge il codificatore a preservare ciò che è stabile nel tempo, mentre il vincolo di gaussianità fornisce un'ancora statistica fissa che vieta distorsioni non lineari.
Insieme costringono il codificatore a diventare una mappa lineare e ortogonale — una pura rotazione dei latenti veri.

Il segreto gaussiano: perché una curva a campana sblocca il recupero lineare
Al cuore del teorema diretto si trova un argomento spettrale che usa i polinomi di Hermite, la base naturale per funzioni sotto una misura gaussiana.
Qualsiasi codificatore candidato ( h ) può essere espanso in polinomi di Hermite.
Quando i latenti veri sono gaussiani, la perdita di allineamento si decompone in una somma di termini, ciascuno associato a un grado polinomiale.
Crucialmente, il coefficiente per il grado lineare è più grande che per qualsiasi grado di ordine superiore.
Le componenti non lineari contribuiscono meno alla correlazione temporale e sono quindi strettamente penalizzate.
Minimizzare l'allineamento rimanendo gaussiani costringe tutti i contributi non lineari ad annullarsi.
Ciò che resta è una mappa lineare, e il vincolo gaussiano ne fissa la covarianza all'identità, rendendola una trasformazione ortogonale ( Q ).
Così la rappresentazione appresa è esattamente ( h(z) = Qz ), una versione ruotata della verità.
Questo è il Teorema 1: se il mondo è gaussiano, LeJEPA identifica linearmente i latenti.
Il rovescio della medaglia: i mondi non gaussiani infrangono la garanzia
Il risultato inverso (Teorema 2) è altrettanto netto: all'interno dell'ampia classe dei mondi stazionari con rumore additivo, la gaussiana è l'unica distribuzione latente per cui LeJEPA raggiunge l'identificabilità lineare.
Cambia la distribuzione — rendila a code pesanti, di Laplace o uniforme — e la decomposizione spettrale della dimostrazione non privilegia più il termine lineare nello stesso modo.
L'ottimo lineare scompare.
L'ablazione empirica lo conferma con forza.
Esplorando la famiglia delle normali generalizzate (parametro di forma ( \alpha ) che va da valori quasi nulli a code pesanti fino all'uniforme), il recupero ( R^2(h, z) ) raggiunge un picco netto a ( \alpha = 2 ), esattamente il caso gaussiano.
Questo picco netto conferma l'unicità.
La teoria predice che ogni deviazione dalla gaussianità causi un collasso, e gli esperimenti lo riecheggiano con precisione rigorosa.
Scalare ad alte dimensioni
La garanzia regge quando gli spazi latenti diventano grandi?
L'articolo testa codificatori adattati a un mix RealNVP su dimensioni da 2 a 1024.
La tabella seguente confronta SIGReg, VICReg (vincolo sui secondi momenti) e InfoNCE (basato su coppie).
| N | R²(x→z) ±std ×10⁻³ | SIGReg R²(h→z) ±std ×10⁻⁷ | VICReg R²(h→z) ±std ×10⁻⁷ | InfoNCE R²(h→z) ±std ×10⁻³ |
|---|---|---|---|---|
| 2 | 0.781 ±2.1 | 0.999998 ±3.4 | 0.999996 ±8.4 | 0.950961 ±1.6 |
| 4 | 0.727 ±24 |



