home›Entrenamiento›

¿Por qué la gaussianidad es clave para los "world models" identificables?

Descubre cómo LeJEPA logra la identificabilidad lineal en modelos de mundo y por qué la distribución gaussiana es su secreto inquebrantable.

28 de mayo de 2026

#Académico #Agentes #Desarrollo #Entrenamiento

Explora el innovador enfoque de LeJEPA para construir "world models" identificables. Analizamos cómo el alineamiento temporal y una restricción de gaussianidad permiten la recuperación lineal de estados latentes, y por qué cualquier desviación de esta distribución rompe la garantía.

La búsqueda de world models identificables

Para planificar y razonar, una IA debe destilar observaciones de alta dimensión —píxeles de una cámara, lecturas de sensores— en un world model compacto que capture el verdadero estado oculto.
Un desafío fundamental es la identificabilidad: ¿puede la representación aprendida recuperar las variables latentes subyacentes salvo transformaciones simples e inofensivas?
Muchos métodos autosupervisados no garantizan esto, permitiendo representaciones revueltas o distorsionadas.

El artículo presenta una propiedad notable: la identificabilidad lineal.
Significa que el código latente aprendido es igual al estado latente verdadero rotado por una matriz ortogonal: la información se conserva perfectamente de forma linealmente invertible.
Y demuestra que un aprendiz llamado LeJEPA (alineamiento más regularización gaussiana) logra esta propiedad, pero solo cuando los latentes del mundo siguen una distribución gaussiana.
Este teorema de «si y solo si» reformula nuestra manera de pensar sobre el papel de los supuestos estadísticos en el aprendizaje de representaciones.

Cómo LeJEPA aprende el mundo

El mundo es un sistema dinámico: un estado latente ( z ) evoluciona bajo una dinámica estacionaria con ruido aditivo ( z' = m(z) + \eta ), y lo observamos a través de un mapeo no lineal desconocido ( x = g(z) ).
LeJEPA entrena un codificador ( h ) que asigna cada observación a un embedding.
Equilibra dos objetivos:

Alineamiento: minimizar la distancia cuadrática esperada ( | h(z') - h(z) |^2 ) entre estados consecutivos, fomentando la coherencia temporal.
Restricción de gaussianidad: la distribución de los embeddings debe ser una normal estándar ( \mathcal{N}(0, I_n) ), impuesta mediante el Regularizador Gaussiano Isotrópico Esbozado (SIGReg).

Esta combinación es sutil y poderosa.
El término de alineamiento empuja al codificador a preservar lo que es estable a lo largo del tiempo, mientras que la restricción de gaussianidad proporciona un anclaje estadístico fijo que prohíbe las distorsiones no lineales.
Juntos fuerzan al codificador a convertirse en un mapa lineal y ortogonal: una rotación pura de los latentes verdaderos.

A luminous bell curve of soft blue light hovers in a dark void, its surface rippling with subtle motion. Inside the curve, faint, ghostly threads of gold twist into a perfect orthogonal lattice, rotating slowly as if turned by an invisible hand. Around it, shimmering, translucent spheres drift in a spiral, each casting a faint shadow of the bell curve behind them. The scene glows with a quiet, mathematical elegance, evoking hidden order and pure rotation.

El secreto gaussiano: por qué una curva de campana permite la recuperación lineal

En el corazón del teorema directo se encuentra un argumento espectral que utiliza polinomios de Hermite, la base natural para funciones bajo una medida gaussiana.
Cualquier codificador candidato ( h ) puede expandirse en polinomios de Hermite.
Cuando los latentes verdaderos son gaussianos, la pérdida de alineamiento se descompone en una suma de términos, cada uno asociado a un grado polinomial.
De manera crucial, el coeficiente para el grado lineal es mayor que para cualquier grado superior.
Los componentes no lineales contribuyen menos a la correlación temporal y, por lo tanto, son penalizados estrictamente.
Minimizar el alineamiento mientras se permanece gaussiano fuerza la desaparición de todas las contribuciones no lineales.
Lo que queda es un mapa lineal, y la restricción gaussiana fija su covarianza a la identidad, convirtiéndolo en una transformación ortogonal ( Q ).
Así, la representación aprendida es exactamente ( h(z) = Qz ), una versión rotada de la verdad.
Este es el Teorema 1: si el mundo es gaussiano, LeJEPA identifica linealmente los latentes.

La otra cara: los mundos no gaussianos rompen la garantía

El resultado inverso (Teorema 2) es igualmente tajante: dentro de la amplia clase de mundos estacionarios con ruido aditivo, la gaussiana es la única distribución latente para la cual LeJEPA logra identificabilidad lineal.
Cambie la distribución —hágala de colas pesadas, de Laplace o uniforme— y la descomposición espectral de la demostración ya no privilegia el término lineal de la misma manera. El óptimo lineal desaparece.

Una ablación empírica lo confirma de forma contundente.
Al recorrer la familia normal generalizada (parámetro de forma ( \alpha ) que va desde valores cercanos a cero con colas muy pesadas hasta la uniforme), la recuperación ( R^2(h, z) ) alcanza un pico nítido en ( \alpha = 2 ), el caso exactamente gaussiano.
Este pico pronunciado confirma la unicidad.
La teoría predice que cualquier desviación de la gaussianidad provoca una ruptura, y los experimentos lo replican con una precisión rigurosa.

Escalando a altas dimensiones

¿Se mantiene la garantía cuando los espacios latentes crecen?
El artículo evalúa codificadores ajustados a un mezclador RealNVP sobre dimensiones desde 2 hasta 1024.
La tabla siguiente compara SIGReg, VICReg (restricción de segundo momento) e InfoNCE (basado en pares).

N	R²(x→z) ±std ×10⁻³	SIGReg R²(h→z) ±std ×10⁻⁷	VICReg R²(h→z) ±std ×10⁻⁷	InfoNCE R²(h→z) ±std ×10⁻³
2	0.781 ±2.1	0.999998 ±3.4	0.999996 ±8.4	0.950961 ±1.6
4	0.727 ±24