Los límites de los modelos híbridos de atención y SSM para el razonamiento profundo
Los modelos de lenguaje grandes basados en transformers dependen de una caché de atención que crece con la longitud del contexto, lo que encarece las tareas de horizonte largo. Las arquitecturas híbridas intercalan la atención completa con memorias de peso rápido de tamaño fijo (por ejemplo, SSM recurrentes lineales) para comprimir el contexto pasado, manteniendo una pequeña ventana de tokens recientes directamente accesible. Este diseño sacrifica capacidad de memoria a cambio de eficiencia, pero no garantiza un razonamiento escalable sobre información que ya ha salido de la ventana de atención.
Los autores demuestran un modo de fallo crítico utilizando una tarea controlada de autómata celular (Regla 110). Incluso cuando la cantidad de bits que almacenar se mantiene constante, el rendimiento de un modelo híbrido de 4 capas con atención y Gated Delta Net (GDN) se desploma a medida que aumenta la profundidad de despliegue requerida. Dado que el modelo procesa cada fragmento del contexto en una sola pasada y elimina la caché de atención, carece del cómputo necesario para transformar el estado bruto en una representación que soporte el razonamiento posterior en múltiples pasos. Esto revela que el cuello de botella no es solo la capacidad de memoria —como se destacaba en trabajos anteriores—, sino la cantidad de cómputo disponible para la consolidación antes de la eliminación.

Inspiración biológica: la reactivación hipocampal y el sueño
En neurociencia, se cree que la transferencia de memorias hipocampales de corto plazo a representaciones corticales estables ocurre durante el sueño, cuando los patrones de actividad neuronal se reactivan fuera de línea. Este proceso bloquea temporalmente los estímulos externos, lo que implica que los beneficios cognitivos superan el coste de la indisponibilidad fuera de línea.
El artículo establece una analogía directa: así como el sueño animal consolida la experiencia reciente en pesos sinápticos de largo plazo, un modelo de lenguaje puede usar el “sueño” para convertir el contexto transitorio de su caché de atención en pesos rápidos persistentes antes de que la caché se vacíe. Durante esta fase fuera de línea, el modelo no recibe nuevos tokens de entrada y en su lugar realiza múltiples pasadas recurrentes sobre el contexto acumulado, refinando iterativamente su memoria basada en pesos. Esto permite que la inferencia posterior utilice el conocimiento consolidado en una única pasada hacia adelante, sin la penalización de latencia que supondría iterar en tiempo de predicción.
Cómo funciona el sueño del LLM: arquitectura y entrenamiento
El método parte de un modelo híbrido en el que los bloques de atención se intercalan con bloques SSM que mantienen un estado de pesos rápidos , actualizado mediante una regla como La ventana de contexto se vacía por completo cada tokens. En cada límite de vaciado, el modelo entra en una fase de consolidación: realiza pasadas recurrentes sobre el fragmento actual, actualizando cada vez, antes de descartar la caché KV de atención. La fase de predicción posterior utiliza únicamente una pasada hacia adelante estándar —no se permiten pasos iterados adicionales ni tokens de cadena de pensamiento.

El entrenamiento propaga el gradiente hacia atrás a través de toda la consolidación iterada y la predicción final, enseñando al modelo a usar el cómputo recurrente del sueño para organizar los pesos rápidos de forma que sirvan para el razonamiento posterior. Con , el procedimiento se reduce a un modelo híbrido estándar; un mayor invierte más cómputo fuera de línea sin alterar el coste de predicción por token.
Autómata celular: más sueño favorece el cómputo secuencial profundo
En la tarea de la Regla 110, cada secuencia contiene cuatro cadenas binarias independientes de longitud 24, y el modelo debe predecir el primer bit de cada cadena tras pasos de despliegue. Aunque la longitud total de la secuencia es fija, un mayor exige una simulación secuencial más profunda que una consolidación en una sola pasada no puede manejar.
Entrenar un híbrido GDN–atención de 4 capas con revela beneficios notables al prolongar el sueño. La línea base sin bucles () se estanca cerca del azar, con una precisión de alrededor del 10%. Añadir 2, 3 o 4 pasadas fuera de línea eleva progresivamente la precisión; el modelo con 4 bucles supera el 30% bajo el mismo presupuesto de tokens. Dado que la longitud de contexto, la regla de vaciado y el cómputo de la fase de predicción se mantienen iguales, la mejora proviene exclusivamente del cómputo de consolidación adicional realizado durante el sueño.

Recuperación multisalto: compresión Depo y agnóstica a la consulta
La tarea Depo requiere que el modelo codifique un ciclo dirigido desordenado (hasta 75 nodos) distribuido en varias ventanas de vaciado, y luego responda consultas multisalto no vistas. A diferencia de la tarea del autómata, las consultas varían tanto en el número de saltos como en el nodo de inicio, lo que exige una representación del grafo en los pesos rápidos que sea agnóstica a la consulta.
Las curvas de pérdida en test muestran que más bucles de sueño aceleran el aprendizaje y mejoran el rendimiento final, especialmente para consultas que requieren 4 o más saltos. El modelo de 1 bucle apenas progresa en ejemplos de 4 saltos o más difíciles; el de 2 bucles se estanca igualmente en consultas de 8 saltos. Con el presupuesto fijo de entrenamiento, solo el modelo de 4 bucles comienza a aprender la tarea más difícil de 16 saltos. Esto demuestra que asignar más cómputo recurrente durante la consolidación ayuda a organizar las aristas almacenadas en una forma que permite un recorrido más profundo, un desafío que la mera capacidad de memoria no puede resolver por sí sola.

Razonamiento matemático y sliding-window eviction
Los beneficios se trasladan a entornos realistas. En GSM-Infinite, un benchmark sintético de matemáticas con tokens de relleno distractores y un número variable de operaciones, los autores fine-tune los modelos preentrenados Jet-Nemotron 2B (un híbrido) y Ouro 1.4B (un modelo de atención en bucle aumentado con capas Jet). La hard eviction con obliga al modelo a consolidar el contexto largo del problema en fast weights antes de responder. Para Jet, aumentar de 1 a 6 loops eleva la accuracy en problemas de 8 operaciones de 0.351 a 0.388; para Ouro, 4 loops aumentan la accuracy de 0.210 a 0.272 en los ejemplos más difíciles.

Al cambiar a una regla de sliding-window eviction, donde se conservan los tokens más recientes, se observa que el sleep sigue ayudando incluso cuando queda algo de contexto a corto plazo. Con , añadir loops mejora la accuracy en problemas de 2 operaciones de 0.596 a 0.905, lo que sugiere que una consolidación más prolongada también facilita la recuperación bajo fuertes distractores.
Coste de entrenamiento y conclusiones clave
La consolidación recurrente introduce dos fuentes de sobrecarga en el entrenamiento. En primer lugar, el modelo debe procesar fragmentos de contexto de forma secuencial, pero cuando el tamaño de ventana es lo suficientemente grande como para mantener la GPU saturada, el throughput es casi idéntico al del entrenamiento totalmente paralelo (Figura 6a). En segundo lugar, el coste de entrenamiento crece de forma aproximadamente lineal con el número de sleep passes (Figura 6b). Si bien esto hace que un sueño más prolongado sea más costoso, la mejora constante en tareas de razonamiento profundo justifica el compromiso.
El mensaje central es que la eficiencia de memoria no es suficiente para razonar sobre contexto expulsado. Tomando prestada la idea de la repetición offline de la neurociencia, el sueño de los LLM traslada el cómputo a la fase de consolidación, produciendo fast weights que permiten la inferencia de una sola pasada en problemas secuenciales difíciles. El mecanismo desbloquea un razonamiento más profundo bajo estrictas restricciones de latencia y abre el camino hacia modelos que pueden “pensar” offline antes de responder.




