home›LLMs›

Nuevo Mecanismo "Sueño" Mejora Modelos de Lenguaje en Contexto Largo

Investigadores proponen una fase de "sueño" fuera de línea para que los transformers superen las limitaciones de la atención en tareas de largo alcance, manteniendo la latencia de predicción.

28 de mayo de 2026

#Académico #Contexto #LLM #Memoria

Un estudio reciente introduce un innovador mecanismo inspirado en el sueño para modelos de lenguaje, que permite procesar contextos largos de manera eficiente. Este método convierte el contexto reciente en "pesos rápidos" persistentes durante una fase de sueño fuera de línea, vaciando la caché clave-valor y mejorando el rendimiento en tareas complejas sin aumentar el costo de inferencia en línea.

Un mecanismo inspirado en el sueño para modelos de lenguaje

Los modelos de lenguaje grandes basados en transformers tienen dificultades con tareas de contexto largo porque la atención escala mal con la longitud de la secuencia. Un nuevo estudio en arXiv propone una fase “sleep” fuera de línea que convierte el contexto reciente en pesos rápidos persistentes y vacía la caché clave-valor. Este diseño traslada la computación adicional a la fase de sueño, preservando la latencia de la predicción en tiempo de vigilia. El método mejora el rendimiento en pruebas de referencia de horizonte largo sin aumentar el costo de la inferencia en línea.

Cómo funciona la fase de sueño

El modelo entra periódicamente en sueño y procesa el contexto acumulado mediante N pasadas recurrentes fuera de línea. Durante cada pasada, los pesos rápidos en sus bloques de modelo de espacio de estados (SSM) se actualizan mediante una regla local aprendida. Después del sueño, se vacía la caché clave-valor. Los pesos rápidos sirven entonces como memoria persistente del contexto reciente. Las predicciones en tiempo de vigilia usan solo estos pesos, evitando la atención costosa sobre todo el historial.

“traslada la computación adicional a la fase de sueño preservando la latencia de la predicción en tiempo de vigilia.”

A luminous, ethereal landscape of translucent geometric forms floating in deep indigo darkness. Soft, pulsing waves of golden light ripple through crystalline lattice structures, gradually compressing into dense, glowing nodes. A faint horizon line where shimmering threads of memory dissolve into starlit mist. The scene evokes quiet renewal, weightless transformation, and the stillness of a mind at rest.

El cuello de botella de la atención

Los mecanismos de atención escalan cuadráticamente con la longitud del contexto, lo que hace que las tareas de horizonte largo sean costosas computacionalmente. Las estrategias típicas de mitigación almacenan grandes cachés clave-valor, aumentando la demanda de memoria. El método inspirado en el sueño replantea la gestión de la memoria: al dormir periódicamente, el modelo comprime el contexto en pesos rápidos del SSM y reinicia la caché. Esto transforma un problema de caché creciente en un número fijo de pasadas fuera de línea, ofreciendo una vía práctica hacia la inferencia eficiente en contextos largos con arquitecturas híbridas transformer–espacio de estados.

Pruebas: tareas sintéticas y razonamiento matemático

Los autores evalúan en tareas sintéticas controladas —autómatas celulares y recuperación de grafos en múltiples saltos— y en la prueba de referencia más realista de razonamiento matemático. Las líneas base incluyen un transformer normal y modelos híbridos SSM-atención que carecen del mecanismo de sueño. Ambas líneas base fallan en el razonamiento matemático. Cuando se equipan con el sueño, los modelos muestran mejoras de rendimiento en todas las tareas, demostrando que la recurrencia fuera de línea puede rescatar a los modelos del fracaso en dependencias complejas de largo alcance.

Hallazgos: más sueño, razonamiento más profundo

Hallazgos clave del artículo:

El mecanismo de sueño mejora el rendimiento en las tareas probadas.
Aumentar el número de pasadas fuera de línea (N) produce ganancias adicionales.
Las mayores mejoras se producen en ejemplos que requieren pasos de razonamiento más profundos.
Los modelos de línea base —un transformer normal y híbridos SSM-atención— fallan en el razonamiento matemático; el modelo equipado con sueño tiene éxito.

Esto sugiere que la consolidación fuera de línea no solo es útil, sino necesaria para ciertas tareas desafiantes.

Artículo y autores

Título: “Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference.”
Autores: Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti.
arXiv ID: 2605.26099 (v2, revisado el 27 de mayo de 2026; envío original el 25 de mayo de 2026).
Licencia: CC BY 4.0.
Tema principal: Computación y Lenguaje (cs.CL).
Secundario: Inteligencia Artificial (cs.AI).