Un mecanismo inspirado en el sueño para modelos de lenguaje
Los modelos de lenguaje grandes basados en transformers tienen dificultades con tareas de contexto largo porque la atención escala mal con la longitud de la secuencia. Un nuevo estudio en arXiv propone una fase “sleep” fuera de línea que convierte el contexto reciente en pesos rápidos persistentes y vacía la caché clave-valor. Este diseño traslada la computación adicional a la fase de sueño, preservando la latencia de la predicción en tiempo de vigilia. El método mejora el rendimiento en pruebas de referencia de horizonte largo sin aumentar el costo de la inferencia en línea.
Cómo funciona la fase de sueño
El modelo entra periódicamente en sueño y procesa el contexto acumulado mediante N pasadas recurrentes fuera de línea. Durante cada pasada, los pesos rápidos en sus bloques de modelo de espacio de estados (SSM) se actualizan mediante una regla local aprendida. Después del sueño, se vacía la caché clave-valor. Los pesos rápidos sirven entonces como memoria persistente del contexto reciente. Las predicciones en tiempo de vigilia usan solo estos pesos, evitando la atención costosa sobre todo el historial.
“traslada la computación adicional a la fase de sueño preservando la latencia de la predicción en tiempo de vigilia.”

El cuello de botella de la atención
Los mecanismos de atención escalan cuadráticamente con la longitud del contexto, lo que hace que las tareas de horizonte largo sean costosas computacionalmente. Las estrategias típicas de mitigación almacenan grandes cachés clave-valor, aumentando la demanda de memoria. El método inspirado en el sueño replantea la gestión de la memoria: al dormir periódicamente, el modelo comprime el contexto en pesos rápidos del SSM y reinicia la caché. Esto transforma un problema de caché creciente en un número fijo de pasadas fuera de línea, ofreciendo una vía práctica hacia la inferencia eficiente en contextos largos con arquitecturas híbridas transformer–espacio de estados.
Pruebas: tareas sintéticas y razonamiento matemático
Los autores evalúan en tareas sintéticas controladas —autómatas celulares y recuperación de grafos en múltiples saltos— y en la prueba de referencia más realista de razonamiento matemático. Las líneas base incluyen un transformer normal y modelos híbridos SSM-atención que carecen del mecanismo de sueño. Ambas líneas base fallan en el razonamiento matemático. Cuando se equipan con el sueño, los modelos muestran mejoras de rendimiento en todas las tareas, demostrando que la recurrencia fuera de línea puede rescatar a los modelos del fracaso en dependencias complejas de largo alcance.
Hallazgos: más sueño, razonamiento más profundo
Hallazgos clave del artículo:
- El mecanismo de sueño mejora el rendimiento en las tareas probadas.
- Aumentar el número de pasadas fuera de línea (N) produce ganancias adicionales.
- Las mayores mejoras se producen en ejemplos que requieren pasos de razonamiento más profundos.
- Los modelos de línea base —un transformer normal y híbridos SSM-atención— fallan en el razonamiento matemático; el modelo equipado con sueño tiene éxito.
Esto sugiere que la consolidación fuera de línea no solo es útil, sino necesaria para ciertas tareas desafiantes.
Artículo y autores
Título: “Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference.”
Autores: Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti.
arXiv ID: 2605.26099 (v2, revisado el 27 de mayo de 2026; envío original el 25 de mayo de 2026).
Licencia: CC BY 4.0.
Tema principal: Computación y Lenguaje (cs.CL).
Secundario: Inteligencia Artificial (cs.AI).




