Un meccanismo ispirato al sonno per i modelli linguistici
I modelli linguistici di grandi dimensioni basati su transformer faticano nei compiti a contesto lungo perché l’attenzione scala male con la lunghezza della sequenza. Un nuovo studio su arXiv propone una fase di “sonno” offline che converte il contesto recente in fast weights persistenti e svuota la cache chiave‑valore. Questo progetto sposta il calcolo extra nella fase di sonno, preservando la latenza della predizione in fase di veglia. Il metodo migliora le prestazioni nei benchmark a orizzonte lungo senza aumentare il costo dell’inferenza online.
Come funziona la fase di sonno
Il modello entra periodicamente in sonno ed elabora il contesto accumulato attraverso N passaggi ricorrenti offline. Durante ogni passaggio, i fast weights nei suoi blocchi del modello a spazio di stato (SSM) vengono aggiornati tramite una regola locale appresa. Dopo il sonno, la cache chiave‑valore viene svuotata. I fast weights fungono quindi da memoria persistente del contesto recente. Le predizioni in fase di veglia usano solo questi pesi, evitando la costosa attenzione sull’intera cronologia.
“sposta il calcolo extra nella fase di sonno preservando la latenza della predizione in fase di veglia.”

Il collo di bottiglia dell’attenzione
I meccanismi di attenzione scalano quadraticamente con la lunghezza del contesto, rendendo i compiti a orizzonte lungo pesanti dal punto di vista computazionale. Le strategie di mitigazione tipiche conservano grandi cache chiave‑valore, aumentando la domanda di memoria. Il metodo ispirato al sonno ripensa la gestione della memoria: dormendo periodicamente, il modello comprime il contesto in fast weights SSM e azzera la cache. Questo trasforma un problema di cache crescente in un numero fisso di passaggi offline, offrendo una via pratica verso un’inferenza a contesto lungo efficiente con architetture ibride transformer–spazio di stato.
Test: compiti sintetici e ragionamento matematico
Gli autori valutano il sistema su compiti sintetici controllati – automi cellulari e recupero di grafi a più salti – e sul più realistico benchmark di ragionamento matematico. Le linee di base includono un transformer normale e ibridi SSM‑attenzione privi del meccanismo del sonno. Entrambe le linee di base falliscono nel ragionamento matematico. Quando sono dotati di sonno, i modelli mostrano miglioramenti delle prestazioni in tutti i compiti, dimostrando che la ricorrenza offline può salvare i modelli dal fallimento su dipendenze complesse a lungo raggio.
Risultati: più sonno, ragionamento più profondo
Risultati principali dello studio:
- Il meccanismo del sonno migliora le prestazioni sui compiti testati.
- Aumentare il numero di passaggi offline (N) porta a ulteriori miglioramenti.
- I miglioramenti maggiori si verificano negli esempi che richiedono passaggi di ragionamento più profondi.
- I modelli di base – un transformer standard e ibridi SSM‑attenzione – falliscono nel ragionamento matematico; il modello dotato di sonno riesce.
Ciò suggerisce che il consolidamento offline non è solo utile ma necessario per certi compiti complessi.
Articolo e autori
Titolo: “I modelli linguistici hanno bisogno di dormire? Ricorrenza offline per un’inferenza online migliorata.”
Autori: Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti.
ID arXiv: 2605.26099 (v2, revisione del 27 maggio 2026; invio originale 25 maggio 2026).
Licenza: CC BY 4.0.
Materia principale: Linguistica Computazionale (cs.CL). Secondaria: Intelligenza Artificiale (cs.AI).




