I limiti dei modelli ibridi attention-SSM per il ragionamento profondo
I modelli linguistici di grandi dimensioni basati su transformer si appoggiano a una cache di attenzione che cresce con la lunghezza del contesto, rendendo costosi i compiti su orizzonti lunghi. Le architetture ibride alternano piena attenzione a memorie veloci a dimensione fissa (per esempio, SSM lineari ricorrenti) per comprimere il contesto passato mantenendo una piccola finestra di token recenti direttamente accessibile. Questo progetto scambia capacità di memoria con efficienza, ma non garantisce un ragionamento scalabile su informazioni che hanno lasciato la finestra di attenzione.
Gli autori dimostrano una modalità di fallimento critica usando un compito controllato di automa cellulare (Rule 110). Anche quando il numero di bit da memorizzare rimane costante, le prestazioni di un modello ibrido a 4 strati con attenzione e Gated Delta Net (GDN) crollano all’aumentare della profondità di rollout richiesta. Poiché il modello elabora ogni blocco di contesto in un unico passaggio ed elimina la cache di attenzione, manca della computazione necessaria per trasformare lo stato grezzo in una rappresentazione che supporti in seguito un ragionamento a più passi. Questo rivela che il collo di bottiglia non è solo la capacità di memoria – come sottolineato in lavori precedenti – ma la quantità di computazione disponibile per il consolidamento prima dell’evizione.

Ispirazione biologica: replay ippocampale e sonno
In neuroscienza, si pensa che il trasferimento dei ricordi a breve termine dell’ippocampo in rappresentazioni corticali stabili avvenga durante il sonno, quando gli schemi di attività neurale vengono riattivati offline. Questo processo blocca temporaneamente gli stimoli esterni, il che implica che i benefici cognitivi superano il costo dell’indisponibilità offline.
L’articolo traccia un’analogia diretta: così come il sonno animale consolida l’esperienza recente nei pesi sinaptici a lungo termine, un modello linguistico può usare il “sonno” per convertire il contesto transitorio della propria cache di attenzione in fast weights persistenti prima che la cache venga svuotata. Durante questa fase offline, il modello non riceve nuovi token in ingresso ed esegue invece passaggi ricorrenti multipli sull’intero contesto accumulato, raffinando iterativamente la memoria basata sui pesi. Ciò consente all’inferenza successiva di sfruttare la conoscenza consolidata in un singolo passaggio in avanti, senza la penalità di latenza di un loop al momento della predizione.
Come funziona il sonno degli LLM: architettura e addestramento
Il metodo parte da un modello ibrido in cui blocchi di attenzione sono intercalati a blocchi SSM che mantengono uno stato in fast weights , aggiornato tramite una regola come La finestra di contesto viene eliminata in modo rigido ogni token. A ogni confine di evizione, il modello entra in una fase di consolidamento: esegue passaggi ricorrenti sul blocco attuale, aggiornando ogni volta , prima di scartare la cache KV di attenzione. La successiva fase di predizione utilizza solo un singolo passaggio in avanti standard – non sono ammessi ulteriori passi iterativi né token chain-of-thought.

L’addestramento propaga il gradiente attraverso l’intero ciclo di consolidamento e la predizione finale, insegnando al modello a usare la computazione ricorrente del tempo di sonno per organizzare i fast weights in modo da sostenere il ragionamento successivo. Con la procedura si riduce a un modello ibrido standard; valori più grandi di investono più computazione offline senza modificare il costo di predizione per token.
Automa cellulare: più sonno aiuta il calcolo sequenziale profondo
Nel compito Rule 110, ogni sequenza contiene quattro stringhe binarie indipendenti di lunghezza 24 e il modello deve predire il primo bit di ciascuna stringa dopo passi di rollout. Sebbene la lunghezza totale della sequenza sia fissa, un maggiore richiede una simulazione sequenziale più profonda che un consolidamento in un unico passaggio non può gestire.
Addestrare un ibrido GDN–attenzione a 4 strati su mostra chiari vantaggi quando il sonno è più lungo. La baseline senza loop () satura intorno al caso, con un’accuratezza di circa il 10%. Aggiungere 2, 3 o 4 passaggi offline aumenta progressivamente l’accuratezza: con 4 loop il modello supera il 30% a parità di budget di token. Poiché lunghezza del contesto, regola di evizione e computazione di predizione sono tenute uguali, il guadagno proviene esclusivamente dalla computazione di consolidamento spesa durante il sonno.

Recupero multi-hop: Depo e compressione indipendente dalla query
Il compito Depo richiede che il modello codifichi un ciclo diretto mescolato (fino a 75 nodi) distribuito su più finestre di evizione, per poi rispondere a query multi-hop mai viste in precedenza. A differenza del compito con l’automa, le query variano sia per numero di hop sia per nodo di partenza, e quindi esigono una rappresentazione del grafo nei fast weights che sia indipendente dalla query.
Le curve di perdita sul test mostrano che più loop di sonno accelerano l’apprendimento e migliorano le prestazioni finali, specialmente per le query che richiedono 4 o più hop. Il modello a 1 loop fa pochi progressi sugli esempi con 4 hop e su quelli più difficili; il modello a 2 loop si blocca analogamente sulle query a 8 hop. Con il budget di addestramento fissato, solo il modello a 4 loop inizia a imparare il compito più difficile a 16 hop. Questo dimostra che allocare più computazione ricorrente durante il consolidamento aiuta a organizzare gli archi memorizzati in una forma che supporta attraversamenti più profondi, una sfida che la sola capacità di memoria non può risolvere.

Ragionamento matematico ed eliminazione a finestra scorrevole
I benefici si estendono a contesti realistici. Su GSM-Infinite, un benchmark matematico sintetico con token di riempimento distrattori e conteggi di operazioni variabili, gli autori fanno il fine-tuning dei modelli pre-addestrati Jet-Nemotron 2B (un ibrido) e Ouro 1.4B (un modello ad attenzione ciclica potenziato con strati Jet). L'eliminazione forzata con costringe il modello a consolidare il lungo contesto del problema in pesi rapidi prima di rispondere. Per Jet, aumentare da 1 a 6 cicli incrementa l'accuratezza su problemi a 8 operazioni da 0,351 a 0,388; per Ouro, 4 cicli aumentano l'accuratezza da 0,210 a 0,272 sugli esempi più difficili.

Passando a una regola di eliminazione a finestra scorrevole, in cui vengono mantenuti i token più recenti per , si osserva che il sonno continua ad aiutare anche quando una parte del contesto a breve termine rimane disponibile. Con , l'aggiunta di cicli migliora l'accuratezza su 2 operazioni da 0,596 a 0,905, suggerendo che un consolidamento più lungo favorisce anche il recupero in presenza di forti distrattori.
Costo di addestramento e punti chiave
Il consolidamento ricorrente introduce due fonti di sovraccarico nell'addestramento. In primo luogo, il modello deve elaborare i blocchi di contesto in modo sequenziale, ma quando la dimensione della finestra è sufficientemente grande da mantenere la GPU satura, il throughput è quasi identico a quello dell'addestramento completamente parallelo (Figura 6a). In secondo luogo, il costo di addestramento cresce in modo approssimativamente lineare con il numero di passaggi di sonno (Figura 6b). Sebbene ciò renda un sonno più lungo più costoso, il miglioramento costante nei compiti di ragionamento profondo giustifica il compromesso.
Il messaggio centrale è che l'efficienza della memoria non è sufficiente per il ragionamento su contesto eliminato. Prendendo in prestito l'idea del replay offline dalle neuroscienze, il sonno degli LLM sposta la computazione nella fase di consolidamento, producendo pesi rapidi che supportano l'inferenza in un singolo passaggio su problemi sequenziali complessi. Il meccanismo sblocca un ragionamento più profondo sotto rigorosi vincoli di latenza e apre la strada verso modelli in grado di "pensare" offline prima di rispondere.




