home›Addestramento›

Come DiffusionBlocks Supera il Muro della Memoria nel Deep Learning

Scopri come un nuovo framework basato sui modelli di diffusione rivoluziona l'addestramento di Transformer profondi, riducendo drasticamente il consumo di memoria.

28 maggio 2026

#Accademico #Addestramento #Framework #LLM #Open Source

Esplora DiffusionBlocks, un approccio innovativo che trasforma le reti residuali in processi di diffusione per addestrare modelli di deep learning profondi in modo efficiente. Supera i limiti di memoria dell'addestramento end-to-end e sblocca nuove possibilità per l'IA generativa.

Il Muro della Memoria nel Deep Learning

L'addestramento di reti neurali profonde è sempre stato un'operazione che richiede molta memoria.
La backpropagation end-to-end esige che ogni attivazione intermedia venga conservata fino al passaggio all'indietro.
Man mano che le reti diventano più profonde — specialmente con i grandi Transformer — l'occupazione di memoria cresce linearmente con la profondità.
Questo crea un “muro della memoria” che limita le dimensioni e l'accessibilità dei modelli.

Immaginate una lunga escursione in cui dovete portare tutto il cibo e l'acqua necessari per il viaggio di ritorno già dall'inizio.
È esattamente così che opera l'addestramento standard: l'intero passaggio in avanti deve restare in memoria, bloccando ulteriori scalabilità.

I ricercatori hanno a lungo cercato modi per addestrare le reti in pezzi più piccoli e indipendenti, ma finora la maggior parte dei tentativi ha sacrificato le prestazioni per risparmiare memoria.

Addestramento a Blocchi: Un'Idea Promettente ma Imperfetta

L'addestramento a blocchi suddivide una rete in porzioni addestrabili separatamente, ciascuna delle quali richiede memoria solo per le proprie attivazioni.
In teoria, questo potrebbe ridurre drasticamente il picco di utilizzo della memoria.

I metodi passati, tuttavia, mostrano costantemente prestazioni inferiori rispetto all'addestramento end-to-end.
Si basano su obiettivi locali ad hoc — come il pre-addestramento greedy layer per layer o segnali di gradiente sintetici — senza un modo rigoroso per coordinare i blocchi.

Inoltre, gli approcci esistenti sono stati in gran parte confinati a compiti di classificazione e architetture personalizzate.
La loro applicabilità ai moderni modelli Transformer e all'IA generativa è rimasta ampiamente inesplorata.

Queste due sfide fondamentali — mancanza di una base teorica e ambito architetturale limitato — hanno impedito all'addestramento a blocchi di diventare uno strumento pratico per il mainstream del deep learning.

A cascade of translucent, geometric blocks, each glowing with a faint, distinct hue, suspended in a dark void. Soft light passes through them, revealing internal swirling patterns of noise that gradually coalesce into sharper forms. The lowest blocks are chaotic with shimmering static; the upper ones become clearer, almost crystalline. A gentle, flowing motion suggests a stepwise purification, like water filtering through layers of ice. Ethereal, atmospheric, with a sense of independent yet connected stages.

Una Connessione Sorprendente: Reti Residuali come Processi di Diffusione

Un'intuizione cruciale colma il divario: le connessioni residue all'interno dei Transformer possono essere interpretate attraverso la lente dei modelli di diffusione basati sul punteggio (score-based).

In un modello di diffusione, i dati vengono gradualmente distrutti aggiungendo rumore, e un processo inverso impara a rimuovere il rumore passo dopo passo.
Ogni fase di denoising può essere ottimizzata indipendentemente dalle altre.

Le reti con strati residui, si scopre, assomigliano molto alla discretizzazione di Eulero di un'equazione differenziale ordinaria (ODE) a tempo continuo per il flusso di probabilità.
Ogni blocco residuo agisce come un passo di denoising infinitesimale in una traiettoria di diffusione continua.

Questa corrispondenza era già nota nel contesto delle neural ODE, ma DiffusionBlocks la sfrutta per un nuovo scopo: riformulare un Transformer profondo come una pila di fasi di denoising indipendenti.

Il Framework DiffusionBlocks

DiffusionBlocks suddivide una rete Transformer in blocchi, ciascuno assegnato a un intervallo contiguo di livelli di rumore.
Durante l'addestramento, solo il blocco corrispondente al livello di rumore corrente è attivo — il resto può essere completamente ignorato.

I gradienti fluiscono solo all'interno di quel singolo blocco.
Il consumo di memoria diminuisce in proporzione al numero di blocchi, rendendo fattibile l'addestramento di modelli molto profondi su hardware modesto.

Fondamentalmente, l'obiettivo per ciascun blocco è derivato direttamente dalla teoria dello score matching, non da una funzione di perdita costruita a mano.
Ogni blocco impara a rimuovere il rumore dal proprio intervallo assegnato, e insieme approssimano fedelmente il processo di diffusione inversa globale.

Tecniche tratte da ricette consolidate per l'addestramento di modelli di diffusione (ad es., Karras et al., 2022) possono essere integrate senza soluzione di continuità per migliorare ulteriormente le prestazioni.

Partizionamento a Equiprobabilità per un Apprendimento Bilanciato

Un partizionamento naïve che si limita a tagliare la linea temporale del rumore in segmenti uguali rischia di sotto-utilizzare alcuni blocchi.
La densità degli stati di rumore varia, e alcuni intervalli riceverebbero un segnale di addestramento molto maggiore di altri.

DiffusionBlocks introduce il partizionamento a equiprobabilità: i livelli di rumore sono suddivisi in modo che ogni blocco rappresenti una quantità uguale di massa di probabilità cumulativa sotto il kernel di aggiunta del rumore in avanti.

Ciò garantisce che ogni blocco riceva un carico di lavoro bilanciato durante l'addestramento.
Nessun blocco viene privato del segnale e nessun blocco viene sopraffatto.

Il risultato è un utilizzo simmetrico dei parametri su tutta la rete, il che favorisce una convergenza stabile e un'equivalenza end-to-end costantemente solida.

Mettere alla Prova DiffusionBlocks

Il framework è stato valutato su un'ampia famiglia di architetture: Vision Transformer, Diffusion Transformer, Transformer autoregressivi, Transformer a profondità ricorrente e Masked Diffusion Transformer.

In tutti i casi, l'addestramento con DiffusionBlocks ha eguagliato le prestazioni dell'addestramento end-to-end standard consentendo al contempo una vera indipendenza a blocchi.
Gli esperimenti vanno ben oltre la classificazione su piccola scala; dimostrano la fattibilità su compiti pratici di IA generativa per la prima volta nella letteratura sull'addestramento a blocchi.

Si tratta di una confutazione che fa riflettere sulla convinzione a lungo sostenuta che i metodi a blocchi siano inevitabilmente inferiori all'ottimizzazione congiunta.
La chiave non risiedeva in una funzione di perdita locale più ingegnosa, ma in una solida reinterpretazione teorica della rete stessa.

Dall'Efficienza dell'Addestramento ai Vantaggi nell'Inferenza

L'addestramento a blocchi non riguarda solo il risparmio di memoria durante l'ottimizzazione.
Nei modelli di diffusione, l'inferenza richiede solo il blocco assegnato al passo temporale di denoising corrente, riducendo ulteriormente l'occupazione di memoria in fase di deployment.

Per i modelli a profondità ricorrente — in cui un blocco di strati viene applicato ripetutamente — DiffusionBlocks sostituisce il costoso addestramento iterativo con una procedura a passaggio singolo, eliminando completamente la backpropagation attraverso il tempo.

Questo doppio vantaggio illustra come una prospettiva incentrata sulla diffusione rimodelli sia l'addestramento che l'inferenza.
La struttura della rete non è più una catena monolitica, ma una pila modulare di denoiser specializzati che possono essere scambiati o riutilizzati su richiesta.

Una Nuova Direzione per l'Apprendimento Scalabile

DiffusionBlocks offre due contributi fondamentali.

In primo luogo, reinterpreta le reti basate su Transformer come istanze discretizzate di un processo di diffusione a tempo continuo, consentendo un addestramento a blocchi genuinamente indipendente con gradienti richiesti solo per un blocco alla volta.

In secondo luogo, la strategia di partizionamento a equiprobabilità bilancia l'utilizzo dei parametri tra i blocchi, assicurando che nessuna parte della rete rimanga sotto-addestrata.

Unendo l'addestramento a blocchi con una rigorosa teoria della diffusione, il metodo apre la strada all'addestramento di modelli sempre più grandi senza scontrarsi con il muro della memoria.
Il codice è disponibile pubblicamente su https://github.com/SakanaAI/DiffusionBlocks, invitando la comunità a esplorare ed estendere questo nuovo paradigma.