home›Addestramento›

Perché la Predizione del Latente Pulito Supera Quella di Velocità nei Modelli Diffusivi

Uno studio controllato rivela l'impatto della parametrizzazione del target nella generazione di immagini latenti, dimostrando che non è una semplice riscrittura algebrica.

28 maggio 2026

#Accademico #Addestramento #Generazione Contenuti

Esplora come la scelta del target di predizione influenzi le prestazioni dei modelli diffusivi in spazi latenti compressi. Questo articolo analizza JLT, un Transformer latente che predice il latente pulito, superando i modelli basati sulla predizione di velocità e fornendo approfondimenti cruciali sulla modellazione geometrica.

Predizione pulita nello spazio latente: uno studio controllato sul target

Immagine 1: [Immagine senza didascalia]

I modelli diffusivi possono essere addestrati a predire i dati puliti, il rumore aggiunto oppure un campo di velocità. Sebbene questi target siano algebricamente convertibili, un lavoro recente (JiT) ha mostrato che regredire direttamente l'immagine pulita nello spazio dei pixel sfrutta la struttura a bassa dimensionalità meglio della predizione del rumore ambiente o della velocità. Questo articolo si chiede: la scelta del target di predizione conta ancora quando il modello opera in uno spazio latente VAE compresso, dove gran parte della variabilità dei pixel è già stata rimossa? Gli autori introducono JLT, un Transformer latente di diffusione da 130M parametri che utilizza la predizione del latente pulito su codici VAE FLUX.2 congelati. Confrontando JLT con un DiT corrispondente a predizione di velocità, con rappresentazione, architettura e configurazione di addestramento identiche, lo studio isola l’effetto del target di regressione diretta. La scoperta principale è che la predizione del latente pulito supera costantemente la predizione di velocità, dimostrando che la parametrizzazione del target è una scelta di modellazione geometrica, non una semplice riscrittura algebrica.

Target di predizione ed equivalenza algebrica

Il processo di corruzione progressiva mescola un latente pulito $x$ e rumore gaussiano $\epsilon$ lungo un percorso lineare:

$z_t = t x + (1-t) \epsilon, \quad t \in [0,1].$

Tre target diretti comuni sono il latente pulito $y_x = x$ , il rumore $y_\epsilon = \epsilon$ e la velocità $y_v = x - \epsilon$ . Per un $t$ fissato, ogni target determina gli altri tramite una lettura affine. Ad esempio, da un pulito predetto $\hat{x}_\theta$ , si può recuperare $\hat{\epsilon}_\theta = (z_t - t\hat{x}_\theta)/(1-t)$ e $\hat{v}_\theta = (\hat{x}_\theta - z_t)/(1-t)$ . Questa equivalenza algebrica porta spesso i praticanti a considerare la scelta del target come un cambio di notazione. Tuttavia, la rete viene addestrata prima che questa lettura venga applicata, e la lettura scala gli errori di predizione in modo diverso a seconda del livello di rumore. Il confronto controllato dell’articolo cambia soltanto il target diretto – latente pulito per JLT, velocità per il DiT corrispondente – mantenendo fisse rappresentazione, backbone e addestramento, e rivela che il problema di regressione indotto differisce sostanzialmente.

Analisi della geometria del target: perché il target è importante

Un’analisi locale lineare-gaussiana spiega il divario empirico. Si assuma $x \sim \mathcal{N}(0,\Sigma)$ e $\epsilon \sim \mathcal{N}(0,I)$ . Le covarianze marginali dei target sono:

$\operatorname{Cov}(y_x) = \Sigma, \quad \operatorname{Cov}(y_v) = \Sigma + I.$

La predizione di velocità aggiunge un pavimento isotropo unitario a ogni direzione. Se $\Sigma$ è anisotropa, le direzioni latenti a bassa varianza diventano a varianza unitaria in $y_v$ , mentre la predizione pulita mantiene la loro varianza target ridotta. Anche l’ambiguità condizionata differisce. Per una singola coordinata con autovalore $\lambda_i$ ,

$\operatorname{Var}(v_i \mid z_i) = \frac{1}{(1-t)^2} \operatorname{Var}(x_i \mid z_i).$

Gli stimatori di Bayes rivelano un ulteriore meccanismo: quando $\lambda_i \to 0$ , il coefficiente del target pulito tende a 0, attenuando le direzioni a bassa varianza, mentre il coefficiente del target di velocità tende a $-1/(1-t)$ , amplificandole. Pertanto, anche se i target sono linearmente convertibili dopo la predizione, essi presentano alla rete problemi di regressione supervisionata diversi.

Architettura e configurazione di addestramento

JLT è un Transformer latente di scala Base con 12 blocchi, dimensione nascosta 768, 12 teste di attenzione e un embedding di patch con collo di bottiglia a 128 dimensioni, per un totale di 130M parametri. Segue da vicino la configurazione JiT-B/16, ma sostituisce le patch di pixel grezzi con token latenti fissi del VAE FLUX.2. Vengono valutate due varianti di dimensione delle patch: JLT-B/1 e JLT-B/2, corrispondenti a patch della griglia VAE di dimensione 1 e 2. La baseline di velocità corrispondente, DiT-B/1 e DiT-B/2, utilizza la stessa architettura e rappresentazione ma predice $v = x - \epsilon$ . Tutti i modelli sono addestrati per 250K passi (200 epoche) con AdamW, un tasso di apprendimento base di $5\times10^{-5}$ (scalato a $2\times10^{-4}$ ) e una dimensione effettiva del batch di 1024. Per isolare l’effetto del target, l’implementazione omette la concatenazione ripetuta del token di classe nel contesto e la perdita di classificazione ausiliaria usata in JiT. Il condizionamento di classe è per il resto standard.

Ablazione su target corrispondenti: pulito vs. velocità

L’esperimento centrale fissa rappresentazione, scala del Transformer e configurazioni di addestramento, variando solo il target diretto di predizione. I risultati su ImageNet $256\times256$ sono mostrati nella Tabella 1 e nella Figura 2.

Modello	Target	Patch	FID-50K
DiT-B/1	velocità	/1	6.56
JLT-B/1	pulito	/1	2.56
DiT-B/2	velocità	/2	28.71
JLT-B/2	pulito	/2	14.81
JLT-B/1 (guidato)	pulito	/1	2.50

Tabella 1: Ablazione su target latenti corrispondenti su ImageNet $256\times256$ . La predizione del latente pulito domina quella di velocità con entrambe le dimensioni delle patch.

Immagine 2: Fare riferimento alla didascalia

Figura 2: Curve di addestramento per l’ablazione su target corrispondenti. Le varianti a latente pulito mantengono un FID più basso e un Inception Score più alto durante tutto l’addestramento.

La predizione del latente pulito migliora l’FID da 6.56 a 2.56 per patch /1, e da 28.71 a 14.81 per patch /2. Le curve di addestramento mostrano che il modello a latente pulito entra prima nel regime di basso FID e mantiene un margine netto. Con guida classifier-free, JLT-B/1 raggiunge un FID di 2.50. Il vantaggio non è legato a una specifica dimensione delle patch, confermando che è la geometria del target stessa a determinare il miglioramento.

Confronto con baseline rappresentative

La Tabella 2 affianca il risultato guidato di JLT‑B/1 a modelli consolidati per ImageNet $256\times256$ . JLT è un modello latente da 130M addestrato per soli 250K passi, eppure raggiunge un FID competitivo.

Modello	FID-50K	IS	Addestramento
ADM (guidato)	3.94	215.3	1000K
LDM-4	3.60	247.7	178K
DiT-XL/2	2.27	278.2	7M
SiT-XL/2	2.06	270.3	7M
JiT-B/16	2.09	282.3	800K
JiT-B/32	2.28	278.4	800K
JLT-B/1 (nostro)	2.50	—	250K

Tabella 2: Confronto guidato su ImageNet $256\times256$ . JLT‑B/1 è un modello di scala ridotta addestrato per un numero inferiore di passi, eppure il suo FID è vicino a quello di sistemi molto più grandi.

Sebbene i modelli su scala XL o allineati alla rappresentazione ottengano FID inferiori, alterano simultaneamente più fattori. Il confronto contestualizza l’entità del vantaggio della predizione pulita senza rivendicare un nuovo stato dell’arte. Il messaggio chiave è che un semplice cambiamento dell’obiettivo all’interno di uno spazio latente fisso produce guadagni sostanziali, anche su scala modesta.

Conclusioni e implicazioni

Questo studio dimostra che la predizione pulita del latente supera costantemente la predizione della velocità quando rappresentazione, architettura e addestramento sono mantenuti costanti. L’analisi gaussiana locale fornisce un meccanismo: la predizione della velocità aggiunge un pavimento di covarianza isotropa e amplifica le direzioni latenti a bassa varianza, mentre la predizione pulita le attenua. Questi risultati ridefiniscono la parametrizzazione dell’obiettivo nella diffusione latente come una scelta di modellazione geometrica, non un dettaglio algebrico. Il risultato non è spiegato dalla sola compressione latente: il divario appare all’interno dello stesso spazio latente. I limiti includono l’attenzione su ImageNet $256\times256$ e una configurazione da 130M; lavori futuri dovranno convalidare il meccanismo su diversi tokenizer e dataset. L’articolo incoraggia i professionisti a considerare l’obiettivo di predizione diretta come una dimensione progettuale di primaria importanza, anche negli spazi latenti compressi.

Project page GitHub ArXiv paper