home›Video›

LongLive-2.0: Infrastruttura Parallela NVFP4 per Video Lunghi

Addestramento e inferenza efficienti per modelli di diffusione autoregressivi a lunghissimo termine con parallelismo di sequenza e quantizzazione a 4 bit

21 maggio 2026

#Accademico #Addestramento #Fine Tuning #Generazione Contenuti

LongLive-2.0 presenta un'infrastruttura parallela basata su NVFP4 per l'intero flusso di addestramento e inferenza nella generazione di video lunghi. Include addestramento AR con parallelismo di sequenza bilanciato (Balanced SP) e quantizzazione NVFP4 per ridurre memoria e accelerare GEMM. Per l'inferenza su GPU Blackwell, supporta W4A4 e cache KV quantizzata, oltre a decodifica VAE asincrona. Raggiunge speedup fino a 2.15x in addestramento e 1.84x in inferenza, con 45.7 FPS per il modello 5B.

Panoramica

La generazione di video lunghi deve affrontare gravi colli di bottiglia in termini di memoria e calcolo sia durante l'addestramento che durante l'inferenza. I lavori esistenti si concentrano su miglioramenti algoritmici ma trascurano in gran parte le ottimizzazioni infrastrutturali. LongLive-2.0 introduce un'infrastruttura parallela NVFP4 (virgola mobile a 4 bit) end-to-end che co-progetta addestramento e inferenza per la generazione di video lunghi. Il sistema raggiunge fino a 2,15× di accelerazione nell'addestramento e 1,84× di accelerazione nell'inferenza, consentendo la generazione in tempo reale a 45,7 FPS per un modello da 5 miliardi di parametri.

I contributi principali includono:

Balanced SP: una disposizione sequence-parallel (SP) che accoppia chunk di storia pulita e target rumoroso su ciascuna GPU, bilanciando il calcolo della loss e consentendo la codifica VAE basata su SP.
Addestramento e inferenza NVFP4: quantizzazione W4A4 completa di pesi, attivazioni e cache KV, con accelerazione hardware su GPU Blackwell.
Pipeline di addestramento pulita: perfezionamento diretto di un modello di diffusione in un modello autoregressivo (AR) lungo e multi-shot senza complessa inizializzazione ODE o distillazione a più stadi.
Multi-shot attention sink: preserva l'identità globale e a livello di scena durante la generazione in streaming con attenzione a finestra scorrevole.

Infrastruttura di Addestramento

Parallelismo di Sequenza Bilanciato

LongLive-2.0 addestra un modello di diffusione AR a livello di chunk usando teacher forcing. La formulazione efficiente concatena i flussi latenti di storia pulita e target rumoroso in un'unica sequenza, ma il SP ingenuo crea squilibrio del carico di lavoro e codifica VAE replicata. Balanced SP assegna a ciascuna GPU i latenti puliti e rumorosi dello stesso chunk temporale, in modo che ogni rango possieda sia token di contesto che token target. Questa disposizione accoppiata bilancia i token che contribuiscono alla loss e consente maschere naturali di teacher forcing dopo la comunicazione All-to-All di Ulysses. Anche la codifica VAE viene frammentata: ogni rango codifica solo il proprio chunk locale più un alone sinistro che copre il campo ricettivo temporale, riducendo il costo per rango da $O(F)$ a $O(F/P + h)$ .

Addestramento NVFP4

NVFP4 rappresenta ogni elemento come un valore a 4 bit E2M1 con scaling gerarchico (scala FP8 a livello di blocco e scala FP32 a livello di tensore). L'articolo applica NVFP4 a tutti i layer lineari durante l'addestramento AR e la distillazione DMD, mantenendo le operazioni numericamente sensibili (riduzioni, normalizzazione, stati dell'ottimizzatore) a precisione più alta. Per i percorsi sensibili al gradiente, viene applicata una Trasformata di Hadamard Casuale (RHT) prima della quantizzazione. Combinato con Balanced SP, l'addestramento NVFP4 produce una accelerazione da 1,3× a 2,1× rispetto ai baselines BF16+SP, con i maggiori guadagni per le lunghezze video più lunghe (64 secondi).

Infrastruttura di Inferenza

Inferenza W4A4 NVFP4

Sulle GPU Blackwell, il generatore funziona in modalità W4A4 NVFP4, sostituendo i GEMM BF16 con GEMM FP4 per un miglioramento teorico del throughput fino a 4×. Il backbone viene addestrato con addestramento NVFP4-aware (non quantizzazione post-addestramento), preservando la qualità. Anche la cache KV viene quantizzata in NVFP4 utilizzando scaling a micro-blocco e selezione adattiva della scala (Four Over Six), ottenendo un rapporto di compressione di 3,6× con overhead trascurabile (<2%).

Decodifica in Streaming Asincrona

La decodifica VAE è spesso un collo di bottiglia. LongLive-2.0 dedica una GPU alla decodifica VAE in streaming e la sovrappone alla denoising DiT. Poiché la denoising domina ( $t_{\text{DiT}} \geq t_{\text{VAE}}$ ), la latenza end-to-end si riduce da $C(t_{\text{DiT}}+t_{\text{VAE}})$ a circa $C \cdot t_{\text{DiT}} + t_{\text{VAE}}$ , e la memoria GPU per la VAE scende a $\mathcal{O}(T_c)$ .

Parallelismo di Sequenza su GPU Non-Blackwell

Per GPU H100/A100 prive del supporto nativo NVFP4, l'inferenza SP con cache KV quantizzata riduce il volume di comunicazione di circa 3,6×, consentendo la generazione in tempo reale. La Tabella 6 mostra che SP=2 con cache KV a 4 bit riduce la latenza da 31,0 s a 18,3 s per video da 16 secondi su H100.

Progettazione a Livello Algoritmico

Pipeline di Addestramento Pulita

A differenza dei metodi precedenti (Self-Forcing, Causal-Forcing) che richiedono inizializzazione ODE e DMD a più stadi, LongLive-2.0 perfeziona direttamente un modello di diffusione bidirezionale (Wan2.2-TI2V-5B) in un modello AR lungo e multi-shot utilizzando dati video lunghi. La distillazione a pochi passi viene eseguita in un unico stadio addestrando solo gli adattatori LoRA, mantenendo congelato il backbone quantizzato. Ciò produce una pipeline snella che supporta generazione interattiva, multi-shot e in tempo reale per video lunghi.

Multi-Shot Attention Sink

Per prevenire la deriva dell'aspetto durante l'inferenza in streaming con attenzione a finestra scorrevole, l'articolo introduce due insiemi di ancoraggio cooperanti:

Global Sink ( $\mathcal{A}_g$ ): primi $S_g$ fotogrammi del video, permanentemente fissi.
Shot-Level Sink ( $\mathcal{A}_s$ ): primi $S_s$ fotogrammi della scena corrente, rilegati ai cambi di scena.

Ciò si integra perfettamente con il prompting a chunk: un cambio di prompt attiva il rilegamento locale di $\mathcal{A}_s$ senza influenzare l'identità globale.

Risultati Sperimentali

Efficienza dell'Addestramento

La Tabella 1 mostra i tempi di iterazione dell'addestramento AR end-to-end. NVFP4 + Balanced SP raggiunge la configurazione più veloce, con accelerazioni di 1,3×, 1,4× e 2,1× rispetto a BF16+SP per video da 16 s, 32 s e 64 s rispettivamente.

Lunghezza input	BF16 senza SP	BF16 con SP	BF16 Balanced SP	NVFP4 Balanced SP
16 s	75,3	52,2	45,8	40,1 (1,3×)
32 s	202,7	162,7	136,8	119,3 (1,4×)
64 s	OOM	1372,9	1196,5	639,5 (2,1×)

Efficienza dell'Inferenza

La Tabella 3 mostra le ottimizzazioni progressive su GB200. Il modello NVFP4 a 2 passi raggiunge 45,7 FPS con 19,4 GB di picco di memoria per video da 64 secondi.

Impostazioni di inferenza	FPS↑	16s E2E (s)	16s Mem (GB)	32s E2E (s)	32s Mem (GB)	64s E2E (s)	64s Mem (GB)
BF16	24,8	26,6	36,4	53,2	36,4	112,9	36,4
NVFP4	32,0	22,9	29,7	46,6	29,7	96,0	29,7
+ Cache KV NVFP4	29,7	23,8	19,4	48,9	19,4	99,5	19,4
+ Decodifica Asincrona	29,7	15,9	19,4	29,1	19,4	57,6	19,4
3 Passi	35,2	12,7	19,4	23,2	19,4	46,0	19,4
2 Passi	45,7	11,2	19,4	19,2	19,4	36,3	19,4

Prestazioni di Benchmark

Su VBench (video breve), LongLive-2.0-5B ottiene un punteggio totale di 85,06 a risoluzione 1280×720, superando tutti i baselines. Su VBench-Long (video da 60 s), ottiene il miglior rango medio (3,67) con la massima coerenza del soggetto (97,48) e coerenza dello sfondo (97,00).

Conclusione

LongLive-2.0 dimostra che la co-progettazione algoritmo–infrastruttura può migliorare drasticamente l'efficienza della generazione di video lunghi. Introducendo Balanced SP, la quantizzazione NVFP4 sia in addestramento che in inferenza, e una pipeline di addestramento pulita, il sistema raggiunge throughput e efficienza di memoria allo stato dell'arte mantenendo al contempo un'alta qualità di generazione. Questo lavoro è il primo sistema NVFP4 end-to-end progettato per la generazione di video lunghi, e i suoi principi possono guidare future infrastrutture a bassa precisione per modelli generativi.

Limitazioni: L'accelerazione NVFP4 dipende dall'hardware (GPU Blackwell). Su piattaforme non Blackwell, l'inferenza SP con cache KV quantizzata offre un'alternativa. Impatti più ampi: Il sistema riduce i costi computazionali e le barriere di risorse, condividendo le considerazioni etiche con i modelli di generazione video esistenti.