Panoramica
La generazione di video lunghi deve affrontare gravi colli di bottiglia in termini di memoria e calcolo sia durante l'addestramento che durante l'inferenza. I lavori esistenti si concentrano su miglioramenti algoritmici ma trascurano in gran parte le ottimizzazioni infrastrutturali. LongLive-2.0 introduce un'infrastruttura parallela NVFP4 (virgola mobile a 4 bit) end-to-end che co-progetta addestramento e inferenza per la generazione di video lunghi. Il sistema raggiunge fino a 2,15× di accelerazione nell'addestramento e 1,84× di accelerazione nell'inferenza, consentendo la generazione in tempo reale a 45,7 FPS per un modello da 5 miliardi di parametri.
I contributi principali includono:
- Balanced SP: una disposizione sequence-parallel (SP) che accoppia chunk di storia pulita e target rumoroso su ciascuna GPU, bilanciando il calcolo della loss e consentendo la codifica VAE basata su SP.
- Addestramento e inferenza NVFP4: quantizzazione W4A4 completa di pesi, attivazioni e cache KV, con accelerazione hardware su GPU Blackwell.
- Pipeline di addestramento pulita: perfezionamento diretto di un modello di diffusione in un modello autoregressivo (AR) lungo e multi-shot senza complessa inizializzazione ODE o distillazione a più stadi.
- Multi-shot attention sink: preserva l'identità globale e a livello di scena durante la generazione in streaming con attenzione a finestra scorrevole.
Infrastruttura di Addestramento
Parallelismo di Sequenza Bilanciato
LongLive-2.0 addestra un modello di diffusione AR a livello di chunk usando teacher forcing. La formulazione efficiente concatena i flussi latenti di storia pulita e target rumoroso in un'unica sequenza, ma il SP ingenuo crea squilibrio del carico di lavoro e codifica VAE replicata. Balanced SP assegna a ciascuna GPU i latenti puliti e rumorosi dello stesso chunk temporale, in modo che ogni rango possieda sia token di contesto che token target. Questa disposizione accoppiata bilancia i token che contribuiscono alla loss e consente maschere naturali di teacher forcing dopo la comunicazione All-to-All di Ulysses. Anche la codifica VAE viene frammentata: ogni rango codifica solo il proprio chunk locale più un alone sinistro che copre il campo ricettivo temporale, riducendo il costo per rango da a .
Addestramento NVFP4
NVFP4 rappresenta ogni elemento come un valore a 4 bit E2M1 con scaling gerarchico (scala FP8 a livello di blocco e scala FP32 a livello di tensore). L'articolo applica NVFP4 a tutti i layer lineari durante l'addestramento AR e la distillazione DMD, mantenendo le operazioni numericamente sensibili (riduzioni, normalizzazione, stati dell'ottimizzatore) a precisione più alta. Per i percorsi sensibili al gradiente, viene applicata una Trasformata di Hadamard Casuale (RHT) prima della quantizzazione. Combinato con Balanced SP, l'addestramento NVFP4 produce una accelerazione da 1,3× a 2,1× rispetto ai baselines BF16+SP, con i maggiori guadagni per le lunghezze video più lunghe (64 secondi).
Infrastruttura di Inferenza
Inferenza W4A4 NVFP4
Sulle GPU Blackwell, il generatore funziona in modalità W4A4 NVFP4, sostituendo i GEMM BF16 con GEMM FP4 per un miglioramento teorico del throughput fino a 4×. Il backbone viene addestrato con addestramento NVFP4-aware (non quantizzazione post-addestramento), preservando la qualità . Anche la cache KV viene quantizzata in NVFP4 utilizzando scaling a micro-blocco e selezione adattiva della scala (Four Over Six), ottenendo un rapporto di compressione di 3,6× con overhead trascurabile (<2%).
Decodifica in Streaming Asincrona
La decodifica VAE è spesso un collo di bottiglia. LongLive-2.0 dedica una GPU alla decodifica VAE in streaming e la sovrappone alla denoising DiT. Poiché la denoising domina (), la latenza end-to-end si riduce da a circa , e la memoria GPU per la VAE scende a .
Parallelismo di Sequenza su GPU Non-Blackwell
Per GPU H100/A100 prive del supporto nativo NVFP4, l'inferenza SP con cache KV quantizzata riduce il volume di comunicazione di circa 3,6×, consentendo la generazione in tempo reale. La Tabella 6 mostra che SP=2 con cache KV a 4 bit riduce la latenza da 31,0 s a 18,3 s per video da 16 secondi su H100.
Progettazione a Livello Algoritmico
Pipeline di Addestramento Pulita
A differenza dei metodi precedenti (Self-Forcing, Causal-Forcing) che richiedono inizializzazione ODE e DMD a più stadi, LongLive-2.0 perfeziona direttamente un modello di diffusione bidirezionale (Wan2.2-TI2V-5B) in un modello AR lungo e multi-shot utilizzando dati video lunghi. La distillazione a pochi passi viene eseguita in un unico stadio addestrando solo gli adattatori LoRA, mantenendo congelato il backbone quantizzato. Ciò produce una pipeline snella che supporta generazione interattiva, multi-shot e in tempo reale per video lunghi.
Multi-Shot Attention Sink
Per prevenire la deriva dell'aspetto durante l'inferenza in streaming con attenzione a finestra scorrevole, l'articolo introduce due insiemi di ancoraggio cooperanti:
- Global Sink (): primi fotogrammi del video, permanentemente fissi.
- Shot-Level Sink (): primi fotogrammi della scena corrente, rilegati ai cambi di scena.
Ciò si integra perfettamente con il prompting a chunk: un cambio di prompt attiva il rilegamento locale di senza influenzare l'identità globale.
Risultati Sperimentali
Efficienza dell'Addestramento
La Tabella 1 mostra i tempi di iterazione dell'addestramento AR end-to-end. NVFP4 + Balanced SP raggiunge la configurazione più veloce, con accelerazioni di 1,3×, 1,4× e 2,1× rispetto a BF16+SP per video da 16 s, 32 s e 64 s rispettivamente.
| Lunghezza input | BF16 senza SP | BF16 con SP | BF16 Balanced SP | NVFP4 Balanced SP |
|---|---|---|---|---|
| 16 s | 75,3 | 52,2 | 45,8 | 40,1 (1,3×) |
| 32 s | 202,7 | 162,7 | 136,8 | 119,3 (1,4×) |
| 64 s | OOM | 1372,9 | 1196,5 | 639,5 (2,1×) |
Efficienza dell'Inferenza
La Tabella 3 mostra le ottimizzazioni progressive su GB200. Il modello NVFP4 a 2 passi raggiunge 45,7 FPS con 19,4 GB di picco di memoria per video da 64 secondi.
| Impostazioni di inferenza | FPS↑ | 16s E2E (s) | 16s Mem (GB) | 32s E2E (s) | 32s Mem (GB) | 64s E2E (s) | 64s Mem (GB) |
|---|---|---|---|---|---|---|---|
| BF16 | 24,8 | 26,6 | 36,4 | 53,2 | 36,4 | 112,9 | 36,4 |
| NVFP4 | 32,0 | 22,9 | 29,7 | 46,6 | 29,7 | 96,0 | 29,7 |
| + Cache KV NVFP4 | 29,7 | 23,8 | 19,4 | 48,9 | 19,4 | 99,5 | 19,4 |
| + Decodifica Asincrona | 29,7 | 15,9 | 19,4 | 29,1 | 19,4 | 57,6 | 19,4 |
| 3 Passi | 35,2 | 12,7 | 19,4 | 23,2 | 19,4 | 46,0 | 19,4 |
| 2 Passi | 45,7 | 11,2 | 19,4 | 19,2 | 19,4 | 36,3 | 19,4 |
Prestazioni di Benchmark
Su VBench (video breve), LongLive-2.0-5B ottiene un punteggio totale di 85,06 a risoluzione 1280×720, superando tutti i baselines. Su VBench-Long (video da 60 s), ottiene il miglior rango medio (3,67) con la massima coerenza del soggetto (97,48) e coerenza dello sfondo (97,00).
Conclusione
LongLive-2.0 dimostra che la co-progettazione algoritmo–infrastruttura può migliorare drasticamente l'efficienza della generazione di video lunghi. Introducendo Balanced SP, la quantizzazione NVFP4 sia in addestramento che in inferenza, e una pipeline di addestramento pulita, il sistema raggiunge throughput e efficienza di memoria allo stato dell'arte mantenendo al contempo un'alta qualità di generazione. Questo lavoro è il primo sistema NVFP4 end-to-end progettato per la generazione di video lunghi, e i suoi principi possono guidare future infrastrutture a bassa precisione per modelli generativi.
Limitazioni: L'accelerazione NVFP4 dipende dall'hardware (GPU Blackwell). Su piattaforme non Blackwell, l'inferenza SP con cache KV quantizzata offre un'alternativa. Impatti più ampi: Il sistema riduce i costi computazionali e le barriere di risorse, condividendo le considerazioni etiche con i modelli di generazione video esistenti.



