Tailored news hub
home›Video›

LongLive-2.0: Infrastruttura Parallela NVFP4 per Video Lunghi

Addestramento e inferenza efficienti per modelli di diffusione autoregressivi a lunghissimo termine con parallelismo di sequenza e quantizzazione a 4 bit

LongLive-2.0: Infrastruttura Parallela NVFP4 per Video Lunghi
#Accademico#Addestramento#Fine Tuning#Generazione Contenuti

LongLive-2.0 presenta un'infrastruttura parallela basata su NVFP4 per l'intero flusso di addestramento e inferenza nella generazione di video lunghi. Include addestramento AR con parallelismo di sequenza bilanciato (Balanced SP) e quantizzazione NVFP4 per ridurre memoria e accelerare GEMM. Per l'inferenza su GPU Blackwell, supporta W4A4 e cache KV quantizzata, oltre a decodifica VAE asincrona. Raggiunge speedup fino a 2.15x in addestramento e 1.84x in inferenza, con 45.7 FPS per il modello 5B.

Panoramica

La generazione di video lunghi deve affrontare gravi colli di bottiglia in termini di memoria e calcolo sia durante l'addestramento che durante l'inferenza. I lavori esistenti si concentrano su miglioramenti algoritmici ma trascurano in gran parte le ottimizzazioni infrastrutturali. LongLive-2.0 introduce un'infrastruttura parallela NVFP4 (virgola mobile a 4 bit) end-to-end che co-progetta addestramento e inferenza per la generazione di video lunghi. Il sistema raggiunge fino a 2,15× di accelerazione nell'addestramento e 1,84× di accelerazione nell'inferenza, consentendo la generazione in tempo reale a 45,7 FPS per un modello da 5 miliardi di parametri.

I contributi principali includono:

  • Balanced SP: una disposizione sequence-parallel (SP) che accoppia chunk di storia pulita e target rumoroso su ciascuna GPU, bilanciando il calcolo della loss e consentendo la codifica VAE basata su SP.
  • Addestramento e inferenza NVFP4: quantizzazione W4A4 completa di pesi, attivazioni e cache KV, con accelerazione hardware su GPU Blackwell.
  • Pipeline di addestramento pulita: perfezionamento diretto di un modello di diffusione in un modello autoregressivo (AR) lungo e multi-shot senza complessa inizializzazione ODE o distillazione a più stadi.
  • Multi-shot attention sink: preserva l'identità globale e a livello di scena durante la generazione in streaming con attenzione a finestra scorrevole.

Infrastruttura di Addestramento

Parallelismo di Sequenza Bilanciato

LongLive-2.0 addestra un modello di diffusione AR a livello di chunk usando teacher forcing. La formulazione efficiente concatena i flussi latenti di storia pulita e target rumoroso in un'unica sequenza, ma il SP ingenuo crea squilibrio del carico di lavoro e codifica VAE replicata. Balanced SP assegna a ciascuna GPU i latenti puliti e rumorosi dello stesso chunk temporale, in modo che ogni rango possieda sia token di contesto che token target. Questa disposizione accoppiata bilancia i token che contribuiscono alla loss e consente maschere naturali di teacher forcing dopo la comunicazione All-to-All di Ulysses. Anche la codifica VAE viene frammentata: ogni rango codifica solo il proprio chunk locale più un alone sinistro che copre il campo ricettivo temporale, riducendo il costo per rango da O(F)O(F) a O(F/P+h)O(F/P + h).

Addestramento NVFP4

NVFP4 rappresenta ogni elemento come un valore a 4 bit E2M1 con scaling gerarchico (scala FP8 a livello di blocco e scala FP32 a livello di tensore). L'articolo applica NVFP4 a tutti i layer lineari durante l'addestramento AR e la distillazione DMD, mantenendo le operazioni numericamente sensibili (riduzioni, normalizzazione, stati dell'ottimizzatore) a precisione più alta. Per i percorsi sensibili al gradiente, viene applicata una Trasformata di Hadamard Casuale (RHT) prima della quantizzazione. Combinato con Balanced SP, l'addestramento NVFP4 produce una accelerazione da 1,3× a 2,1× rispetto ai baselines BF16+SP, con i maggiori guadagni per le lunghezze video più lunghe (64 secondi).

Infrastruttura di Inferenza

Inferenza W4A4 NVFP4

Sulle GPU Blackwell, il generatore funziona in modalità W4A4 NVFP4, sostituendo i GEMM BF16 con GEMM FP4 per un miglioramento teorico del throughput fino a 4×. Il backbone viene addestrato con addestramento NVFP4-aware (non quantizzazione post-addestramento), preservando la qualità. Anche la cache KV viene quantizzata in NVFP4 utilizzando scaling a micro-blocco e selezione adattiva della scala (Four Over Six), ottenendo un rapporto di compressione di 3,6× con overhead trascurabile (<2%).

Decodifica in Streaming Asincrona

La decodifica VAE è spesso un collo di bottiglia. LongLive-2.0 dedica una GPU alla decodifica VAE in streaming e la sovrappone alla denoising DiT. Poiché la denoising domina (tDiT≥tVAEt_{\text{DiT}} \geq t_{\text{VAE}}), la latenza end-to-end si riduce da C(tDiT+tVAE)C(t_{\text{DiT}}+t_{\text{VAE}}) a circa C⋅tDiT+tVAEC \cdot t_{\text{DiT}} + t_{\text{VAE}}, e la memoria GPU per la VAE scende a O(Tc)\mathcal{O}(T_c).

Parallelismo di Sequenza su GPU Non-Blackwell

Per GPU H100/A100 prive del supporto nativo NVFP4, l'inferenza SP con cache KV quantizzata riduce il volume di comunicazione di circa 3,6×, consentendo la generazione in tempo reale. La Tabella 6 mostra che SP=2 con cache KV a 4 bit riduce la latenza da 31,0 s a 18,3 s per video da 16 secondi su H100.

Progettazione a Livello Algoritmico

Pipeline di Addestramento Pulita

A differenza dei metodi precedenti (Self-Forcing, Causal-Forcing) che richiedono inizializzazione ODE e DMD a più stadi, LongLive-2.0 perfeziona direttamente un modello di diffusione bidirezionale (Wan2.2-TI2V-5B) in un modello AR lungo e multi-shot utilizzando dati video lunghi. La distillazione a pochi passi viene eseguita in un unico stadio addestrando solo gli adattatori LoRA, mantenendo congelato il backbone quantizzato. Ciò produce una pipeline snella che supporta generazione interattiva, multi-shot e in tempo reale per video lunghi.

Multi-Shot Attention Sink

Per prevenire la deriva dell'aspetto durante l'inferenza in streaming con attenzione a finestra scorrevole, l'articolo introduce due insiemi di ancoraggio cooperanti:

  • Global Sink (Ag\mathcal{A}_g): primi SgS_g fotogrammi del video, permanentemente fissi.
  • Shot-Level Sink (As\mathcal{A}_s): primi SsS_s fotogrammi della scena corrente, rilegati ai cambi di scena.

Ciò si integra perfettamente con il prompting a chunk: un cambio di prompt attiva il rilegamento locale di As\mathcal{A}_s senza influenzare l'identità globale.

Risultati Sperimentali

Efficienza dell'Addestramento

La Tabella 1 mostra i tempi di iterazione dell'addestramento AR end-to-end. NVFP4 + Balanced SP raggiunge la configurazione più veloce, con accelerazioni di 1,3×, 1,4× e 2,1× rispetto a BF16+SP per video da 16 s, 32 s e 64 s rispettivamente.

Lunghezza inputBF16 senza SPBF16 con SPBF16 Balanced SPNVFP4 Balanced SP
16 s75,352,245,840,1 (1,3×)
32 s202,7162,7136,8119,3 (1,4×)
64 sOOM1372,91196,5639,5 (2,1×)

Efficienza dell'Inferenza

La Tabella 3 mostra le ottimizzazioni progressive su GB200. Il modello NVFP4 a 2 passi raggiunge 45,7 FPS con 19,4 GB di picco di memoria per video da 64 secondi.

Impostazioni di inferenzaFPS↑16s E2E (s)16s Mem (GB)32s E2E (s)32s Mem (GB)64s E2E (s)64s Mem (GB)
BF1624,826,636,453,236,4112,936,4
NVFP432,022,929,746,629,796,029,7
+ Cache KV NVFP429,723,819,448,919,499,519,4
+ Decodifica Asincrona29,715,919,429,119,457,619,4
3 Passi35,212,719,423,219,446,019,4
2 Passi45,711,219,419,219,436,319,4

Prestazioni di Benchmark

Su VBench (video breve), LongLive-2.0-5B ottiene un punteggio totale di 85,06 a risoluzione 1280×720, superando tutti i baselines. Su VBench-Long (video da 60 s), ottiene il miglior rango medio (3,67) con la massima coerenza del soggetto (97,48) e coerenza dello sfondo (97,00).

Conclusione

LongLive-2.0 dimostra che la co-progettazione algoritmo–infrastruttura può migliorare drasticamente l'efficienza della generazione di video lunghi. Introducendo Balanced SP, la quantizzazione NVFP4 sia in addestramento che in inferenza, e una pipeline di addestramento pulita, il sistema raggiunge throughput e efficienza di memoria allo stato dell'arte mantenendo al contempo un'alta qualità di generazione. Questo lavoro è il primo sistema NVFP4 end-to-end progettato per la generazione di video lunghi, e i suoi principi possono guidare future infrastrutture a bassa precisione per modelli generativi.

Limitazioni: L'accelerazione NVFP4 dipende dall'hardware (GPU Blackwell). Su piattaforme non Blackwell, l'inferenza SP con cache KV quantizzata offre un'alternativa. Impatti più ampi: Il sistema riduce i costi computazionali e le barriere di risorse, condividendo le considerazioni etiche con i modelli di generazione video esistenti.

Articoli Correlati