home›Video›

LongLive-2.0: Infraestructura paralela NVFP4 para video largo

Optimizaciones de entrenamiento e inferencia con cuantización NVFP4 y paralelismo de secuencia para generación de video de alta calidad y tiempo real

21 de mayo de 2026

#Académico #Ajuste Fino #Entrenamiento #Generación de Contenido

LongLive-2.0 presenta un sistema de infraestructura paralela basada en NVFP4 para la generación de video largo, con entrenamiento AR paralelo, cuantización W4A4 y KV cache, y decodificación asíncrona, logrando hasta 2.1× de aceleración en entrenamiento y 45.7 FPS en inferencia, manteniendo alta calidad.

Resumen

La generación de videos largos enfrenta graves cuellos de botella de memoria y cómputo tanto durante el entrenamiento como en la inferencia. Los trabajos existentes se centran en mejoras algorítmicas, pero descuidan en gran medida las optimizaciones de infraestructura. LongLive-2.0 introduce una infraestructura paralela NVFP4 (coma flotante de 4 bits) de extremo a extremo que co-diseña el entrenamiento y la inferencia para la generación de videos largos. El sistema logra una aceleración del entrenamiento de hasta 2.15× y una aceleración de la inferencia de 1.84×, permitiendo la generación en tiempo real a 45.7 FPS para un modelo de 5B parámetros.

Las contribuciones clave incluyen:

SP Balanceado: un diseño de paralelismo de secuencia (SP) que empareja fragmentos de historial limpio y objetivo ruidoso en cada GPU, equilibrando el cálculo de pérdida y habilitando la codificación VAE consciente de SP.
Entrenamiento e inferencia NVFP4: cuantificación completa W4A4 de pesos, activaciones y caché KV, con aceleración de hardware en GPUs Blackwell.
Pipeline de entrenamiento limpio: afina directamente un modelo de difusión en un modelo autorregresivo (AR) largo y de múltiples tomas, sin compleja inicialización ODE ni destilación en múltiples etapas.
Sumidero de atención multi-toma: preserva la identidad global y por toma durante la generación en streaming con atención de ventana deslizante.

Infraestructura de Entrenamiento

Paralelismo de Secuencia Balanceado

LongLive-2.0 entrena un modelo de difusión AR a nivel de fragmentos mediante teacher forcing. La formulación eficiente concatena los latentes del historial limpio y del objetivo ruidoso en una sola secuencia, pero el SP ingenuo crea desequilibrio de carga y replicación de la codificación VAE. El SP Balanceado asigna a cada GPU los latentes limpios y ruidosos del mismo fragmento temporal, por lo que cada rango posee tanto tokens de contexto como de destino. Este diseño emparejado equilibra los tokens que contribuyen a la pérdida y permite máscaras de teacher forcing naturales tras la comunicación All-to-All de Ulysses. La codificación VAE también se fragmenta: cada rango codifica solo su fragmento local más un halo izquierdo que cubre el campo receptivo temporal, reduciendo el costo por rango de $O(F)$ a $O(F/P + h)$ .

Entrenamiento NVFP4

NVFP4 representa cada elemento como un valor de 4 bits E2M1 con escalado jerárquico (escala FP8 por bloque y escala FP32 por tensor). El artículo aplica NVFP4 a todas las capas lineales durante el entrenamiento AR y la destilación DMD, mientras mantiene en precisión más alta las operaciones numéricamente sensibles (reducciones, normalizaciones, estados del optimizador). Para las rutas sensibles al gradiente, se aplica una Transformada Aleatoria de Hadamard (RHT) antes de la cuantificación. Combinado con SP Balanceado, el entrenamiento NVFP4 produce una aceleración de 1.3×–2.1× respecto a las líneas base BF16+SP, con las mayores ganancias en duraciones de video más largas (64 s).

Infraestructura de Inferencia

Inferencia W4A4 NVFP4

En GPUs Blackwell, el generador funciona en modo W4A4 NVFP4, reemplazando las GEMMs BF16 por GEMMs FP4 para una mejora teórica de hasta 4× en rendimiento. La columna vertebral se entrena con entrenamiento consciente de NVFP4 (no cuantificación post-entrenamiento), preservando la calidad. La caché KV también se cuantifica a NVFP4 usando escalado de micro-bloques y selección adaptativa de escala (Four Over Six), logrando una relación de compresión de 3.6× con una sobrecarga despreciable (<2%).

Decodificación Asíncrona en Streaming

La decodificación VAE suele ser un cuello de botella. LongLive-2.0 dedica una GPU a la decodificación VAE en streaming y la superpone con la eliminación de ruido del DiT. Dado que la eliminación de ruido domina ( $t_{\text{DiT}} \geq t_{\text{VAE}}$ ), la latencia de extremo a extremo se reduce de $C(t_{\text{DiT}}+t_{\text{VAE}})$ a aproximadamente $C \cdot t_{\text{DiT}} + t_{\text{VAE}}$ , y la memoria de GPU para VAE cae a $\mathcal{O}(T_c)$ .

Paralelismo de Secuencia en GPUs No Blackwell

Para GPUs H100/A100 sin soporte nativo de NVFP4, la inferencia SP con caché KV cuantificada reduce el volumen de comunicación en ~3.6×, permitiendo la generación en tiempo real. La Tabla 6 muestra que SP=2 con caché KV de 4 bits reduce la latencia de 31.0 s a 18.3 s para videos de 16 s en H100.

Diseños a Nivel Algorítmico

Pipeline de Entrenamiento Limpio

A diferencia de métodos anteriores (Self-Forcing, Causal-Forcing) que requieren inicialización ODE y DMD en múltiples etapas, LongLive-2.0 afina directamente un modelo de difusión bidireccional (Wan2.2-TI2V-5B) en un modelo AR largo y multi-toma utilizando datos de video largo. La destilación en pocos pasos se realiza en una sola etapa entrenando solo adaptadores LoRA, manteniendo congelada la columna vertebral cuantificada. Esto produce un pipeline simplificado que admite generación larga, interactiva, multi-toma y en tiempo real.

Sumidero de Atención Multi-Toma

Para evitar la deriva de apariencia durante la inferencia en streaming con atención de ventana deslizante, el artículo introduce dos conjuntos de anclas cooperantes:

Sumidero Global ( $\mathcal{A}_g$ ): primeros $S_g$ fotogramas del video, fijados permanentemente.
Sumidero a Nivel de Toma ( $\mathcal{A}_s$ ): primeros $S_s$ fotogramas de la toma actual, reenlazados en los cortes de escena.

Esto se integra sin problemas con la indicación por fragmentos: un cambio de indicación desencadena un reenlace local de $\mathcal{A}_s$ sin afectar la identidad global.

Resultados Experimentales

Eficiencia de Entrenamiento

La Tabla 1 muestra los tiempos de iteración de entrenamiento AR de extremo a extremo. NVFP4 + SP Balanceado logra la configuración más rápida, con aceleraciones de 1.3×, 1.4× y 2.1× respecto a BF16+SP para videos de 16 s, 32 s y 64 s respectivamente.

Longitud de entrada	BF16 sin SP	BF16 con SP	BF16 SP Balanceado	NVFP4 SP Balanceado
16 s	75.3	52.2	45.8	40.1 (1.3×)
32 s	202.7	162.7	136.8	119.3 (1.4×)
64 s	OOM	1372.9	1196.5	639.5 (2.1×)

Eficiencia de Inferencia

La Tabla 3 muestra optimizaciones progresivas en GB200. El modelo NVFP4 de 2 pasos alcanza 45.7 FPS con 19.4 GB de memoria pico para videos de 64 s.

Configuración de inferencia	FPS↑	16 s E2E (s)	16 s Mem (GB)	32 s E2E (s)	32 s Mem (GB)	64 s E2E (s)	64 s Mem (GB)
BF16	24.8	26.6	36.4	53.2	36.4	112.9	36.4
NVFP4	32.0	22.9	29.7	46.6	29.7	96.0	29.7
+ Caché KV NVFP4	29.7	23.8	19.4	48.9	19.4	99.5	19.4
+ Decodificación Asíncrona	29.7	15.9	19.4	29.1	19.4	57.6	19.4
3 Pasos	35.2	12.7	19.4	23.2	19.4	46.0	19.4
2 Pasos	45.7	11.2	19.4	19.2	19.4	36.3	19.4

Rendimiento en Benchmarks

En VBench (video corto), LongLive-2.0-5B obtiene una puntuación Total de 85.06 a resolución 1280×720, superando todas las líneas base. En VBench-Long (video de 60 s), logra el mejor rango promedio (3.67) con la mayor consistencia de sujeto (97.48) y consistencia de fondo (97.00).

Conclusión

LongLive-2.0 demuestra que el co-diseño algoritmo-infraestructura puede mejorar drásticamente la eficiencia de la generación de videos largos. Al introducir SP Balanceado, la cuantificación NVFP4 en entrenamiento e inferencia, y un pipeline de entrenamiento limpio, el sistema logra un rendimiento y eficiencia de memoria de vanguardia, manteniendo una alta calidad de generación. Este trabajo es el primer sistema NVFP4 de extremo a extremo diseñado para la generación de videos largos, y sus principios pueden informar futuras infraestructuras de baja precisión para modelos generativos.

Limitaciones: La aceleración NVFP4 depende del hardware (GPUs Blackwell). En plataformas no Blackwell, la inferencia SP con caché KV cuantificada ofrece una alternativa. Impactos más amplios: El sistema reduce los costos computacionales y las barreras de recursos, compartiendo consideraciones éticas con los modelos existentes de generación de video.