Video

Un marco innovador que supera los desafíos de atención espacial y latencia para transmisiones en vivo 1080p y 4K.

SwiftVR: Restauración de Video Generativa en Tiempo Real para GPU de Consumo

SwiftVR es un marco de restauración de video generativa de un solo paso diseñado para transmisiones en vivo. Aborda cuellos de botella en GPU de consumo con atención de ventana desplazada sin máscaras y un autoencoder ligero, logrando 26 FPS a 1080p en una RTX 5090 y 14 FPS a 4K en una H100.

Descubre NAVA, el generador de audio-video de 6.3B parámetros que sintetiza contenido sincronizado de 720p en minutos, con audio de doble canal y control preciso de timbre multi-locutor.

NAVA: Generación Audio-Video Sincronizada y Nativa con Alineación MMDiT

NAVA es un generador conjunto de audio-video de 6.3B parámetros que sintetiza video y audio sincronizados a partir de un único prompt. Utiliza un MMDiT de "Alinear-y-Fusionar" para establecer correspondencia audio-video, permitiendo generación rápida de 720p, audio estéreo de doble canal y control preciso de timbre multi-locutor.

La edición nativa es la verdadera revolución, no la generación. Gemini Omni lo demuestra, revelando la debilidad de los pipelines tradicionales y el alto costo de la innovación real.

Te han mentido sobre el verdadero avance de la IA de video

Descubre por qué la edición nativa de video por IA, como la demostrada por Gemini Omni, supera con creces la simple generación. Analizamos la "línea divisoria arquitectónica" que separa las herramientas de los juguetes, la "prueba Lumière" que avergüenza a los escépticos y la "trampa del costo" que define el futuro de la producción de video con IA.

Un transformador de difusión bidireccional de 2.6B parámetros genera video 720p con control de cámara 6-DoF

SANA-WM: modelo mundial abierto para video de un minuto

SANA-WM es un modelo mundial eficiente y de código abierto entrenado para generar videos de un minuto. Con 2.6B parámetros, ofrece control preciso de cámara, atención híbrida lineal y un pipeline de dos etapas para alta fidelidad. Funciona en menos de 8 GB VRAM y es 36 veces más rápido que modelos previos.

Optimizaciones de entrenamiento e inferencia con cuantización NVFP4 y paralelismo de secuencia para generación de video de alta calidad y tiempo real

LongLive-2.0: Infraestructura paralela NVFP4 para video largo

LongLive-2.0 presenta un sistema de infraestructura paralela basada en NVFP4 para la generación de video largo, con entrenamiento AR paralelo, cuantización W4A4 y KV cache, y decodificación asíncrona, logrando hasta 2.1× de aceleración en entrenamiento y 45.7 FPS en inferencia, manteniendo alta calidad.