home›Entrenamiento›

SANA-Streaming: Edición de Video en Tiempo Real con Transformador Híbrido de Difusión

Un marco co-diseñado de sistema-algoritmo para edición de video de alta resolución y streaming en GPUs de consumo, optimizado para Blackwell.

6 de junio de 2026

#Académico #Contexto #Entrenamiento #Generación de Contenido #Memoria

Presentamos SANA-Streaming, un sistema-algoritmo co-diseñado para la edición de video en streaming de alta resolución y en tiempo real. Utiliza una arquitectura de Transformador de Difusión Híbrido y Regularización Ciclo-Inversa, optimizado para NVIDIA Blackwell (RTX 5090), logrando 24 FPS a 1280x704.

Edición de video en streaming en tiempo real en GPUs de consumo

Aplicaciones interactivas como las transmisiones en vivo y los videojuegos exigen edición de video en tiempo real con consistencia temporal y alto rendimiento en hardware limitado. Los modelos previos de edición de video a menudo dependen de la atención softmax completa, lo que resulta prohibitivo en memoria para flujos largos, mientras que las variantes puramente lineales introducen artefactos visibles en los límites entre fragmentos.

SANA-Streaming aborda estos desafíos mediante un codiseño sistema-algoritmo que combina un transformer de difusión híbrido, regularización de ciclo inverso y optimizaciones conscientes del hardware para la arquitectura NVIDIA Blackwell. Ejecutándose en una sola GPU RTX 5090, edita videos de resolución 1280×704 a 24 fotogramas por segundo de extremo a extremo, y el núcleo DiT alcanza 58 FPS. Este trabajo muestra que un codiseño cuidadoso puede desbloquear la edición de video en tiempo real práctica en hardware de consumo.

Image 1: Overview of SANA-Streaming

Transformer de difusión híbrido para consistencia en streaming

El corazón de SANA-Streaming es un transformer de difusión híbrido que intercala dos mecanismos de atención. La mayoría de los bloques utilizan atención lineal Gated DeltaNet (GDN) , que comprime el historial de streaming en un estado recurrente de tamaño fijo actualizado cuadro por cuadro. Esto proporciona una memoria global compacta cuyo tamaño es independiente de la duración del video, evitando la explosión de memoria de la atención softmax completa.

Un menor número de bloques usa atención softmax con una ventana local deslizante y un fragmento sumidero persistente. Estos bloques restauran la correspondencia local fina, esencial para preservar los detalles de la fuente a través de los límites entre fragmentos. Durante la inferencia, cada bloque GDN almacena en caché únicamente los estados recurrentes terminales, mientras que los bloques softmax atienden a un contexto pequeño y restringido.

En conjunto, el diseño híbrido elimina los artefactos de parpadeo de la atención lineal pura, manteniendo la memoria constante. En comparación con una variante completamente softmax, utiliza solo 5.56 GB de VRAM y se ejecuta 3.7 veces más rápido, lo que hace factible la edición de streaming de alta resolución en una GPU de consumo.

Image 2: Hybrid streaming diffusion transformer

Regularización de ciclo inverso: aprendiendo consistencia a partir de datos no emparejados

La edición de videos de minutos de duración demanda estabilidad temporal a largo alcance, pero los videos largos editados y emparejados son extremadamente escasos. SANA-Streaming introduce la Regularización de Ciclo Inverso, una estrategia de entrenamiento que solo requiere videos fuente largos.

El pase hacia adelante realiza la edición en streaming según una instrucción dada. El fragmento resultante se utiliza luego como condición visual para una edición inversa, guiada por una instrucción inversa (por ejemplo, “restaurar la escena original”). La rama inversa se entrena con un objetivo de emparejamiento de flujo (flow matching) para reconstruir el fotograma fuente correspondiente. Este objetivo de consistencia cíclica fuerza al modelo a preservar la estructura, el movimiento y las regiones no editadas de la fuente a lo largo de cientos de fotogramas, incluso sin supervisión emparejada.

La pérdida de ciclo inverso complementa el entrenamiento largo en streaming al estilo LongLive con destilación de emparejamiento de distribución (DMD), que ya enseña el despliegue causal. Los experimentos muestran que la regularización elimina la deriva y el parpadeo, manteniendo la consistencia de apariencia a lo largo de secuencias de minutos.

Image 4: Streaming Long Training and Cycle-Reverse Regularization

Codiseño eficiente de sistema: kernels fusionados y cuantización de precisión mixta

Para alcanzar los objetivos de rendimiento en GPUs de consumo, SANA-Streaming aplica dos optimizaciones conscientes del hardware. En primer lugar, un kernel GDN fusionado implementado en Triton particiona la dimensión espacial y mantiene el estado recurrente compacto en SRAM, logrando una aceleración de 1.5 a 2.2 veces sobre una implementación ingenua en PyTorch en distintas arquitecturas de GPU.

En segundo lugar, se realiza una búsqueda de política de cuantización de precisión mixta (MPQ) para la arquitectura NVIDIA Blackwell. En lugar de asignar una precisión uniforme, la búsqueda evalúa la sensibilidad por capa y por bloque. Las capas robustas, como las proyecciones de consulta/clave de atención y los componentes FFN temporales, pueden degradarse de forma segura a NVFP4, mientras que las capas sensibles (incrustación de parches, proyección de salida) se mantienen en BF16 o FP8.

La política de precisión mixta resultante reduce la latencia del DiT en 1.59 veces con respecto a la línea base BF16, con una pérdida de calidad insignificante. Combinadas con el kernel GDN, estas optimizaciones a nivel de sistema permiten alcanzar 24 FPS de extremo a extremo en una sola RTX 5090.

Image 6: Per-layer quantization policy search

Tubería de datos para entrenamiento de streaming de alta calidad

Entrenar un editor de video en tiempo real requiere datos a gran escala y de alta calidad. SANA-Streaming construye una tubería que genera tanto pares de edición de videos cortos como instrucciones de edición para videos largos.

Para clips cortos, un proceso guiado por taxonomía genera instrucciones de edición diversas, y un editor de imágenes modifica el primer fotograma como ancla visual. Luego, un generador de video controlable produce el video editado, condicionado por la fuente, el primer fotograma editado y una secuencia de poses extraída para preservar el movimiento. Un modelo de lenguaje-visión (VLM) verifica cada muestra en cuanto a alineación con la instrucción, consistencia y calidad visual.

Para videos largos, un VLM genera instrucciones de edición hacia adelante y hacia atrás a partir de fotogramas ancla de los videos fuente. Estas sirven para el entrenamiento largo en streaming y la regularización de ciclo inverso sin necesidad de videos editados emparejados. Esta tubería garantiza ediciones que preservan el movimiento y siguen las instrucciones, formando la base para la fidelidad del modelo y la estabilidad en streaming.

Image 8: Data Pipeline

Resultados experimentales: velocidad en tiempo real y calidad de edición

SANA-Streaming se evaluó en las categorías de edición alineada por píxeles de OpenVE‑Bench. El modelo bidireccional sin destilar logra una puntuación media de vanguardia de 2.62 con solo 2B de parámetros, superando a métodos de mayor tamaño como VACE y OpenVE‑Edit.

La versión de streaming destilada por pasos mantiene una calidad competitiva (2.42) mientras se ejecuta a 24 FPS de extremo a extremo en una sola RTX 5090 — más de 100× más rápido que los modelos de vanguardia previos. Los estudios de ablación confirman que la regularización inversa cíclica mejora la estabilidad temporal, y que el kernel GDN fusionado junto con la cuantización de precisión mixta proporcionan conjuntamente una aceleración de 1.59× en el DiT. El decodificador VAE causal, destilado a partir de un maestro bidireccional, recupera detalles nítidos e iguala la fidelidad del maestro.

Estos resultados validan el enfoque de codiseño, demostrando que la edición de video con ia en tiempo real de alta resolución es ahora alcanzable en hardware de consumo.

Image 9: Qualitative comparison

Conclusión y impacto general

SANA-Streaming demuestra que la edición de video de alta resolución y de varios minutos de duración puede ejecutarse en tiempo real en una GPU de consumo al unir innovación arquitectónica, estrategias de entrenamiento y diseño de sistemas consciente del hardware. El transformer híbrido, la regularización inversa cíclica y los kernels eficientes superan colectivamente los cuellos de botella de latencia, memoria y escasez de datos.

Las limitaciones incluyen la sensibilidad a instrucciones ambiguas y la persistente escasez de datos de edición largos y diversos. El sistema incorpora salvaguardas como el cribado de entrada, controles en tiempo de generación y monitoreo de salida para mitigar el posible uso indebido, incluidos los deepfakes. Este trabajo establece una base práctica para la edición de video interactiva y destaca cómo el codiseño puede acelerar la IA generativa hacia su implementación en el mundo real.

Project page ArXiv paper