SANA-WM: modelo mundial abierto para video de un minuto

Un transformador de difusión bidireccional de 2.6B parámetros genera video 720p con control de cámara 6-DoF

24 de mayo de 2026

#Académico #Código Abierto #Entrenamiento #Generación de Contenido

SANA-WM es un modelo mundial eficiente y de código abierto entrenado para generar videos de un minuto. Con 2.6B parámetros, ofrece control preciso de cámara, atención híbrida lineal y un pipeline de dos etapas para alta fidelidad. Funciona en menos de 8 GB VRAM y es 36 veces más rápido que modelos previos.

Introducción

SANA-WM es un modelo de mundo (world model) open-source eficiente entrenado de forma nativa para generar contenido de un minuto. El checkpoint bidireccional aquí publicado es un transformador de difusión de imagen a video de 2.6B parámetros que sintetiza videos de 720p y escala de minutos con control preciso de cámara de 6 grados de libertad (6-DoF), junto con el refinador LTX-2 sink-bidirectional Euler para una decodificación de alta fidelidad.

Diseños Centrales de la Arquitectura

Cuatro diseños centrales impulsan la arquitectura:

Atención Lineal Híbrida — Gated DeltaNet por fotograma combinado con atención softmax en cada N-ésimo bloque para un modelado de contexto largo eficiente en memoria.
Control de Cámara de Doble Rama — ramas principal y de cámara independientes permiten una adherencia precisa a la trayectoria por fotograma.
Pipeline de Generación en Dos Etapas — un refinador de video largo superpuesto sobre los latentes de la Etapa 1 mejora la calidad y la consistencia temporal.
Pipeline de Anotación Robusta — poses de cámara de 6-DoF a escala métrica extraídas de corpus de video públicos generan una supervisión de acción espaciotemporalmente consistente.

@article{zhu2026sanawm,
title = {{SANA-WM}: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer},
author = {Zhu, Haoyi and Liu, Haozhe and Zhao, Yuyang and Ye, Tian and Chen, Junsong and Yu, Jincheng and He, Tong and Han, Song and Xie, Enze},
journal = {arXiv preprint arXiv:2605.15178},
year = {2026},
}

Estructura del Repositorio

Componente	Ruta en el repositorio	Tamaño
Sana DiT (Etapa 1)	`dit/sana_wm_1600m_720p.safetensors`	10 GB
LTX-2 VAE (diffusers)	`vae/`	2 GB
Refinador LTX-2 (Etapa 2)	`refiner/refiner.safetensors`	41 GB
Codificador de texto Gemma para el refinador	`refiner/text_encoder/`	46 GB
Configuración de inferencia	`config.yaml`	—

El codificador de texto de Sana (gemma-2-2b-it) no está incluido aquí — se obtiene bajo demanda desde el espejo público de Hugging Face.

python inference_video_scripts/inference_sana_wm.py \
--image asset/sana_wm/demo_0.png \
--prompt asset/sana_wm/demo_0.txt \
--action "w-80,jw-40,w-40,lw-60,w-100" \
--translation_speed 0.055 \
--rotation_speed_deg 1.2 \
--num_frames 321 \
--output_dir results/demo

Detalles de Uso

Los pesos se obtienen de este repositorio en el primer uso. Pase --no_refiner para omitir el refinador LTX-2 y decodificar los latentes de la Etapa 1 con el VAE de Sana. Para ejecutar completamente sin conexión, sobrescriba cualquiera de --config / --model_path / --refiner_checkpoint / --refiner_gemma_root con rutas locales.

El tamaño fijo del fotograma de salida es 704 x 1280; las imágenes de entrada se redimensionan preservando la relación de aspecto y se recortan centradas a esa resolución.

Entradas

Argumento	Formato
`--image`	Imagen RGB (cualquier formato legible por PIL) — se usa como el primer fotograma.
`--prompt`	Archivo de texto UTF-8 que contiene el prompt de condicionamiento.
`--camera`	NumPy `.npy` de forma `(F, 4, 4)` — matrices de cámara a mundo por fotograma.
`--action`	DSL WASD/IJKL, ej. `"w-80,jw-40,w-40,lw-60,w-100"`. Lo expandimos a una trayectoria `(F+1, 4, 4)`. Mutuamente excluyente con `--camera`.
`--intrinsics`	Opcional. `.npy` de forma `(3, 3)`, `(F, 3, 3)` o `(4,)`. Si se omite, estimamos las intrínsecas desde `--image` con Pi3X y abortamos si el FOV resultante está fuera de `[25°, 120°]`.

Comentarios de la comunidad

Los informes en redes sociales destacan las siguientes características y rendimiento observados por los usuarios:

Funciona con menos de 8 GB de VRAM.
Una versión destilada elimina el ruido de un clip de 60 segundos en 720p en 34 segundos en una RTX 5090.
Se informa que es 36 veces más rápido que los modelos abiertos anteriores.
Entrenado con aproximadamente 213K videos públicos durante 15 días en 64 GPU H100.
Compatible con los complementos ComfyUI y Diffusers.
Licenciado bajo Apache 2.0.
Un usuario informó haber recibido solo un video normal (posible problema de calidad o corrección).