Introducción
SANA-WM es un modelo de mundo (world model) open-source eficiente entrenado de forma nativa para generar contenido de un minuto. El checkpoint bidireccional aquí publicado es un transformador de difusión de imagen a video de 2.6B parámetros que sintetiza videos de 720p y escala de minutos con control preciso de cámara de 6 grados de libertad (6-DoF), junto con el refinador LTX-2 sink-bidirectional Euler para una decodificación de alta fidelidad.
Diseños Centrales de la Arquitectura
Cuatro diseños centrales impulsan la arquitectura:
- Atención Lineal Híbrida — Gated DeltaNet por fotograma combinado con atención softmax en cada N-ésimo bloque para un modelado de contexto largo eficiente en memoria.
- Control de Cámara de Doble Rama — ramas principal y de cámara independientes permiten una adherencia precisa a la trayectoria por fotograma.
- Pipeline de Generación en Dos Etapas — un refinador de video largo superpuesto sobre los latentes de la Etapa 1 mejora la calidad y la consistencia temporal.
- Pipeline de Anotación Robusta — poses de cámara de 6-DoF a escala métrica extraídas de corpus de video públicos generan una supervisión de acción espaciotemporalmente consistente.
@article{zhu2026sanawm, title = {{SANA-WM}: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer}, author = {Zhu, Haoyi and Liu, Haozhe and Zhao, Yuyang and Ye, Tian and Chen, Junsong and Yu, Jincheng and He, Tong and Han, Song and Xie, Enze}, journal = {arXiv preprint arXiv:2605.15178}, year = {2026}, }
Estructura del Repositorio
| Componente | Ruta en el repositorio | Tamaño |
|---|---|---|
| Sana DiT (Etapa 1) | dit/sana_wm_1600m_720p.safetensors | 10 GB |
| LTX-2 VAE (diffusers) | vae/ | 2 GB |
| Refinador LTX-2 (Etapa 2) | refiner/refiner.safetensors | 41 GB |
| Codificador de texto Gemma para el refinador | refiner/text_encoder/ | 46 GB |
| Configuración de inferencia | config.yaml | — |
El codificador de texto de Sana (gemma-2-2b-it) no está incluido aquí — se obtiene bajo demanda desde el espejo público de Hugging Face.
python inference_video_scripts/inference_sana_wm.py \ --image asset/sana_wm/demo_0.png \ --prompt asset/sana_wm/demo_0.txt \ --action "w-80,jw-40,w-40,lw-60,w-100" \ --translation_speed 0.055 \ --rotation_speed_deg 1.2 \ --num_frames 321 \ --output_dir results/demo
Detalles de Uso
Los pesos se obtienen de este repositorio en el primer uso. Pase --no_refiner para omitir el refinador LTX-2 y decodificar los latentes de la Etapa 1 con el VAE de Sana. Para ejecutar completamente sin conexión, sobrescriba cualquiera de --config / --model_path / --refiner_checkpoint / --refiner_gemma_root con rutas locales.
El tamaño fijo del fotograma de salida es 704 x 1280; las imágenes de entrada se redimensionan preservando la relación de aspecto y se recortan centradas a esa resolución.
Entradas
| Argumento | Formato |
|---|---|
--image | Imagen RGB (cualquier formato legible por PIL) — se usa como el primer fotograma. |
--prompt | Archivo de texto UTF-8 que contiene el prompt de condicionamiento. |
--camera | NumPy .npy de forma (F, 4, 4) — matrices de cámara a mundo por fotograma. |
--action | DSL WASD/IJKL, ej. "w-80,jw-40,w-40,lw-60,w-100". Lo expandimos a una trayectoria (F+1, 4, 4). Mutuamente excluyente con --camera. |
--intrinsics | Opcional. .npy de forma (3, 3), (F, 3, 3) o (4,). Si se omite, estimamos las intrínsecas desde --image con Pi3X y abortamos si el FOV resultante está fuera de [25°, 120°]. |
Comentarios de la comunidad
Los informes en redes sociales destacan las siguientes características y rendimiento observados por los usuarios:
- Funciona con menos de 8 GB de VRAM.
- Una versión destilada elimina el ruido de un clip de 60 segundos en 720p en 34 segundos en una RTX 5090.
- Se informa que es 36 veces más rápido que los modelos abiertos anteriores.
- Entrenado con aproximadamente 213K videos públicos durante 15 días en 64 GPU H100.
- Compatible con los complementos ComfyUI y Diffusers.
- Licenciado bajo Apache 2.0.
- Un usuario informó haber recibido solo un video normal (posible problema de calidad o corrección).



