Tailored news hub
homeVideo

SANA-WM: modelo mundial abierto para video de un minuto

Un transformador de difusión bidireccional de 2.6B parámetros genera video 720p con control de cámara 6-DoF

SANA-WM: modelo mundial abierto para video de un minuto
#Académico#Código Abierto#Entrenamiento#Generación de Contenido

SANA-WM es un modelo mundial eficiente y de código abierto entrenado para generar videos de un minuto. Con 2.6B parámetros, ofrece control preciso de cámara, atención híbrida lineal y un pipeline de dos etapas para alta fidelidad. Funciona en menos de 8 GB VRAM y es 36 veces más rápido que modelos previos.

Introducción

SANA-WM es un modelo de mundo (world model) open-source eficiente entrenado de forma nativa para generar contenido de un minuto. El checkpoint bidireccional aquí publicado es un transformador de difusión de imagen a video de 2.6B parámetros que sintetiza videos de 720p y escala de minutos con control preciso de cámara de 6 grados de libertad (6-DoF), junto con el refinador LTX-2 sink-bidirectional Euler para una decodificación de alta fidelidad.

Diseños Centrales de la Arquitectura

Cuatro diseños centrales impulsan la arquitectura:

  1. Atención Lineal Híbrida — Gated DeltaNet por fotograma combinado con atención softmax en cada N-ésimo bloque para un modelado de contexto largo eficiente en memoria.
  2. Control de Cámara de Doble Rama — ramas principal y de cámara independientes permiten una adherencia precisa a la trayectoria por fotograma.
  3. Pipeline de Generación en Dos Etapas — un refinador de video largo superpuesto sobre los latentes de la Etapa 1 mejora la calidad y la consistencia temporal.
  4. Pipeline de Anotación Robusta — poses de cámara de 6-DoF a escala métrica extraídas de corpus de video públicos generan una supervisión de acción espaciotemporalmente consistente.
@article{zhu2026sanawm,
title = {{SANA-WM}: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer},
author = {Zhu, Haoyi and Liu, Haozhe and Zhao, Yuyang and Ye, Tian and Chen, Junsong and Yu, Jincheng and He, Tong and Han, Song and Xie, Enze},
journal = {arXiv preprint arXiv:2605.15178},
year = {2026},
}

Estructura del Repositorio

ComponenteRuta en el repositorioTamaño
Sana DiT (Etapa 1)dit/sana_wm_1600m_720p.safetensors10 GB
LTX-2 VAE (diffusers)vae/2 GB
Refinador LTX-2 (Etapa 2)refiner/refiner.safetensors41 GB
Codificador de texto Gemma para el refinadorrefiner/text_encoder/46 GB
Configuración de inferenciaconfig.yaml

El codificador de texto de Sana (gemma-2-2b-it) no está incluido aquí — se obtiene bajo demanda desde el espejo público de Hugging Face.

python inference_video_scripts/inference_sana_wm.py \
--image asset/sana_wm/demo_0.png \
--prompt asset/sana_wm/demo_0.txt \
--action "w-80,jw-40,w-40,lw-60,w-100" \
--translation_speed 0.055 \
--rotation_speed_deg 1.2 \
--num_frames 321 \
--output_dir results/demo

Detalles de Uso

Los pesos se obtienen de este repositorio en el primer uso. Pase --no_refiner para omitir el refinador LTX-2 y decodificar los latentes de la Etapa 1 con el VAE de Sana. Para ejecutar completamente sin conexión, sobrescriba cualquiera de --config / --model_path / --refiner_checkpoint / --refiner_gemma_root con rutas locales.

El tamaño fijo del fotograma de salida es 704 x 1280; las imágenes de entrada se redimensionan preservando la relación de aspecto y se recortan centradas a esa resolución.

Entradas

ArgumentoFormato
--imageImagen RGB (cualquier formato legible por PIL) — se usa como el primer fotograma.
--promptArchivo de texto UTF-8 que contiene el prompt de condicionamiento.
--cameraNumPy .npy de forma (F, 4, 4) — matrices de cámara a mundo por fotograma.
--actionDSL WASD/IJKL, ej. "w-80,jw-40,w-40,lw-60,w-100". Lo expandimos a una trayectoria (F+1, 4, 4). Mutuamente excluyente con --camera.
--intrinsicsOpcional. .npy de forma (3, 3), (F, 3, 3) o (4,). Si se omite, estimamos las intrínsecas desde --image con Pi3X y abortamos si el FOV resultante está fuera de [25°, 120°].

Comentarios de la comunidad

Los informes en redes sociales destacan las siguientes características y rendimiento observados por los usuarios:

  • Funciona con menos de 8 GB de VRAM.
  • Una versión destilada elimina el ruido de un clip de 60 segundos en 720p en 34 segundos en una RTX 5090.
  • Se informa que es 36 veces más rápido que los modelos abiertos anteriores.
  • Entrenado con aproximadamente 213K videos públicos durante 15 días en 64 GPU H100.
  • Compatible con los complementos ComfyUI y Diffusers.
  • Licenciado bajo Apache 2.0.
  • Un usuario informó haber recibido solo un video normal (posible problema de calidad o corrección).
Artículos Relacionados