home›Video›

SANA-WM: Modello mondiale bidirezionale per video di un minuto

Modello open-source da 2.6B parametri per video 720p di 60 secondi con controllo camera, 36x più veloce di modelli precedenti

24 maggio 2026

#Accademico #Addestramento #Generazione Contenuti #Open Source

SANA-WM è un world model bidirezionale open-source che genera video 720p di un minuto con controllo 6-DoF. Basato su un diffusion transformer ibrido lineare, è addestrato su 213K video pubblici e funziona su meno di 8 GB VRAM. Include un raffinatore LTX-2 per decodifica ad alta fedeltà.

Introduzione

SANA-WM è un efficiente world model open-source addestrato nativamente per la generazione di video di un minuto. Il checkpoint bidirezionale qui rilasciato è un transformer di diffusione da immagine a video con 2,6 miliardi di parametri che sintetizza video di qualità 720p della durata di un minuto con un controllo preciso della telecamera a 6 gradi di libertà, abbinato al refiner LTX-2 sink-bidirectional Euler per una decodifica ad alta fedeltà.

Progettazione dell'Architettura Principale

Quattro elementi chiave guidano l'architettura:

Attenzione Lineare Ibrida — Gated DeltaNet per frame combinato con attenzione softmax ogni N-esimo blocco per una modellazione di contesti lunghi efficiente in termini di memoria.
Controllo della Telecamera a Doppio Ramo — rami principale e della telecamera indipendenti consentono un'aderenza precisa alla traiettoria per ogni fotogramma.
Pipeline di Generazione a Due Stadi — un refiner per video lunghi applicato ai latenti dello Stadio 1 migliora la qualità e la coerenza temporale.
Pipeline di Annotazione Robusta — pose della telecamera a 6 gradi di libertà in scala metrica estratte da corpora video pubblici forniscono una supervisione dell'azione spaziotemporalmente coerente.

@article{zhu2026sanawm,
title = {{SANA-WM}: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer},
author = {Zhu, Haoyi and Liu, Haozhe and Zhao, Yuyang and Ye, Tian and Chen, Junsong and Yu, Jincheng and He, Tong and Han, Song and Xie, Enze},
journal = {arXiv preprint arXiv:2605.15178},
year = {2026},
}

Struttura del Repository

Componente	Percorso nel repo	Dimensione
Sana DiT (Stadio 1)	`dit/sana_wm_1600m_720p.safetensors`	10 GB
LTX-2 VAE (diffusers)	`vae/`	2 GB
Refiner LTX-2 (Stadio 2)	`refiner/refiner.safetensors`	41 GB
Codificatore di testo Gemma per il refiner	`refiner/text_encoder/`	46 GB
Configurazione per inferenza	`config.yaml`	—

Il codificatore di testo Sana (gemma-2-2b-it) non è incluso qui — viene scaricato su richiesta dal mirror pubblico di Hugging Face.

python inference_video_scripts/inference_sana_wm.py \
--image asset/sana_wm/demo_0.png \
--prompt asset/sana_wm/demo_0.txt \
--action "w-80,jw-40,w-40,lw-60,w-100" \
--translation_speed 0.055 \
--rotation_speed_deg 1.2 \
--num_frames 321 \
--output_dir results/demo

Dettagli di Utilizzo

I pesi vengono scaricati da questo repository al primo utilizzo. Usa --no_refiner per saltare il refiner LTX-2 e decodificare i latenti dello Stadio 1 con il Sana VAE. Per eseguire tutto offline, sovrascrivi uno qualsiasi di --config / --model_path / --refiner_checkpoint / --refiner_gemma_root con percorsi locali.

La dimensione del fotogramma di output è fissa a 704 x 1280; le immagini di input vengono ridimensionate mantenendo le proporzioni e ritagliate centralmente a quella risoluzione.

Input

Argomento	Formato
`--image`	Immagine RGB (qualsiasi formato leggibile da PIL) — utilizzata come primo fotogramma.
`--prompt`	File di testo UTF-8 contenente il prompt di condizionamento.
`--camera`	NumPy `.npy` di forma `(F, 4, 4)` — matrici camera-mondo per ogni fotogramma.
`--action`	DSL WASD/IJKL, ad esempio `"w-80,jw-40,w-40,lw-60,w-100"`. Lo sviluppiamo in una traiettoria di forma `(F+1, 4, 4)`. Mutuamente esclusivo con `--camera`.
`--intrinsics`	Opzionale. `.npy` di forma `(3, 3)`, `(F, 3, 3)` o `(4,)`. Se omesso, stimiamo le intrinseche da `--image` con Pi3X e interrompiamo se il FOV risultante è al di fuori di `[25°, 120°]`.

Feedback Sociale

I report sui social media evidenziano le seguenti caratteristiche e prestazioni osservate dagli utenti:

Funziona con meno di 8 GB di VRAM.
Una versione distillata denoisa un clip di 60 secondi a 720p in 34 secondi su una RTX 5090.
Segnalata come 36 volte più veloce rispetto ai modelli open più vecchi.
Addestrata su circa 213.000 video pubblici per 15 giorni su 64 GPU H100.
Compatibile con i plugin ComfyUI e Diffusers.
Con licenza Apache 2.0.
Un utente ha segnalato di aver ricevuto solo un output video normale (potenziale problema di qualità o correttezza).