Introduzione
SANA-WM è un efficiente world model open-source addestrato nativamente per la generazione di video di un minuto. Il checkpoint bidirezionale qui rilasciato è un transformer di diffusione da immagine a video con 2,6 miliardi di parametri che sintetizza video di qualità 720p della durata di un minuto con un controllo preciso della telecamera a 6 gradi di libertà, abbinato al refiner LTX-2 sink-bidirectional Euler per una decodifica ad alta fedeltà.
Progettazione dell'Architettura Principale
Quattro elementi chiave guidano l'architettura:
- Attenzione Lineare Ibrida — Gated DeltaNet per frame combinato con attenzione softmax ogni N-esimo blocco per una modellazione di contesti lunghi efficiente in termini di memoria.
- Controllo della Telecamera a Doppio Ramo — rami principale e della telecamera indipendenti consentono un'aderenza precisa alla traiettoria per ogni fotogramma.
- Pipeline di Generazione a Due Stadi — un refiner per video lunghi applicato ai latenti dello Stadio 1 migliora la qualità e la coerenza temporale.
- Pipeline di Annotazione Robusta — pose della telecamera a 6 gradi di libertà in scala metrica estratte da corpora video pubblici forniscono una supervisione dell'azione spaziotemporalmente coerente.
@article{zhu2026sanawm, title = {{SANA-WM}: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer}, author = {Zhu, Haoyi and Liu, Haozhe and Zhao, Yuyang and Ye, Tian and Chen, Junsong and Yu, Jincheng and He, Tong and Han, Song and Xie, Enze}, journal = {arXiv preprint arXiv:2605.15178}, year = {2026}, }
Struttura del Repository
| Componente | Percorso nel repo | Dimensione |
|---|---|---|
| Sana DiT (Stadio 1) | dit/sana_wm_1600m_720p.safetensors | 10 GB |
| LTX-2 VAE (diffusers) | vae/ | 2 GB |
| Refiner LTX-2 (Stadio 2) | refiner/refiner.safetensors | 41 GB |
| Codificatore di testo Gemma per il refiner | refiner/text_encoder/ | 46 GB |
| Configurazione per inferenza | config.yaml | — |
Il codificatore di testo Sana (gemma-2-2b-it) non è incluso qui — viene scaricato su richiesta dal mirror pubblico di Hugging Face.
python inference_video_scripts/inference_sana_wm.py \ --image asset/sana_wm/demo_0.png \ --prompt asset/sana_wm/demo_0.txt \ --action "w-80,jw-40,w-40,lw-60,w-100" \ --translation_speed 0.055 \ --rotation_speed_deg 1.2 \ --num_frames 321 \ --output_dir results/demo
Dettagli di Utilizzo
I pesi vengono scaricati da questo repository al primo utilizzo. Usa --no_refiner per saltare il refiner LTX-2 e decodificare i latenti dello Stadio 1 con il Sana VAE. Per eseguire tutto offline, sovrascrivi uno qualsiasi di --config / --model_path / --refiner_checkpoint / --refiner_gemma_root con percorsi locali.
La dimensione del fotogramma di output è fissa a 704 x 1280; le immagini di input vengono ridimensionate mantenendo le proporzioni e ritagliate centralmente a quella risoluzione.
Input
| Argomento | Formato |
|---|---|
--image | Immagine RGB (qualsiasi formato leggibile da PIL) — utilizzata come primo fotogramma. |
--prompt | File di testo UTF-8 contenente il prompt di condizionamento. |
--camera | NumPy .npy di forma (F, 4, 4) — matrici camera-mondo per ogni fotogramma. |
--action | DSL WASD/IJKL, ad esempio "w-80,jw-40,w-40,lw-60,w-100". Lo sviluppiamo in una traiettoria di forma (F+1, 4, 4). Mutuamente esclusivo con --camera. |
--intrinsics | Opzionale. .npy di forma (3, 3), (F, 3, 3) o (4,). Se omesso, stimiamo le intrinseche da --image con Pi3X e interrompiamo se il FOV risultante è al di fuori di [25°, 120°]. |
Feedback Sociale
I report sui social media evidenziano le seguenti caratteristiche e prestazioni osservate dagli utenti:
- Funziona con meno di 8 GB di VRAM.
- Una versione distillata denoisa un clip di 60 secondi a 720p in 34 secondi su una RTX 5090.
- Segnalata come 36 volte più veloce rispetto ai modelli open più vecchi.
- Addestrata su circa 213.000 video pubblici per 15 giorni su 64 GPU H100.
- Compatibile con i plugin ComfyUI e Diffusers.
- Con licenza Apache 2.0.
- Un utente ha segnalato di aver ricevuto solo un output video normale (potenziale problema di qualità o correttezza).



