Tailored news hub
homeVideo

SANA-WM: Modello mondiale bidirezionale per video di un minuto

Modello open-source da 2.6B parametri per video 720p di 60 secondi con controllo camera, 36x più veloce di modelli precedenti

SANA-WM: Modello mondiale bidirezionale per video di un minuto
#Accademico#Addestramento#Generazione Contenuti#Open Source

SANA-WM è un world model bidirezionale open-source che genera video 720p di un minuto con controllo 6-DoF. Basato su un diffusion transformer ibrido lineare, è addestrato su 213K video pubblici e funziona su meno di 8 GB VRAM. Include un raffinatore LTX-2 per decodifica ad alta fedeltà.

Introduzione

SANA-WM è un efficiente world model open-source addestrato nativamente per la generazione di video di un minuto. Il checkpoint bidirezionale qui rilasciato è un transformer di diffusione da immagine a video con 2,6 miliardi di parametri che sintetizza video di qualità 720p della durata di un minuto con un controllo preciso della telecamera a 6 gradi di libertà, abbinato al refiner LTX-2 sink-bidirectional Euler per una decodifica ad alta fedeltà.

Progettazione dell'Architettura Principale

Quattro elementi chiave guidano l'architettura:

  1. Attenzione Lineare Ibrida — Gated DeltaNet per frame combinato con attenzione softmax ogni N-esimo blocco per una modellazione di contesti lunghi efficiente in termini di memoria.
  2. Controllo della Telecamera a Doppio Ramo — rami principale e della telecamera indipendenti consentono un'aderenza precisa alla traiettoria per ogni fotogramma.
  3. Pipeline di Generazione a Due Stadi — un refiner per video lunghi applicato ai latenti dello Stadio 1 migliora la qualità e la coerenza temporale.
  4. Pipeline di Annotazione Robusta — pose della telecamera a 6 gradi di libertà in scala metrica estratte da corpora video pubblici forniscono una supervisione dell'azione spaziotemporalmente coerente.
@article{zhu2026sanawm,
title = {{SANA-WM}: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer},
author = {Zhu, Haoyi and Liu, Haozhe and Zhao, Yuyang and Ye, Tian and Chen, Junsong and Yu, Jincheng and He, Tong and Han, Song and Xie, Enze},
journal = {arXiv preprint arXiv:2605.15178},
year = {2026},
}

Struttura del Repository

ComponentePercorso nel repoDimensione
Sana DiT (Stadio 1)dit/sana_wm_1600m_720p.safetensors10 GB
LTX-2 VAE (diffusers)vae/2 GB
Refiner LTX-2 (Stadio 2)refiner/refiner.safetensors41 GB
Codificatore di testo Gemma per il refinerrefiner/text_encoder/46 GB
Configurazione per inferenzaconfig.yaml

Il codificatore di testo Sana (gemma-2-2b-it) non è incluso qui — viene scaricato su richiesta dal mirror pubblico di Hugging Face.

python inference_video_scripts/inference_sana_wm.py \
--image asset/sana_wm/demo_0.png \
--prompt asset/sana_wm/demo_0.txt \
--action "w-80,jw-40,w-40,lw-60,w-100" \
--translation_speed 0.055 \
--rotation_speed_deg 1.2 \
--num_frames 321 \
--output_dir results/demo

Dettagli di Utilizzo

I pesi vengono scaricati da questo repository al primo utilizzo. Usa --no_refiner per saltare il refiner LTX-2 e decodificare i latenti dello Stadio 1 con il Sana VAE. Per eseguire tutto offline, sovrascrivi uno qualsiasi di --config / --model_path / --refiner_checkpoint / --refiner_gemma_root con percorsi locali.

La dimensione del fotogramma di output è fissa a 704 x 1280; le immagini di input vengono ridimensionate mantenendo le proporzioni e ritagliate centralmente a quella risoluzione.

Input

ArgomentoFormato
--imageImmagine RGB (qualsiasi formato leggibile da PIL) — utilizzata come primo fotogramma.
--promptFile di testo UTF-8 contenente il prompt di condizionamento.
--cameraNumPy .npy di forma (F, 4, 4) — matrici camera-mondo per ogni fotogramma.
--actionDSL WASD/IJKL, ad esempio "w-80,jw-40,w-40,lw-60,w-100". Lo sviluppiamo in una traiettoria di forma (F+1, 4, 4). Mutuamente esclusivo con --camera.
--intrinsicsOpzionale. .npy di forma (3, 3), (F, 3, 3) o (4,). Se omesso, stimiamo le intrinseche da --image con Pi3X e interrompiamo se il FOV risultante è al di fuori di [25°, 120°].

Feedback Sociale

I report sui social media evidenziano le seguenti caratteristiche e prestazioni osservate dagli utenti:

  • Funziona con meno di 8 GB di VRAM.
  • Una versione distillata denoisa un clip di 60 secondi a 720p in 34 secondi su una RTX 5090.
  • Segnalata come 36 volte più veloce rispetto ai modelli open più vecchi.
  • Addestrata su circa 213.000 video pubblici per 15 giorni su 64 GPU H100.
  • Compatibile con i plugin ComfyUI e Diffusers.
  • Con licenza Apache 2.0.
  • Un utente ha segnalato di aver ricevuto solo un output video normale (potenziale problema di qualità o correttezza).
Articoli Correlati