Modelli Video
Contenuto segnaposto per i Modelli Video.

SwiftVR: Restauro Video Generativo in Tempo Reale su GPU Consumer
SwiftVR è un framework di restauro video generativo one-step per lo streaming live, ottimizzato per GPU consumer. Affronta i colli di bottiglia dell'attenzione spaziale e degli autoencoder con un'architettura innovativa, raggiungendo 26 FPS a 1080p su RTX 5090 e 14 FPS a 4K su H100.

Come NAVA genera video e audio sincronizzati da un singolo prompt
NAVA è un generatore audio-video con 6.3B parametri che sintetizza video e audio sincronizzati da un singolo prompt, inclusi discorsi multilingue con controllo del timbro di riferimento. Utilizza un'architettura Align-then-Fuse MMDiT per una corrispondenza audio-video nativa.

Ti hanno mentito: la vera svolta dell’AI video non è la generazione
La generazione video è solo la parte facile. La vera prova è l’editing nativo senza re‑rendering, attraverso la conversazione. Gemini Omni ridefinisce il campo, ma il costo in token e i limiti di coerenza tracciano un confine netto tra sperimentazione e produzione.

SANA-WM: Modello mondiale bidirezionale per video di un minuto
SANA-WM è un world model bidirezionale open-source che genera video 720p di un minuto con controllo 6-DoF. Basato su un diffusion transformer ibrido lineare, è addestrato su 213K video pubblici e funziona su meno di 8 GB VRAM. Include un raffinatore LTX-2 per decodifica ad alta fedeltà .

LongLive-2.0: Infrastruttura Parallela NVFP4 per Video Lunghi
LongLive-2.0 presenta un'infrastruttura parallela basata su NVFP4 per l'intero flusso di addestramento e inferenza nella generazione di video lunghi. Include addestramento AR con parallelismo di sequenza bilanciato (Balanced SP) e quantizzazione NVFP4 per ridurre memoria e accelerare GEMM. Per l'inferenza su GPU Blackwell, supporta W4A4 e cache KV quantizzata, oltre a decodifica VAE asincrona. Raggiunge speedup fino a 2.15x in addestramento e 1.84x in inferenza, con 45.7 FPS per il modello 5B.