Video

Un framework innovativo per lo streaming live che supera i limiti di memoria e latenza con attenzione a finestra e autoencoder leggeri.

SwiftVR: Restauro Video Generativo in Tempo Reale su GPU Consumer

SwiftVR è un framework di restauro video generativo one-step per lo streaming live, ottimizzato per GPU consumer. Affronta i colli di bottiglia dell'attenzione spaziale e degli autoencoder con un'architettura innovativa, raggiungendo 26 FPS a 1080p su RTX 5090 e 14 FPS a 4K su H100.

Scopri Align-then-Fuse MMDiT di Baidu, un generatore audio-video da 6.3B parametri per contenuti multimodali di alta qualità.

Come NAVA genera video e audio sincronizzati da un singolo prompt

NAVA è un generatore audio-video con 6.3B parametri che sintetizza video e audio sincronizzati da un singolo prompt, inclusi discorsi multilingue con controllo del timbro di riferimento. Utilizza un'architettura Align-then-Fuse MMDiT per una corrispondenza audio-video nativa.

L’editing nativo via conversazione separa i giocattoli dagli strumenti, e Gemini Omni ha appena superato il test che conta davvero.

Ti hanno mentito: la vera svolta dell’AI video non è la generazione

La generazione video è solo la parte facile. La vera prova è l’editing nativo senza re‑rendering, attraverso la conversazione. Gemini Omni ridefinisce il campo, ma il costo in token e i limiti di coerenza tracciano un confine netto tra sperimentazione e produzione.

Modello open-source da 2.6B parametri per video 720p di 60 secondi con controllo camera, 36x più veloce di modelli precedenti

SANA-WM: Modello mondiale bidirezionale per video di un minuto

SANA-WM è un world model bidirezionale open-source che genera video 720p di un minuto con controllo 6-DoF. Basato su un diffusion transformer ibrido lineare, è addestrato su 213K video pubblici e funziona su meno di 8 GB VRAM. Include un raffinatore LTX-2 per decodifica ad alta fedeltà.

Addestramento e inferenza efficienti per modelli di diffusione autoregressivi a lunghissimo termine con parallelismo di sequenza e quantizzazione a 4 bit

LongLive-2.0: Infrastruttura Parallela NVFP4 per Video Lunghi

LongLive-2.0 presenta un'infrastruttura parallela basata su NVFP4 per l'intero flusso di addestramento e inferenza nella generazione di video lunghi. Include addestramento AR con parallelismo di sequenza bilanciato (Balanced SP) e quantizzazione NVFP4 per ridurre memoria e accelerare GEMM. Per l'inferenza su GPU Blackwell, supporta W4A4 e cache KV quantizzata, oltre a decodifica VAE asincrona. Raggiunge speedup fino a 2.15x in addestramento e 1.84x in inferenza, con 45.7 FPS per il modello 5B.