home›Addestramento›

SANA-Streaming: Editing Video in Tempo Reale con Transformer a Diffusione Ibrido

Un framework co-progettato per l'editing video in streaming ad alta risoluzione su GPU consumer, ottimizzato per consistenza temporale e throughput.

6 giugno 2026

#Accademico #Addestramento #Contesto #Generazione Contenuti #Memoria

SANA-Streaming è un framework co-progettato per l'editing video in tempo reale su GPU consumer. Utilizza un transformer a diffusione ibrido e una regolarizzazione ciclo-inversa per garantire consistenza temporale e throughput elevato, raggiungendo 24 FPS a 1280x704 su una singola RTX 5090.

Montaggio video in streaming in tempo reale su GPU consumer

Le applicazioni interattive come il live broadcasting e il gaming richiedono un montaggio video in tempo reale che offra sia coerenza temporale che un'elevata velocità di elaborazione su hardware limitato. I precedenti modelli di montaggio video si basano spesso sull'attenzione softmax completa, che diventa proibitiva in termini di memoria per flussi lunghi, mentre le varianti con attenzione puramente lineare introducono artefatti visibili ai confini dei chunk.

SANA-Streaming affronta queste sfide attraverso un co-design sistema-algoritmo che combina un transformer a diffusione ibrido, una regolarizzazione ciclo-inversa e ottimizzazioni hardware-aware per l'architettura NVIDIA Blackwell. In esecuzione su una singola GPU RTX 5090, monta video a risoluzione 1280×704 a 24 fotogrammi end‑to‑end al secondo, con il nucleo DiT che raggiunge i 58 FPS. Questo lavoro dimostra che un attento co-design può sbloccare il montaggio video in tempo reale su hardware consumer.

Image 1: Panoramica di SANA-Streaming

Transformer a diffusione ibrido per la coerenza nello streaming

Il cuore di SANA-Streaming è un transformer a diffusione ibrido che alterna due meccanismi di attenzione. La maggior parte dei blocchi utilizza l'attenzione lineare Gated DeltaNet (GDN), che comprime la cronologia dello streaming in uno stato ricorrente di dimensione fissa aggiornato fotogramma per fotogramma. Ciò fornisce una memoria globale compatta la cui dimensione è indipendente dalla lunghezza del video, prevenendo l'esplosione di memoria dell'attenzione softmax completa.

Una minoranza di blocchi utilizza l'attenzione softmax con una finestra locale scorrevole e un chunk sink persistente. Questi blocchi ripristinano la corrispondenza locale a grana fine, essenziale per preservare i dettagli della sorgente attraverso i confini dei chunk. Durante l'inferenza, ogni blocco GDN mantiene in cache solo gli stati ricorrenti terminali, mentre i blocchi softmax prestano attenzione a un contesto ristretto e vincolato.

Insieme, il design ibrido elimina gli artefatti di sfarfallio dell'attenzione puramente lineare, mantenendo costante la memoria. Rispetto a una variante completamente softmax, utilizza solo 5,56 GB di VRAM ed è 3,7× più veloce, rendendo fattibile il montaggio in streaming ad alta risoluzione su una GPU consumer.

Image 2: Transformer a diffusione ibrido per lo streaming

Regolarizzazione Ciclo-Inversa: apprendere la coerenza da dati non accoppiati

Il montaggio video della durata di minuti richiede una stabilità temporale a lungo raggio, ma i video lunghi montati e accoppiati sono estremamente rari. SANA-Streaming introduce la Regolarizzazione Ciclo-Inversa, una strategia di addestramento che richiede solo lunghi video sorgente.

Il passaggio in avanti esegue il montaggio in streaming secondo un'istruzione data. Il chunk risultante viene poi utilizzato come condizione visiva per un montaggio inverso, guidato da un prompt inverso (ad esempio, "ripristina la scena originale"). Il ramo inverso è addestrato con un obiettivo di flow‑matching per ricostruire il fotogramma sorgente corrispondente. Questo obiettivo di coerenza ciclica costringe il modello a preservare la struttura, il movimento e le regioni non modificate della sorgente attraverso centinaia di fotogrammi, anche senza supervisione accoppiata.

La loss ciclo-inversa integra l'esistente addestramento lungo in streaming in stile LongLive con la distillatione a corrispondenza della distribuzione (DMD), che già insegna il rollout causale. Gli esperimenti mostrano che la regolarizzazione elimina derive e sfarfallii, mantenendo la coerenza dell'aspetto su sequenze della durata di minuti.

Image 4: Addestramento Lungo in Streaming e Regolarizzazione Ciclo-Inversa

Co-design di sistema efficiente: kernel fusi e quantizzazione a precisione mista

Per raggiungere gli obiettivi di velocità sulle GPU consumer, SANA-Streaming applica due ottimizzazioni hardware-aware. In primo luogo, un kernel GDN fuso implementato in Triton partiziona la dimensione spaziale e mantiene lo stato ricorrente compatto nella SRAM, ottenendo un'accelerazione di 1,5–2,2× rispetto a un'implementazione naïve in PyTorch su varie architetture GPU.

In secondo luogo, viene eseguita una ricerca di policy di quantizzazione a precisione mista (MPQ) per l'architettura NVIDIA Blackwell. Invece di assegnare una precisione uniforme, la ricerca valuta la sensibilità per-layer e per-blocco. I layer robusti come le proiezioni query/key dell'attenzione e i componenti FFN temporali possono essere declassati in sicurezza a NVFP4, mentre i layer sensibili (incorporamento di patch, proiezione di output) rimangono in BF16 o FP8.

La policy a precisione mista risultante produce una riduzione della latenza del DiT di 1,59× rispetto alla baseline BF16, con una perdita di qualità trascurabile. Combinati con il kernel GDN, questi miglioramenti a livello di sistema consentono 24 FPS end‑to‑end su una singola RTX 5090.

Image 6: Ricerca della policy di quantizzazione per-layer

Pipeline di dati per un addestramento in streaming di alta qualità

Addestrare un editor video in tempo reale richiede dati su larga scala e di alta qualità. SANA-Streaming costruisce una pipeline che crea sia coppie di montaggio per video brevi che istruzioni di montaggio per video lunghi.

Per le clip brevi, un processo guidato da tassonomia genera diverse istruzioni di modifica e un editor di immagini modifica il primo fotogramma come ancoraggio visivo. Un generatore video controllabile produce poi il video modificato, condizionato dalla sorgente, dal primo fotogramma modificato e da una sequenza di posa estratta per preservare il movimento. Un modello di visione-linguaggio (VLM) verifica ogni campione per l'allineamento delle istruzioni, la coerenza e la qualità visiva.

Per i video lunghi, un VLM genera prompt di montaggio in avanti e all'indietro dai fotogrammi di ancoraggio dei video sorgente. Questi servono per l'addestramento lungo in streaming e la regolarizzazione ciclo-inversa senza bisogno di video modificati accoppiati. Questa pipeline garantisce modifiche che preservano il movimento e seguono le istruzioni, costituendo la base per la fedeltà e la stabilità in streaming del modello.

Image 8: Pipeline di Dati

Risultati Sperimentali: Velocità in Tempo Reale e Qualità dell'Editing

SANA-Streaming è stato valutato sulle categorie di editing con allineamento a livello di pixel di OpenVE‑Bench. Il modello bidirezionale non distillato raggiunge un punteggio medio allo stato dell'arte di 2,62 con soli 2 miliardi di parametri, superando metodi più grandi come VACE e OpenVE‑Edit.

La versione streaming distillata a step mantiene una qualità competitiva (2,42) eseguendo a 24 FPS end-to-end su una singola RTX 5090—oltre 100× più veloce rispetto ai precedenti modelli allo stato dell'arte. Gli studi di ablazione confermano che la regolarizzazione cycle‑reverse migliora la stabilità temporale e che il kernel GDN fuso insieme alla quantizzazione a precisione mista forniscono un'accelerazione DiT di 1,59×. Il decoder VAE causale, distillato da un insegnante bidirezionale, recupera dettagli nitidi e corrisponde alla fedeltà dell'insegnante.

Questi risultati confermano l'approccio di co‑design, dimostrando che l'editing video in tempo reale basato su IA ad alta risoluzione è oggi realizzabile su hardware consumer.

Immagine 9: Confronto qualitativo

Conclusione e Impatto Più Ampio

SANA-Streaming dimostra che l'editing video di diversi minuti e ad alta risoluzione può essere eseguito in tempo reale su una GPU consumer unendo innovazione architetturale, strategie di addestramento e progettazione di sistema consapevole dell'hardware. Il transformer ibrido, la regolarizzazione cycle‑reverse e kernel efficienti superano collettivamente i colli di bottiglia legati a latenza, memoria e scarsità di dati.

Tra le limitazioni figurano la sensibilità alle istruzioni ambigue e la persistente carenza di dati diversificati per l'editing di lunga durata. Il sistema incorpora salvaguardie come lo screening degli input, controlli in fase di generazione e monitoraggio dell'output per mitigare potenziali usi impropri, inclusi i deepfake. Questo lavoro stabilisce una base pratica per l'editing video interattivo e sottolinea come il co‑design possa accelerare l'IA generativa verso l'implementazione nel mondo reale.

Project page ArXiv paper