home›Addestramento›

dots.tts: Un Modello Fondamentale di Sintesi Vocale Autoregressivo Continuo da 2 Miliardi di Parametri

Innovazioni in AudioVAE, condizionamento full-history e post-training autocorrettivo per prestazioni all'avanguardia nella generazione vocale multilingue.

10 giugno 2026

#Addestramento #Fine Tuning #LLM #Open Source #Python

Presentiamo dots.tts, un modello fondamentale di sintesi vocale autoregressivo continuo da 2B-parametri. Con innovazioni in AudioVAE, condizionamento full-history e post-training autocorrettivo, raggiunge prestazioni medie eccellenti su Seed-TTS-Eval e offre stabilità, clonazione vocale ed espressività emotiva. Include anche distillazione MeanFlow per inferenza a bassa latenza.

Un Modello Fondamentale TTS Autoregressivo Completamente Continuo

Questo articolo presenta dots.tts, un sistema text-to-speech (TTS) da 2 miliardi di parametri che opera interamente in uno spazio latente continuo, eliminando la necessità di token acustici discreti. Il lavoro affronta un problema centrale nella generazione autoregressiva continua: l'accumulo di errori su lunghe sequenze. Senza il buffer di quantizzazione fornito dai codec discreti, piccoli errori di predizione si accumulano nel tempo, degradando la qualità. Gli autori affrontano questo problema con tre innovazioni complementari.

In primo luogo, addestrano un AudioVAE semanticamente strutturato utilizzando obiettivi multipli, inclusa una loss di allineamento WavLM, rendendo lo spazio latente sia ad alta fedeltà che apprendibile per il modello a valle. In secondo luogo, scompongono la generazione in un encoder semantico, una backbone basata su modello linguistico e una testa di flow-matching autoregressiva a contesto completo, mantenendo separati il ragionamento semantico e la resa acustica. In terzo luogo, applicano un post-addestramento auto-correttivo senza reward alla testa di flow-matching, insegnandole a recuperare dai propri errori in fase di inferenza. Il risultato è un modello che raggiunge stabilità e qualità di clonazione vocale allo stato dell'arte, preservando l'espressività consentita dai latenti continui.

Architettura: Disaccoppiare Semantica e Acustica

La backbone di dots.tts è composta da tre moduli specializzati. Un encoder semantico comprime ogni patch latente del VAE generata a 25 Hz in un embedding a 6.25 Hz, eliminando i dettagli acustici ad alta varianza prima di reimmetterlo nel modello linguistico. Questa restrizione è critica: l'LLM vede solo un riassunto semantico compatto della storia, non il latente grezzo, il che impedisce agli errori acustici di destabilizzare l'avanzamento autoregressivo.

Panoramica della backbone di dots.tts

La backbone LLM, inizializzata da Qwen2.5-1.5B, consuma token di testo BPE intervallati da questi embedding audio-semantici. I suoi stati nascosti condizionano una testa di flow-matching autoregressiva—un Diffusion Transformer (DiT) che genera la successiva patch latente del VAE di quattro frame. La testa utilizza una maschera di attenzione block-causal durante l'addestramento che riproduce esattamente il contesto per passo visto all'inferenza, consentendo un addestramento parallelo su tutte le patch mantenendo una rigorosa causalità. Un embedding del parlante estratto da un encoder CAM++ congelato viene iniettato tramite modulazione adaLN-zero, e la guida classifier-free è applicata congiuntamente su contenuto testuale e timbro.

Costruire uno Spazio Latente Continuo Apprendibile

L'AudioVAE è addestrato in due fasi su audio a 48 kHz. La Fase 1 mira alla qualità di ricostruzione utilizzando una loss avversaria e multi-scala mel-spettrale in stile BigVGAN-v2, regolarizzata da un prior KL e di flusso. L'encoder è completamente causale e utilizza blocchi residui convoluzionali con stride per ottenere un downsampling temporale di 1920×, producendo un flusso latente a 128 dimensioni a 25 Hz.

La Fase 2 mira all'apprendibilità. Un latente fortemente compresso può ricostruire bene ma conserva una tale variazione acustica che un LLM a valle fatica a usarlo come obiettivo di generazione. Gli autori aggiungono una loss di allineamento coseno a livello di frame contro un teacher WavLM congelato e un blocco multitask a valle addestrato congiuntamente su classificazione ASR, emozione e parlante. Questo rende lo spazio semanticamente strutturato senza sacrificare la ricostruzione. Il VAE risultante raggiunge un WER del 4.14% e un SIM di 0.969 su LibriSpeech test-other, collocandosi nella fascia alta delle rappresentazioni continue e ben al di sopra dei codec discreti, garantendo che la ricostruzione non sia un collo di bottiglia a valle.

Allineamento Auto-Correttivo e Distillazione MeanFlow

Il post-addestramento procede in due fasi, entrambe aggiornando solo il generatore acustico DiT. La prima fase adatta il framework SOAR (Self-corrective alignment) alla testa di flow-matching autoregressiva. Per ogni campione di addestramento, il modello esegue un rollout di Eulero a un passo, distaccato, usando la propria predizione guidata da CFG, creando uno stato fuori traiettoria che simula gli errori in fase di inferenza. Impara poi a riportare questi stati verso l'endpoint latente pulito. Questo processo senza reward affronta direttamente il disallineamento ODE multi-passo tra pre-addestramento e inferenza, dove piccoli errori di velocità si accumulano attraverso le patch.

La seconda fase applica la distillazione MeanFlow consapevole del CFG. Un teacher auto-corretto congelato genera traiettorie con guida classifier-free, e un DiT studente è addestrato a predire la velocità media su intervalli di lunghezza variabile con un singolo passaggio forward condizionato. Poiché il CFG è fuso nell'obiettivo di distillazione, lo studente evita le valutazioni condizionate e incondizionate separate richieste dal CFG standard. All'inferenza, lo studente necessita solo di 2–4 valutazioni di funzione per patch, consentendo una generazione a bassa latenza preservando il comportamento corretto del teacher.

Clonazione Vocale Zero-Shot allo Stato dell'Arte

Su Seed-TTS-Eval, il benchmark primario per la clonazione vocale zero-shot, dots.tts raggiunge la migliore prestazione media. Il modello auto-corretto (SOAR) raggiunge un WER del 2.95% e un SIM di 79.2, superando il miglior baseline successivo di 1.4 punti SIM. La variante distillata con MeanFlow a NFE=4 mantiene il WER entro 0.01 da SOAR al costo di circa un punto SIM.

Modello	test-en WER↓ / SIM↑	test-zh WER↓ / SIM↑	test-zh-hard WER↓ / SIM↑	Media WER↓ / SIM↑
dots.tts (SOAR)	1.30 / 77.1	0.94 / 81.0	6.60 / 79.5	2.95 / 79.2
dots.tts (MF, NFE=4)	1.29 / 76.2	0.94 / 80.0	6.60 / 78.5	2.94 / 78.2
CosyVoice 3	2.22 / 72.0	1.12 / 78.1	5.83 / 75.8	3.06 / 75.3
Seed-TTS	2.25 / 76.2	1.12 / 79.6	7.59 / 77.6	3.65 / 77.8

Sul benchmark multilingue a 24 lingue MiniMax, dots.tts (SOAR) guida la similarità media del parlante a 83.9, conquistando il primato SIM per lingua su 19 delle 24 lingue. Il quadro del WER è misto, con alcuni outlier su lingue a basse risorse che alzano la media—una limitazione attribuita a una copertura insufficiente dei token BPE per lingue con scrittura divergente.

Espressività e Capacità Multilingue

Su EmergentTTS-Eval, che utilizza un giudice audio Gemini-2.5-Pro per confronti testa a testa contro gpt-4o-mini-tts, dots.tts (Pretrain) guida il panorama open-source con un tasso di vittoria complessivo del 49,2%. Ottiene il miglior punteggio open-source su Emotions (72,7%) e il punteggio più alto in Syntactic Complexity fra tutti i sistemi — aperti e chiusi — con il 65,7%. La fase SOAR migliora la fedeltà testuale su enunciati sintatticamente complessi di 7,3 punti, ma sacrifica parte dell'espressività emotiva.

Nel sottoinsieme di clonazione vocale multilingue di CV3-Eval, dots.tts (SOAR) guida il SIM in entrambe le direzioni: 75,0 per inglese→cinese e 72,8 per cinese→inglese, 6–8 punti sopra CosyVoice 3. Ciò dimostra un forte disentanglement timbrico, una capacità critica per preservare l'identità del parlante attraverso le lingue. La variante distillata con MeanFlow eredita questi guadagni, con MF 4 che ottiene il miglior WER per l'inglese difficile al 4,37%.

Streaming in Tempo Reale e Distribuzione

Il modello è progettato fin dall'inizio per un'inferenza causale a bassa latenza. Un layout di sequenza interleaved 1T1A alterna singoli token di testo BPE con passi audio a 6,25 Hz, consentendo a un LLM conversazionale a monte di pilotare la sintesi al proprio tasso di emissione del testo. Il parlato può iniziare entro un singolo token di testo generato, senza dover bufferizzare un intero enunciato.

Combinando la distillazione MeanFlow consapevole del CFG a NFE=4, il sistema raggiunge una latenza del primo pacchetto di 85 ms con RTF 0,231 in modalità plain e di 54 ms con RTF 0,245 in modalità streaming interleaved su una singola GPU NVIDIA H800. L'LLM viene eseguito su vLLM con batch continuo e attenzione paged-KV, mentre l'head AR-FM e l'encoder semantico sono compilati JIT. Questo profilo di efficienza rende dots.tts adatto per implementazioni conversazionali in tempo reale. Il codice completo di addestramento e inferenza, insieme ai checkpoint pre-addestrati, post-addestrati e distillati, viene rilasciato con licenza Apache 2.0.

Project page GitHub ArXiv paper