home›Entrenamiento›

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros

Innovaciones en espacio latente continuo, condicionamiento de historial completo y post-entrenamiento autocorrector para una calidad de voz superior y eficiencia.

10 de junio de 2026

#Ajuste Fino #Código Abierto #Entrenamiento #LLM #Python

Presentamos dots.tts, un modelo de texto-a-voz autoregresivo continuo de 2B parámetros con un espacio latente continuo. Destaca por su AudioVAE multiobjetivo, condicionamiento de historial completo y post-entrenamiento autocorrector, logrando un rendimiento líder en Seed-TTS-Eval y benchmarks de código abierto.

Un modelo fundacional TTS autorregresivo totalmente continuo

Este artículo presenta dots.tts, un sistema de texto a voz (TTS) de 2 mil millones de parámetros que opera completamente en un espacio latente continuo, eliminando la necesidad de tokens acústicos discretos.
El trabajo aborda un problema central en la generación autorregresiva continua: la acumulación de errores a largo plazo.
Sin el búfer de cuantización que proporcionan los códecs discretos, los pequeños errores de predicción se acumulan a lo largo del tiempo, degradando la calidad.
Los autores lo afrontan con tres innovaciones complementarias.

En primer lugar, entrenan un AudioVAE con estructura semántica mediante múltiples objetivos, entre ellos una pérdida de alineamiento con WavLM, lo que hace que el espacio latente sea a la vez de alta fidelidad y aprendible para el modelo posterior.
En segundo lugar, descomponen la generación en un codificador semántico, una columna vertebral de modelo de lenguaje y un cabezal de flow matching autorregresivo con contexto completo, manteniendo separados el razonamiento semántico y la representación acústica.
En tercer lugar, aplican un post-entrenamiento autocorrectivo sin recompensa al cabezal de flow matching, enseñándole a recuperarse de sus propios errores en tiempo de inferencia.
El resultado es un modelo que alcanza una estabilidad y una calidad de clonación de voz de vanguardia, conservando la expresividad que ofrecen los latentes continuos.

Arquitectura: desacoplando semántica y acústica

El núcleo de dots.tts consta de tres módulos especializados.
Un codificador semántico comprime cada parche latente de 25 Hz generado por el VAE en una representación de 6,25 Hz, despojándolo de los detalles acústicos de alta varianza antes de realimentar al modelo de lenguaje.
Esta restricción es crucial: el LLM solo ve un resumen semántico compacto de la historia, no el latente crudo, lo que evita que los errores acústicos desestabilicen el despliegue autorregresivo.

Visión general del backbone de dots.tts

La columna vertebral del LLM, inicializada a partir de Qwen2.5-1.5B, consume tokens de texto BPE intercalados con estas representaciones semánticas de audio.
Sus estados ocultos condicionan un cabezal de flow matching autorregresivo —un Transformer de difusión (DiT) que genera el siguiente parche latente del VAE de cuatro tramas.
El cabezal utiliza una máscara de atención causal por bloques durante el entrenamiento que reproduce exactamente el contexto por paso visto en inferencia, lo que permite el entrenamiento paralelo en todos los parches manteniendo una causalidad estricta.
Una representación de hablante extraída por un codificador CAM++ congelado se inyecta mediante modulación adaLN-zero, y se aplica guía libre de clasificador de forma conjunta sobre el contenido textual y el timbre.

Construyendo un espacio latente continuo y aprendible

El AudioVAE se entrena en dos etapas con audio de 48 kHz.
La etapa 1 apunta a la calidad de reconstrucción utilizando una pérdida adversaria y de espectro mel multiescala al estilo BigVGAN-v2, regularizada por una prioridad KL y de flujo.
El codificador es completamente causal, usando bloques residuales convolucionales con zancada para lograr un submuestreo temporal de 1920×, produciendo un flujo latente de 128 dimensiones a 25 Hz.

La etapa 2 tiene como objetivo la aprendibilidad.
Un espacio latente fuertemente comprimido puede reconstruir bien pero retiene tanta variación acústica que a un LLM posterior le cuesta usarlo como objetivo de generación.
Los autores añaden una pérdida de alineamiento coseno a nivel de trama con un profesor WavLM congelado y un bloque multitarea posterior entrenado conjuntamente en clasificación de ASR, emoción y hablante.
Esto hace que el espacio sea semánticamente estructurado sin sacrificar la reconstrucción.
El VAE resultante alcanza un WER del 4,14 % y un SIM de 0,969 en LibriSpeech test-other, situándose en la banda superior de las representaciones continuas y muy por encima de los códecs discretos, lo que garantiza que la reconstrucción no sea un cuello de botella para el sistema posterior.

Alineamiento autocorrectivo y destilación MeanFlow

El post-entrenamiento se realiza en dos etapas, actualizando únicamente el generador acústico DiT.
La primera etapa adapta el marco SOAR (Self-corrective alignment) al cabezal de flow matching autorregresivo.
Para cada muestra de entrenamiento, el modelo realiza un despliegue Euler de un paso sin gradiente utilizando su propia predicción guiada por CFG, creando un estado fuera de trayectoria que simula errores en tiempo de inferencia.
Luego aprende a llevar esos estados de vuelta al punto final latente limpio.
Este proceso sin recompensa aborda directamente la discrepancia de ODE de múltiples pasos entre el preentrenamiento y la inferencia, donde pequeños errores de velocidad se acumulan a lo largo de los parches.

La segunda etapa aplica la destilación MeanFlow consciente de CFG.
Un profesor autocorregido congelado genera trayectorias con guía libre de clasificador, y un estudiante DiT se entrena para predecir la velocidad media en intervalos de longitud variable con un solo paso condicional hacia adelante.
Dado que la CFG se fusiona en el objetivo de destilación, el estudiante evita las evaluaciones condicional e incondicional separadas que requiere la CFG estándar.
En inferencia, el estudiante necesita solo de 2 a 4 evaluaciones de función por parche, lo que permite una generación de baja latencia conservando el comportamiento corregido del profesor.

Clonación de voz cero disparo de última generación

En Seed-TTS-Eval, la principal referencia de clonación de voz cero disparo, dots.tts logra el mejor rendimiento promedio.
El modelo autocorregido (SOAR) alcanza un WER del 2,95 % y un SIM de 79,2, superando al siguiente mejor modelo por 1,4 puntos de SIM.
La variante destilada con MeanFlow (NFE=4) mantiene el WER a 0,01 del SOAR a costa de aproximadamente un punto de SIM.

Modelo	test-en WER↓ / SIM↑	test-zh WER↓ / SIM↑	test-zh-hard WER↓ / SIM↑	Promedio WER↓ / SIM↑
dots.tts (SOAR)	1.30 / 77.1	0.94 / 81.0	6.60 / 79.5	2.95 / 79.2
dots.tts (MF, NFE=4)	1.29 / 76.2	0.94 / 80.0	6.60 / 78.5	2.94 / 78.2
CosyVoice 3	2.22 / 72.0	1.12 / 78.1	5.83 / 75.8	3.06 / 75.3
Seed-TTS	2.25 / 76.2	1.12 / 79.6	7.59 / 77.6	3.65 / 77.8

En la referencia multilingüe de 24 idiomas MiniMax, dots.tts (SOAR) lidera la similitud de hablante promedio con un 83,9, ocupando el primer puesto en SIM por idioma en 19 de los 24 idiomas.
El panorama del WER es heterogéneo, con algunos valores atípicos en idiomas de pocos recursos que elevan el promedio, una limitación atribuida a una cobertura insuficiente de tokens BPE para lenguas con escrituras divergentes.

Expresividad y capacidades multilingües

En EmergentTTS-Eval, que utiliza un juez de audio Gemini-2.5-Pro para comparaciones directas contra gpt-4o-mini-tts, dots.tts (Pretrain) lidera el campo de código abierto con una tasa de victoria general del 49.2%. Alcanza la puntuación más alta de código abierto en Emociones (72.7%) y la puntuación más alta de Complejidad Sintáctica en todos los sistemas —abiertos y cerrados— con un 65.7%. La etapa SOAR mejora la fidelidad del texto en enunciados sintácticamente complejos en 7.3 puntos, pero sacrifica algo de expresividad emocional.

En el subconjunto de clonación de voz multilingüe de CV3-Eval, dots.tts (SOAR) lidera la SIM en ambas direcciones: 75.0 para inglés→chino y 72.8 para chino→inglés, 6–8 puntos por encima de CosyVoice 3. Esto demuestra un fuerte desacoplamiento del timbre, una capacidad crítica para preservar la identidad del hablante a través de los idiomas. La variante destilada de MeanFlow hereda estas ganancias, con MF 4 tomando el liderato en WER de inglés difícil con un 4.37%.

Streaming en tiempo real y despliegue

El modelo está diseñado desde el principio para inferencia causal de baja latencia. Un diseño de secuencia intercalada 1T1A alterna tokens de texto BPE únicos con pasos de audio de 6.25 Hz, permitiendo que un LLM conversacional ascendente impulse la síntesis a su propia tasa de emisión de texto. El habla puede comenzar dentro de un solo token de texto de generación, sin almacenar en búfer un enunciado completo.

Combinado con la destilación MeanFlow consciente de CFG en NFE=4, el sistema logra una latencia del primer paquete de 85 ms con RTF 0.231 en modo simple y 54 ms con RTF 0.245 en modo de streaming intercalado en una sola GPU NVIDIA H800. El LLM se ejecuta en vLLM con agrupación continua y atención KV paginada, mientras que la cabeza AR-FM y el codificador semántico se compilan con JIT. Este perfil de eficiencia hace que dots.tts sea adecuado para el despliegue conversacional en tiempo real. El código completo de entrenamiento e inferencia, junto con los puntos de control preentrenados, post-entrenados y destilados, se publica bajo la licencia Apache 2.0.

Project page GitHub ArXiv paper