Audio

Un marco latente de flujo de coincidencia para audio y voz, integrando múltiples tareas en un solo modelo.

UNISON: Generación y Edición Unificada de Sonido con Fusión de LLM Profundo

UNISON es un marco unificado de flujo de coincidencia latente para la generación y edición de audio y voz. Utilizando un único conjunto de pesos, integra texto a audio, texto a voz, clonación de hablantes, generación de escenas mixtas y edición de audio/voz en un solo modelo y arquitectura.

Descubre la nueva generación de síntesis de efectos de sonido con Diffusion Transformer y Flow Matching para audio de alta fidelidad.

¿Cómo funciona MOSS-SoundEffect v2.0?

Explora MOSS-SoundEffect v2.0, el modelo de texto a audio que revoluciona la generación de efectos de sonido. Aprende sobre su arquitectura Diffusion Transformer, el uso de Flow Matching, y cómo genera audio de 48 kHz controlable en duración y multilingüe.