Una Nuova Generazione di Sintesi di Effetti Sonori
MOSS-SoundEffect v2.0 è il modello text-to-audio della famiglia MOSS-TTS. A differenza del backbone autoregressivo a token discreti della v1, la v2.0 impiega un Diffusion Transformer (DiT) a latente continuo addestrato con un obiettivo di Flow Matching. Genera audio ad alta fedeltà a 48 kHz a partire da descrizioni in linguaggio naturale.
L’ampia copertura include ambienti naturali e urbani, animali, azioni umane e brevi clip percussive. La durata in uscita è controllabile fino a 30 secondi, grazie a un tag di durata anteposto durante l’addestramento. Il modello supporta prompt sia in inglese sia in cinese, risultando versatile per applicazioni multilingue. Questa release segna un notevole balzo in avanti nella qualità e nella flessibilità della generazione sonora.
Diffusion Transformer con Flow Matching
Il cuore di MOSS-SoundEffect v2.0 è un Diffusion Transformer da 1,3 miliardi di parametri che opera in uno spazio latente compresso fornito da un DAC VAE. Un Qwen3 text encoder converte il prompt in linguaggio naturale in un embedding di condizionamento.
L’addestramento segue il paradigma del Flow Matching, in cui il modello impara a invertire un processo di corruzione a tempo continuo, mappando il rumore gaussiano alle rappresentazioni latenti target. Rispetto al modello autoregressivo v1 che generava token audio discreti, questo approccio a latente continuo consente transizioni più fluide e naturali e una migliore struttura a lungo termine. Per controllare la durata dell’output, durante l’addestramento viene anteposto al prompt un tag numerico di durata (fino a 30 s), permettendo una generazione flessibile senza alterare l’architettura del modello.
Variante del Modello e Impostazioni Consigliate
MOSS-SoundEffect v2.0 è disponibile come un unico Diffusion Transformer da 1,3 miliardi di parametri. Le tabelle seguenti riportano i dettagli del modello e le impostazioni suggerite per una generazione ottimale.
| Modello | Architettura | Variante DiT | Parametri |
|---|---|---|---|
| MOSS-SoundEffect-V2.0 | DiT + Flow Matching | 1.3B | 1.3B |
| Parametro | Default | Descrizione |
|---|---|---|
num_inference_steps | 100 | Numero di passi del risolutore flow-match. |
cfg_scale | 4.0 | Peso della guida senza classificatore. |
sigma_shift | 5.0 | Spostamento dello scheduler flow-match applicato a ogni chiamata. |
seconds | 10.0 | Durata in uscita. |
| Fino a 30. |
Configurazione Rapida
Per iniziare a usare MOSS-SoundEffect v2.0, creare un ambiente Python 3.12 isolato e installare le dipendenze necessarie. I comandi seguenti configurano un ambiente conda, clonano il repository e installano il pacchetto completo con supporto PyTorch CUDA 12.8. È disponibile anche un’installazione minima solo per l’inferenza.
conda create -n moss-soundeffect-v2 python=3.12 -y conda activate moss-soundeffect-v2 git clone https://github.com/OpenMOSS/MOSS-TTS.git cd MOSS-TTS/moss_soundeffect_v2 # Full install with fine-tuning support pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-cu128,finetune]" # Alternatively, inference-only install (still includes Gradio demo) pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-cu128]"
Utilizzo di Base
La pipeline può essere caricata e utilizzata con poche righe di Python.
La prima chiamata potrebbe richiedere diversi minuti a causa del riscaldamento di torch.compile e del Triton CUDA Graph.
Per evitare problemi di compilazione, impostare TORCHDYNAMO_DISABLE=1 se necessario.
import torch from moss_soundeffect_v2 import MossSoundEffectPipeline pipe = MossSoundEffectPipeline.from_pretrained( "OpenMOSS-Team/MOSS-SoundEffect-v2.0", torch_dtype=torch.bfloat16, device="cuda", ) audio = pipe( prompt="A dog barking loudly in a park.", seconds=10, num_inference_steps=100, cfg_scale=4.0, ) # (B, C, T) waveform tensor pipe.save_audio(audio, "out.wav")
Note importanti
Se riscontri errori TorchDynamo o Triton durante la prima chiamata di inferenza, disabilita dynamo impostando TORCHDYNAMO_DISABLE=1 prima di avviare Python.
Nell'installazione per la sola inferenza è inclusa una demo Gradio.
Per ricette di fine tuning e altri esempi, consulta il README su GitHub.





