home›Audio›

Come Funziona MOSS-SoundEffect v2.0: Generazione Audio di Nuova Generazione

Scopri le innovazioni tecniche di MOSS-SoundEffect v2.0, il modello text-to-audio basato su Diffusion Transformer e Flow Matching per sintesi sonora ad alta fedeltà.

27 maggio 2026

#Addestramento #Generazione Contenuti #LLM #Open Source #Python

Esplora MOSS-SoundEffect v2.0, un modello text-to-audio all'avanguardia che utilizza un Diffusion Transformer e Flow Matching per generare effetti sonori realistici a 48 kHz. Impara come funziona, le sue caratteristiche principali e le impostazioni consigliate per una sintesi sonora flessibile e di alta qualità.

Una Nuova Generazione di Sintesi di Effetti Sonori

MOSS-SoundEffect v2.0 è il modello text-to-audio della famiglia MOSS-TTS. A differenza del backbone autoregressivo a token discreti della v1, la v2.0 impiega un Diffusion Transformer (DiT) a latente continuo addestrato con un obiettivo di Flow Matching. Genera audio ad alta fedeltà a 48 kHz a partire da descrizioni in linguaggio naturale.

L’ampia copertura include ambienti naturali e urbani, animali, azioni umane e brevi clip percussive. La durata in uscita è controllabile fino a 30 secondi, grazie a un tag di durata anteposto durante l’addestramento. Il modello supporta prompt sia in inglese sia in cinese, risultando versatile per applicazioni multilingue. Questa release segna un notevole balzo in avanti nella qualità e nella flessibilità della generazione sonora.

Diffusion Transformer con Flow Matching

Il cuore di MOSS-SoundEffect v2.0 è un Diffusion Transformer da 1,3 miliardi di parametri che opera in uno spazio latente compresso fornito da un DAC VAE. Un Qwen3 text encoder converte il prompt in linguaggio naturale in un embedding di condizionamento.

L’addestramento segue il paradigma del Flow Matching, in cui il modello impara a invertire un processo di corruzione a tempo continuo, mappando il rumore gaussiano alle rappresentazioni latenti target. Rispetto al modello autoregressivo v1 che generava token audio discreti, questo approccio a latente continuo consente transizioni più fluide e naturali e una migliore struttura a lungo termine. Per controllare la durata dell’output, durante l’addestramento viene anteposto al prompt un tag numerico di durata (fino a 30 s), permettendo una generazione flessibile senza alterare l’architettura del modello.

Variante del Modello e Impostazioni Consigliate

MOSS-SoundEffect v2.0 è disponibile come un unico Diffusion Transformer da 1,3 miliardi di parametri. Le tabelle seguenti riportano i dettagli del modello e le impostazioni suggerite per una generazione ottimale.

Modello	Architettura	Variante DiT	Parametri
MOSS-SoundEffect-V2.0	DiT + Flow Matching	1.3B	1.3B

Parametro	Default	Descrizione
`num_inference_steps`	100	Numero di passi del risolutore flow-match.
`cfg_scale`	4.0	Peso della guida senza classificatore.
`sigma_shift`	5.0	Spostamento dello scheduler flow-match applicato a ogni chiamata.
`seconds`	10.0	Durata in uscita.
Fino a 30.

Configurazione Rapida

Per iniziare a usare MOSS-SoundEffect v2.0, creare un ambiente Python 3.12 isolato e installare le dipendenze necessarie. I comandi seguenti configurano un ambiente conda, clonano il repository e installano il pacchetto completo con supporto PyTorch CUDA 12.8. È disponibile anche un’installazione minima solo per l’inferenza.

conda create -n moss-soundeffect-v2 python=3.12 -y
conda activate moss-soundeffect-v2
git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS/moss_soundeffect_v2

# Full install with fine-tuning support
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-cu128,finetune]"

# Alternatively, inference-only install (still includes Gradio demo)
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-cu128]"

Utilizzo di Base

La pipeline può essere caricata e utilizzata con poche righe di Python. La prima chiamata potrebbe richiedere diversi minuti a causa del riscaldamento di torch.compile e del Triton CUDA Graph. Per evitare problemi di compilazione, impostare TORCHDYNAMO_DISABLE=1 se necessario.

import torch
from moss_soundeffect_v2 import MossSoundEffectPipeline

pipe = MossSoundEffectPipeline.from_pretrained(
    "OpenMOSS-Team/MOSS-SoundEffect-v2.0",
    torch_dtype=torch.bfloat16,
    device="cuda",
)

audio = pipe(
    prompt="A dog barking loudly in a park.",
    seconds=10,
    num_inference_steps=100,
    cfg_scale=4.0,
)  # (B, C, T) waveform tensor

pipe.save_audio(audio, "out.wav")

Note importanti

Se riscontri errori TorchDynamo o Triton durante la prima chiamata di inferenza, disabilita dynamo impostando TORCHDYNAMO_DISABLE=1 prima di avviare Python. Nell'installazione per la sola inferenza è inclusa una demo Gradio. Per ricette di fine tuning e altri esempi, consulta il README su GitHub.

Project page GitHub ArXiv paper