Come Funziona Nemotron-3-Ultra-550B-A55B-BF16

Scopri l'architettura ibrida LatentMoE di NVIDIA per il ragionamento avanzato e l'analisi di contesto lungo.

5 giugno 2026

#Addestramento #Agenti #Generazione Contenuti #LLM #Open Source

Nemotron-3-Ultra-550B-A55B-BF16 è un LLM all'avanguardia di NVIDIA, ottimizzato per agenti complessi, analisi di contesto lungo e ragionamento ad alta precisione. Utilizza un'architettura ibrida LatentMoE con Mamba-2, MoE e Attention, integrando Multi-Token Prediction per prestazioni superiori. Supporta 10 lingue e licenza OpenMDW.

Introduzione a NVIDIA Nemotron-3-Ultra 550B-A55B

Rilasciato il 4 giugno 2026, il NVIDIA Nemotron-3-Ultra 550B-A55B-BF16 è un LLM di frontiera progettato per i carichi di lavoro più esigenti di ragionamento, utilizzo agentico e contesti lunghi. Presenta 550 miliardi di parametri totali, ma solo 55 miliardi sono attivi grazie all'architettura LatentMoE.

Il modello supporta fino a 1 milione di token di contesto e funziona con inglese, francese, spagnolo, tedesco, italiano, giapponese, coreano, hindi, portoghese e cinese. Una modalità di pensiero integrata può essere attivata tramite il template di chat. Progettato per agenti IA, RAG e compiti analitici ad alto rischio, è disponibile sotto licenza OpenMDW 1.1 sia per uso commerciale che di ricerca.

Ibrido LatentMoE e Predizione Multi‑Token

Il modello Ultra combina Mamba‑2, mistura di esperti e strati di attenzione selettiva in un ibrido MoE latente. I token vengono proiettati in uno spazio latente più piccolo per l'instradamento degli esperti, migliorando l'accuratezza per byte.

Gli strati di Predizione Multi‑Token (MTP) condividono i pesi tra le teste di previsione, il che aumenta la qualità del segnale di addestramento e permette un'inferenza più rapida tramite la decodifica speculativa nativa. Durante il pre-addestramento, NVIDIA ha utilizzato una ricetta NVFP4 — la maggior parte degli strati lineari memorizza pesi, attivazioni e gradienti in virgola mobile a 4 bit, mentre le proiezioni critiche per la stabilità (latenti, MTP, attenzioni, embedding) rimangono in BF16 o MXFP8. Questo design bilanciato offre efficienza da frontiera senza sacrificare l'accuratezza.

Pipeline di Addestramento a Quattro Fasi

L'addestramento si è articolato in quattro fasi:

Pre-addestramento su circa 20T token di dati crawlatli e sintetici con la ricetta NVFP4.
Supervised fine‑tuning su dati di matematica, codice, chiamate di strumenti e recupero a lungo raggio.
Apprendimento per rinforzo utilizzando GRPO asincrono su matematica, codice, scienza e uso di strumenti multi-turno; MTP ha accelerato la generazione dei rollout.
Distillazione Multi‑Dominio On‑Policy (MOPD) — i modelli insegnanti guidano l'apprendimento sui rollout propri del modello, allineando il comportamento con ciò che produrrà effettivamente al momento dell'inferenza.

Il cutoff dei dati di pre-addestramento è settembre 2025; i dati di post-addestramento sono aggiornati fino a maggio 2026. Tutti i dataset e il codice dell'ambiente (Megatron‑LM, NeMo RL, NeMo Gym, Data Designer) sono open‑source.

Punti Salienti dei Benchmark

Nemotron‑3‑Ultra compete ai vertici della classifica LLM. Eccelle nella codifica agentica, nella matematica di alto livello e nel recupero a contesti estremamente lunghi.

Benchmark	Nemotron‑3‑Ultra	Qwen‑3.5 397B	DS‑v4‑Pro
SWE‑Bench Verified	71,9	69,9	74,0
LiveCodeBench (v6)	89,0	79,3	92,5
GPQA (no tools)	87,0	87,1	87,8
MMLU‑Pro	86,8	88,3	87,5
RULER (1M token)	94,7	90,1	94,2
MMLU‑ProX (media 10 lingue)	83,0	86,4	85,6

I risultati completi e i dettagli dell'harness di valutazione sono disponibili nel report tecnico.

Avvio Rapido per il Deployment

Il checkpoint BF16 è un modello grande. Per l'inferenza su nodo singolo, si consigliano 8× GPU B200 (≈1,5 TB HBM). Configurazioni multi-nodo possono utilizzare cluster H100/H200/GB200/GB300 orchestrati con Ray v2. Tutte le configurazioni abilitano il prefill a blocchi e la decodifica speculativa basata su MTP (5 token di bozza). Di seguito sono riportati gli script di lancio di base.

# Set the IP for the head node in RAY_HEAD_IP
export RAY_HEAD_IP=
export RAY_PORT=6379
export RAY_ADDRESS=${RAY_HEAD_IP}:${RAY_PORT}

# Start Ray head node (vLLM/SGLang will run on this node)
ray start --head --node-ip-address=${RAY_HEAD_IP} --port=${RAY_PORT}

# Start Ray worker node(s)
ray start --address=${RAY_HEAD_IP}:${RAY_PORT} --block

# Verify Ray cluster is ready
ray status --address=${RAY_HEAD_IP}:${RAY_PORT}

export MODEL_CKPT=PATH/TO/MODEL/CHECKPOINT

docker run -d --name nemotron-ultra-vllm \
--gpus all \
--ipc=host \
--network=host \
--shm-size=16g \
--ulimit memlock=-1 \
--ulimit stack=67108864 \
-v $MODEL_CKPT:/model:ro \
-e VLLM_WORKER_MULTIPROC_METHOD=spawn \
-e SAFETENSORS_FAST_GPU=1 \
-e NVIDIA_TF32_OVERRIDE=1 \
-e VLLM_LOGGING_LEVEL=INFO \
vllm/vllm-openai:v0.22.0 \
/model \
--host 0.0.0.0 \
--port 8000 \
--served-model-name