home›LLMs›

Nemotron-3-Ultra-550B: Arquitectura LatentMoE de NVIDIA para IA de Frontera

Descubre el LLM de 550B parámetros con Mamba-2 y MoE, optimizado para razonamiento, agentes y análisis de contexto largo.

5 de junio de 2026

#Agentes #Código Abierto #Entrenamiento #Generación de Contenido #LLM

Nemotron-3-Ultra-550B-A55B-BF16 es un LLM de NVIDIA de 550B parámetros con arquitectura LatentMoE (Mamba-2 + MoE + Atención). Diseñado para razonamiento avanzado, flujos de trabajo de agentes complejos y análisis de contexto largo, soporta múltiples idiomas y es ideal para aplicaciones de IA de alto rendimiento.

Presentamos NVIDIA Nemotron-3-Ultra 550B-A55B

Lanzado el 4 de junio de 2026, el NVIDIA Nemotron-3-Ultra 550B-A55B-BF16 es un LLM de escala frontera diseñado para las cargas de trabajo más exigentes de razonamiento, agentes y contexto largo. Cuenta con 550 mil millones de parámetros totales, pero solo 55 mil millones están activos gracias a su arquitectura LatentMoE.

El modelo admite hasta 1 millón de tokens de contexto y funciona en inglés, francés, español, alemán, italiano, japonés, coreano, hindi, portugués y chino. Un modo de pensamiento incorporado se puede activar mediante la plantilla de chat. Diseñado para agentes de IA, RAG y tareas analíticas de alto riesgo, está disponible bajo la licencia OpenMDW 1.1 tanto para uso comercial como de investigación.

Híbrido LatentMoE y Predicción Multi‑Token

El modelo Ultra combina Mamba‑2, mezcla de expertos y capas de atención selectiva en un híbrido latent MoE. Los tokens se proyectan en un espacio latente más pequeño para el enrutamiento de expertos, lo que mejora la precisión por byte.

Las capas de Predicción Multi‑Token (MTP) comparten pesos entre cabezas de predicción, lo que mejora la calidad de la señal de entrenamiento y permite una inferencia más rápida mediante decodificación especulativa nativa. Durante el preentrenamiento, NVIDIA utilizó una receta NVFP4: la mayoría de las capas lineales almacenan pesos, activaciones y gradientes en punto flotante de 4 bits, mientras que las proyecciones críticas para la estabilidad (latente, MTP, atención, embeddings) permanecen en BF16 o MXFP8. Este diseño equilibrado ofrece eficiencia de frontera sin sacrificar la precisión.

Proceso de Entrenamiento en Cuatro Etapas

El entrenamiento se desarrolló en cuatro pasos:

Preentrenamiento con ~20 billones de tokens de datos rastreados y sintéticos usando la receta NVFP4.
fine‑tuning supervisado en datos de matemáticas, código, llamada a herramientas y recuperación de largo alcance.
Aprendizaje por refuerzo usando GRPO asíncrono en matemáticas, código, ciencias y uso de herramientas en múltiples turnos; MTP aceleró la generación de despliegues.
Destilación Multidominio On‑Policy (MOPD): los modelos maestros guían el aprendizaje en los propios despliegues del modelo, alineando el comportamiento con lo que realmente producirá en el momento de la inferencia.

El corte de datos de preentrenamiento es septiembre de 2025; los datos post‑entrenamiento están actualizados hasta mayo de 2026. Todos los conjuntos de datos y el código del entorno (Megatron‑LM, NeMo RL, NeMo Gym, Data Designer) son de código abierto.

Resultados Destacados en Benchmarks

Nemotron‑3‑Ultra compite en lo más alto de la tabla de clasificación de LLM. Sobresale en codificación agentiva, matemáticas de alto nivel y recuperación de contexto extremadamente largo.

Benchmark	Nemotron‑3‑Ultra	Qwen‑3.5 397B	DS‑v4‑Pro
SWE‑Bench Verified	71.9	69.9	74.0
LiveCodeBench (v6)	89.0	79.3	92.5
GPQA (no tools)	87.0	87.1	87.8
MMLU‑Pro	86.8	88.3	87.5
RULER (1M tokens)	94.7	90.1	94.2
MMLU‑ProX (10‑lang avg)	83.0	86.4	85.6

Los resultados completos y los detalles del marco de evaluación están disponibles en el informe técnico.

Inicio Rápido de Despliegue

El checkpoint BF16 es un modelo grande. Para inferencia en un solo nodo, se recomiendan 8 GPUs B200 (≈1.5 TB HBM). Las configuraciones multinodo pueden usar clústeres H100/H200/GB200/GB300 orquestados con Ray v2. Todas las configuraciones habilitan prefill fragmentado y decodificación especulativa basada en MTP (5 tokens de borrador). A continuación se muestran los scripts de lanzamiento básicos.

# Set the IP for the head node in RAY_HEAD_IP
export RAY_HEAD_IP=
export RAY_PORT=6379
export RAY_ADDRESS=${RAY_HEAD_IP}:${RAY_PORT}

# Start Ray head node (vLLM/SGLang will run on this node)
ray start --head --node-ip-address=${RAY_HEAD_IP} --port=${RAY_PORT}

# Start Ray worker node(s)
ray start --address=${RAY_HEAD_IP}:${RAY_PORT} --block

# Verify Ray cluster is ready
ray status --address=${RAY_HEAD_IP}:${RAY_PORT}

export MODEL_CKPT=PATH/TO/MODEL/CHECKPOINT

docker run -d --name nemotron-ultra-vllm \
--gpus all \
--ipc=host \
--network=host \
--shm-size=16g \
--ulimit memlock=-1 \
--ulimit stack=67108864 \
-v $MODEL_CKPT:/model:ro \
-e VLLM_WORKER_MULTIPROC_METHOD=spawn \
-e SAFETENSORS_FAST_GPU=1 \
-e NVIDIA_TF32_OVERRIDE=1 \
-e VLLM_LOGGING_LEVEL=INFO \
vllm/vllm-openai:v0.22.0 \
/model \
--host 0.0.0.0 \
--port 8000 \
--served-model-name