home›LLMs›

MiniCPM5-1B: Un Modelo de Lenguaje de 1B de Parámetros para Ejecución Local

Descubre cómo MiniCPM5-1B redefine la ejecución de modelos de lenguaje en dispositivos con recursos limitados, ofreciendo rendimiento de vanguardia y versatilidad.

27 de mayo de 2026

#Agentes #Ajuste Fino #Código Abierto #Herramientas Dev #LLM

Explora la arquitectura, variantes y los innovadores modos duales "Think / No Think" de MiniCPM5-1B. Aprende cómo este modelo de 1B de parámetros optimizado para entornos locales puede funcionar como asistente rápido y motor de razonamiento deliberativo, ideal para agentes de codificación y flujos de trabajo con herramientas.

Descripción general y arquitectura

MiniCPM5-1B es un modelo de lenguaje causal denso de 1B de parámetros diseñado para ejecución local en dispositivo y entornos con recursos limitados. Alcanza el rendimiento de código abierto más avanzado en la categoría de 1B. La arquitectura es una pila estándar LlamaForCausalLM, sin necesidad de kernels personalizados ni bifurcaciones de código.

Especificaciones clave:

Parámetros totales: 1 080 632 832 (679 552 512 sin incluir embeddings)
24 capas con Atención de consulta agrupada (16 cabezas de consulta, 2 cabezas de clave‑valor)
Ventana de contexto nativa: 131 072 tokens

Un único checkpoint alimenta tanto un asistente rápido como un razonador deliberativo mediante una plantilla de chat integrada que alterna entre los modos Think y No Think a través del indicador enable_thinking. Esto hace que el modelo sea directamente utilizable para asistentes locales, agentes de codificación, flujos de trabajo con llamadas a herramientas y tareas de razonamiento.

Variantes del modelo

La publicación ofrece cinco formatos para adaptarse a distintos entornos de ejecución:

Checkpoint final BF16 – post‑entrenado con RL y datos de preferencias en línea (recomendado)
Checkpoint solo SFT – después del fine‑tuning supervisado, antes del RL
Checkpoint base – solo pre‑entrenamiento
GGUF – formato cuantizado para llama.cpp, Ollama y LM Studio
MLX / 4‑bit – optimizado para Apple Silicon mediante MLX

Todas las variantes comparten el mismo modelo subyacente, por lo que puedes elegir la que mejor se adapte a tu hardware y flujo de trabajo.

Modos de chat dual Think / No Think

La plantilla de chat alterna entre dos modos de funcionamiento simplemente configurando el parámetro enable_thinking. No se necesita un checkpoint separado.

Modo	Muestreo recomendado	`enable_thinking`
Think	`temperature=0.9, top_p=0.95`	`True`
No Think	`temperature=0.7, top_p=0.95`	`False`

El modo Think activa la capacidad del modelo para el razonamiento paso a paso, adecuado para problemas complejos.
El modo No Think produce respuestas más rápidas y directas para tareas cotidianas de asistente.

Este diseño permite que el mismo modelo compacto funcione tanto como un asistente de chat rápido como un motor de razonamiento deliberativo.

pip install -U "transformers>=5.6" accelerate torch

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "openbmb/MiniCPM5-1B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [{"role": "user", "content": "Who are you? Please briefly introduce yourself."}]
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    enable_thinking=False,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))

Llamadas a herramientas

MiniCPM5-1B emite de forma nativa llamadas a herramientas en estilo XML. Para convertirlas en tool_calls estándar compatibles con OpenAI, el backend recomendado es SGLang con su analizador minicpm5 incorporado. Este enfoque no requiere parches adicionales en el modelo y ofrece una integración perfecta.

Inicia el servidor SGLang con el analizador de llamadas a herramientas habilitado y luego envía las solicitudes a través del endpoint estándar /v1/chat/completions.

python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000 \
--tool-call-parser minicpm5

Flexibilidad de despliegue y habilidades de agente

Dado que el modelo utiliza la arquitectura estándar LlamaForCausalLM, se carga directamente en los principales motores de inferencia sin kernels personalizados ni modificaciones de código. El proyecto proporciona guías de despliegue paso a paso para:

Transformers (inferencia local BF16/FP16, GPU y CPU)
vLLM (servidor compatible con OpenAI)
SGLang (recomendado para llamadas a herramientas)
llama.cpp (GGUF, híbrido CPU/GPU)

Además, las Habilidades de Agente están disponibles como recursos en GitHub, ofreciendo instrucciones adaptadas para usuarios que construyen agentes de codificación con herramientas como Cursor o Claude Code. En conjunto, estos recursos te permiten pasar rápidamente de la descarga del modelo a un asistente listo para producción, todo dentro de una huella compacta de 1B.

Project page GitHub ArXiv paper