home›LLMs›

MiniCPM5-1B: Un Modello AI On-Device da 1B Parametri con Ragionamento Duale

Scopri le caratteristiche, le varianti e la rivoluzionaria modalità "Think/No Think" di MiniCPM5-1B per prestazioni AI all'avanguardia su dispositivi con risorse limitate.

27 maggio 2026

#Agenti #Fine Tuning #LLM #Open Source #Strumenti Dev

Esplora MiniCPM5-1B, il modello linguistico causale denso da 1B parametri ottimizzato per l'esecuzione on-device. Approfondisci la sua architettura LlamaForCausalLM, la finestra di contesto di 131.072 token e le varianti disponibili (BF16, SFT, GGUF, MLX). Impara come la modalità di chat "Think/No Think" abilita ragionamento complesso e risposte rapide con un unico checkpoint.

Panoramica e Architettura

MiniCPM5-1B è un modello linguistico causale denso da 1B parametri, progettato per l'esecuzione on‑device, in locale e in ambienti con risorse limitate. Raggiunge prestazioni open‑source all'avanguardia nella classe 1B. L'architettura è uno stack standard LlamaForCausalLM, che non richiede kernel personalizzati o fork di codice.

Specifiche principali:

Parametri totali: 1.080.632.832 (679.552.512 non‑embedding)
24 strati con Grouped Query Attention (16 testine query, 2 testine chiave‑valore)
Finestra di contesto nativa: 131.072 token

Un unico checkpoint alimenta sia un assistente veloce che un ragionatore deliberativo attraverso un template di chat integrato che alterna le modalità Think e No Think tramite il flag enable_thinking. Ciò rende il modello direttamente utilizzabile per assistenti locali, agenti di codifica, flussi di lavoro per chiamate a strumenti e compiti di ragionamento.

Varianti del Modello

La release fornisce cinque formati per adattarsi a diversi runtime:

Checkpoint finale BF16 – post‑addestrato con RL e dati di preferenza online (consigliato)
Checkpoint solo SFT – dopo il fine tuning supervisionato, prima del RL
Checkpoint base – solo pre‑addestramento
GGUF – formato quantizzato per llama.cpp, Ollama e LM Studio
MLX / 4‑bit – ottimizzato per Apple Silicon tramite MLX

Tutte le varianti condividono lo stesso modello sottostante, quindi puoi scegliere quella che meglio si adatta al tuo hardware e al tuo flusso di lavoro.

Modalità di Chat Doppia Think / No Think

Il template di chat commuta tra due modalità operative semplicemente impostando il parametro enable_thinking. Non è necessario alcun checkpoint separato.

Modalità	Campionamento consigliato	`enable_thinking`
Think	`temperature=0.9, top_p=0.95`	`True`
No Think	`temperature=0.7, top_p=0.95`	`False`

La modalità Think sfrutta la capacità del modello per il ragionamento passo‑passo, adatta a problemi complessi.
La modalità No Think produce risposte più rapide e dirette per le attività quotidiane da assistente.

Questo design consente allo stesso modello compatto di funzionare sia come assistente chat veloce sia come motore di ragionamento deliberativo.

pip install -U "transformers>=5.6" accelerate torch

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "openbmb/MiniCPM5-1B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [{"role": "user", "content": "Who are you? Please briefly introduce yourself."}]
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    enable_thinking=False,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))

Chiamata di Strumenti

MiniCPM5-1B emette nativamente chiamate a strumenti in stile XML. Per convertirle in tool_calls standard compatibili con OpenAI, il backend consigliato è SGLang con il suo parser integrato minicpm5. Questo approccio non richiede modifiche aggiuntive al modello e offre un'integrazione perfetta.

Avvia il server SGLang con il parser per le chiamate a strumenti abilitato, quindi invia le richieste attraverso l'endpoint standard /v1/chat/completions.

python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000 \
--tool-call-parser minicpm5

Flessibilità di Deployment e Agent Skills

Poiché il modello utilizza l'architettura standard LlamaForCausalLM, viene caricato direttamente nei principali motori di inferenza senza kernel personalizzati o modifiche al codice. Il progetto fornisce guide passo‑passo per il deployment per:

Transformers (inferenza locale BF16/FP16, GPU e CPU)
vLLM (server compatibile con OpenAI)
SGLang (consigliato per il tool calling)
llama.cpp (GGUF, ibrido CPU/GPU)

Inoltre, sono disponibili risorse Agent Skills su GitHub, che offrono istruzioni personalizzate per gli utenti che costruiscono agenti di codifica con strumenti come Cursor o Claude Code. Insieme, queste risorse ti consentono di passare rapidamente dal download del modello a un assistente pronto per la produzione, il tutto con un'impronta compatta di 1B.

Project page GitHub ArXiv paper