Panoramica e Architettura
MiniCPM5-1B è un modello linguistico causale denso da 1B parametri, progettato per l'esecuzione on‑device, in locale e in ambienti con risorse limitate. Raggiunge prestazioni open‑source all'avanguardia nella classe 1B. L'architettura è uno stack standard LlamaForCausalLM, che non richiede kernel personalizzati o fork di codice.
Specifiche principali:
- Parametri totali: 1.080.632.832 (679.552.512 non‑embedding)
- 24 strati con Grouped Query Attention (16 testine query, 2 testine chiave‑valore)
- Finestra di contesto nativa: 131.072 token
Un unico checkpoint alimenta sia un assistente veloce che un ragionatore deliberativo attraverso un template di chat integrato che alterna le modalità Think e No Think tramite il flag enable_thinking.
Ciò rende il modello direttamente utilizzabile per assistenti locali, agenti di codifica, flussi di lavoro per chiamate a strumenti e compiti di ragionamento.
Varianti del Modello
La release fornisce cinque formati per adattarsi a diversi runtime:
- Checkpoint finale BF16 – post‑addestrato con RL e dati di preferenza online (consigliato)
- Checkpoint solo SFT – dopo il fine tuning supervisionato, prima del RL
- Checkpoint base – solo pre‑addestramento
- GGUF – formato quantizzato per llama.cpp, Ollama e LM Studio
- MLX / 4‑bit – ottimizzato per Apple Silicon tramite MLX
Tutte le varianti condividono lo stesso modello sottostante, quindi puoi scegliere quella che meglio si adatta al tuo hardware e al tuo flusso di lavoro.
Modalità di Chat Doppia Think / No Think
Il template di chat commuta tra due modalità operative semplicemente impostando il parametro enable_thinking.
Non è necessario alcun checkpoint separato.
| Modalità | Campionamento consigliato | enable_thinking |
|---|---|---|
| Think | temperature=0.9, top_p=0.95 | True |
| No Think | temperature=0.7, top_p=0.95 | False |
- La modalità Think sfrutta la capacità del modello per il ragionamento passo‑passo, adatta a problemi complessi.
- La modalità No Think produce risposte più rapide e dirette per le attività quotidiane da assistente.
Questo design consente allo stesso modello compatto di funzionare sia come assistente chat veloce sia come motore di ragionamento deliberativo.
pip install -U "transformers>=5.6" accelerate torch
from transformers import AutoModelForCausalLM, AutoTokenizer model_id = "openbmb/MiniCPM5-1B" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype="auto", device_map="auto", ) messages = [{"role": "user", "content": "Who are you? Please briefly introduce yourself."}] inputs = tokenizer.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, enable_thinking=False, return_dict=True, return_tensors="pt", ).to(model.device) outputs = model.generate(**inputs, max_new_tokens=128) print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))
Chiamata di Strumenti
MiniCPM5-1B emette nativamente chiamate a strumenti in stile XML.
Per convertirle in tool_calls standard compatibili con OpenAI, il backend consigliato è SGLang con il suo parser integrato minicpm5.
Questo approccio non richiede modifiche aggiuntive al modello e offre un'integrazione perfetta.
Avvia il server SGLang con il parser per le chiamate a strumenti abilitato, quindi invia le richieste attraverso l'endpoint standard /v1/chat/completions.
python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000 \ --tool-call-parser minicpm5
Flessibilità di Deployment e Agent Skills
Poiché il modello utilizza l'architettura standard LlamaForCausalLM, viene caricato direttamente nei principali motori di inferenza senza kernel personalizzati o modifiche al codice. Il progetto fornisce guide passo‑passo per il deployment per:
- Transformers (inferenza locale BF16/FP16, GPU e CPU)
- vLLM (server compatibile con OpenAI)
- SGLang (consigliato per il tool calling)
- llama.cpp (GGUF, ibrido CPU/GPU)
Inoltre, sono disponibili risorse Agent Skills su GitHub, che offrono istruzioni personalizzate per gli utenti che costruiscono agenti di codifica con strumenti come Cursor o Claude Code. Insieme, queste risorse ti consentono di passare rapidamente dal download del modello a un assistente pronto per la produzione, il tutto con un'impronta compatta di 1B.



