home›LLMs›

Come LFM2.5-8B-A1B Rivoluziona gli Assistenti Personali On-Device

Scopri il modello ibrido ottimizzato per prestazioni e throughput in applicazioni reali, con supporto day-one per le principali piattaforme di inferenza.

7 giugno 2026

#Accademico #Agenti #Fine Tuning #LLM #Open Source

LFM2.5-8B-A1B è un nuovo modello ibrido da 8.3B parametri, progettato per il deployment on-device. Offre prestazioni competitive e throughput impareggiabile per assistenti personali, supportando tool calls e istruzioni complesse. Ottimizzato per CPU/GPU con compatibilità nativa per llama.cpp, MLX, vLLM e SGLang.

Introduzione

LFM2.5-8B-A1B è un nuovo modello ottimizzato per il ragionamento della famiglia LFM2.5, creato per flussi di lavoro di on-device AI e agentic AI. Estende l'architettura LFM2 con un pre-addestramento su larga scala e un apprendimento per rinforzo su larga scala, offrendo prestazioni compresse che competono con modelli densi e mixture-of-experts molto più grandi. Progettato come assistente personale su dispositivo, concatena chiamate a strumenti e segue istruzioni complesse su tutti i dispositivi. Il modello raggiunge un throughput senza pari nella sua classe di dimensioni sia su CPU che su GPU, con supporto immediato per vLLM, llama.cpp, MLX e SGLang. Questo rilascio migliora significativamente il rispetto delle istruzioni, la resistenza alle allucinazioni e il successo nei compiti agentici rispetto al suo predecessore.

Dettagli del modello

LFM2.5-8B-A1B è un modello ibrido solo testo di uso generale con 8,3 miliardi di parametri totali e soli 1,5 miliardi di parametri attivi. La sua architettura combina 18 strati convoluzionali LIV a doppio gate con 6 strati di attenzione a query raggruppata su 24 strati totali. Il modello è stato addestrato su 38 trilioni di token, supporta una lunghezza di contesto di 128.000 e utilizza un vocabolario di 128.000 token che copre nove lingue: inglese, arabo, cinese, francese, tedesco, giapponese, coreano, portoghese e spagnolo. I parametri di generazione consigliati sono temperatura 0,2, top_k 80 e repetition_penalty 1,05. Questo design compatto lo rende ideale per il deployment su dispositivo, mantenendo al contempo forti capacità di ragionamento.

Template di Chat e Uso degli Strumenti

Il modello utilizza un formato simile a ChatML con token speciali. I turni dell'assistente includono una catena di pensiero esplicita prima della risposta finale, rendendolo un modello di ragionamento. Il template è:

<|startoftext|><|im_start|>system
Sei un assistente utile addestrato da Liquid AI.<|im_end|>
<|im_start|>user
Che cos'è C. elegans?<|im_end|>
<|im_start|>assistant

L'uso degli strumenti segue quattro passaggi: definire gli strumenti come un oggetto JSON nel prompt di sistema; il modello produce una chiamata di funzione in stile Python tra <|tool_call_start|> e <|tool_call_end|>; eseguire la chiamata e restituire il risultato con il ruolo tool; il modello interpreta quindi l'output e fornisce una risposta finale. Questo approccio strutturato consente un comportamento affidabile di agentic AI per applicazioni nel mondo reale.

<|startoftext|><|im_start|>system
You are a helpful assistant trained by Liquid AI.<|im_end|>
<|im_start|>user
What is C. elegans?<|im_end|>
<|im_start|>assistant

Inferenza

LFM2.5-8B-A1B è supportato su più framework per un deployment flessibile. Usa Transformers per inferenza semplice con accesso diretto al modello, vLLM per il serving su GPU ad alta velocità, llama.cpp per l'offloading su CPU multipiattaforma, MLX per Apple Silicon e LM Studio per l'uso locale su desktop. I checkpoint del modello sono disponibili in formato nativo, GGUF per llama.cpp, ONNX per runtime multipiattaforma e MLX per dispositivi Mac. Il modello è ottimizzato per flussi di lavoro agentici, uso di strumenti, output strutturati e assistenti multilingue, ma non è destinato a programmazione pesante o QA ad alta intensità di conoscenza senza recupero.

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model_id = "LiquidAI/LFM2.5-8B-A1B"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    dtype="bfloat16",
    # attn_implementation="flash_attention_2" <- uncomment on compatible GPU
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

prompt = "What is C. elegans?"
input_ids = tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    add_generation_prompt=True,
    return_tensors="pt",
    tokenize=True,
).to(model.device)

output = model.generate(
    input_ids,
    do_sample=True,
    temperature=0.2,
    top_k=80,
    repetition_penalty=1.05,
    max_new_tokens=8192,
    streamer=streamer,
)

Fine-Tuning

Si consiglia il fine-tuning per adattare LFM2.5 a casi d'uso specifici. I metodi supportati includono il pre-addestramento continuato (CPT) con Unsloth per il completamento e la traduzione di testi, il fine-tuning supervisionato (SFT) con LoRA utilizzando Unsloth o TRL, l'ottimizzazione diretta delle preferenze (DPO) con TRL e l'ottimizzazione della politica relativa di gruppo (GRPO) con Unsloth o TRL. Ogni metodo è accompagnato da documentazione e notebook Colab, rendendo facile personalizzare il modello per applicazioni di on-device AI o compiti agentici specializzati.

Miglioramenti delle Prestazioni

LFM2.5-8B-A1B mostra miglioramenti notevoli rispetto a LFM2-8B-A1B su tutti i benchmark, grazie a ragionamento potenziato, pre-addestramento esteso e RL su larga scala.

Benchmark	LFM2-8B-A1B	LFM2.5-8B-A1B	Δ
AA-Omniscience Index	-78,42	-24,70	+53,62
AA-Omniscience Accuracy	7,33	8,67	+1,34
AA-Omniscience Non-Hallucination Rate	7,46	63,47	+56,01
IFEval	79,44	91,84	+12,40
IFBench	26,00	56,47	+30,47
Multi-IF	58,54	79,93	+21,39
MATH500	74,80	88,76	+13,96
AIME25	20,00	42,53	+22,53
BFCLv3	45,07	64,36	+19,29
BFCLv4	25,52	48,50	+22,98
Tau² Telecom	13,60	88,07	+74,47
Tau² Retail	7,02	39,82	+32,80

L'AA-Omniscience Index, che premia le risposte corrette e penalizza le allucinazioni, è migliorato di oltre 53 punti. La comprensione delle istruzioni (IFEval) e i benchmark agentici (BFCL, Tau²) hanno registrato balzi consistenti, rendendo questo modello un ottimo candidato per assistenti AI su dispositivo che richiedono prestazioni affidabili e con poche allucinazioni.

Project page GitHub ArXiv paper