home›LLMs›

Qué es LFM2.5-8B-A1B: Modelos Híbridos para Despliegue en Dispositivo

Descubre LFM2.5, la nueva familia de modelos híbridos optimizados para asistentes personales en tiempo real y rendimiento de inferencia sin precedentes.

7 de junio de 2026

#Académico #Agentes #Ajuste Fino #Código Abierto #LLM

LFM2.5-8B-A1B es un modelo híbrido diseñado para el despliegue en dispositivos, ofreciendo rendimiento competitivo con modelos más grandes. Ideal para asistentes personales, encadenamiento de herramientas y tareas de agente, con soporte para vLLM, llama.cpp y MLX.

Introducción

LFM2.5-8B-A1B es un nuevo modelo ajustado para razonamiento de la familia LFM2.5, creado para flujos de trabajo de IA en dispositivo e IA agéntica. Amplía la arquitectura LFM2 con preentrenamiento a gran escala y aprendizaje por refuerzo a gran escala, ofreciendo un rendimiento comprimido que rivaliza con modelos densos y de mezcla de expertos mucho mayores. Diseñado como un asistente personal en dispositivo, encadena llamadas a herramientas y sigue instrucciones complejas en todos los dispositivos. El modelo logra un rendimiento inigualable en su clase de tamaño tanto en CPU como en GPU, con soporte desde el primer día para vLLM, llama.cpp, MLX y SGLang. Esta versión mejora significativamente el seguimiento de instrucciones, la resistencia a las alucinaciones y el éxito en tareas agénticas respecto a su predecesor.

Detalles del modelo

LFM2.5-8B-A1B es un modelo híbrido de propósito general solo texto con 8.3B parámetros totales y solo 1.5B parámetros activos. Su arquitectura combina 18 capas convolucionales LIV de doble compuerta con 6 capas de atención de consulta agrupada a lo largo de 24 capas. El modelo se entrenó con 38 billones de tokens, admite una longitud de contexto de 128.000 y utiliza un vocabulario de 128.000 tokens que cubre nueve idiomas: inglés, árabe, chino, francés, alemán, japonés, coreano, portugués y español. Los parámetros de generación recomendados son temperatura 0.2, top_k 80 y penalización por repetición 1.05. Este diseño compacto lo hace ideal para el despliegue en dispositivo, manteniendo sólidas capacidades de razonamiento.

Plantilla de chat y uso de herramientas

El modelo utiliza un formato similar a ChatML con tokens especiales. Los turnos del asistente incluyen una cadena de pensamiento explícita antes de la respuesta final, lo que lo convierte en un modelo de razonamiento. La plantilla es:

<|startoftext|><|im_start|>system
You are a helpful assistant trained by Liquid AI.<|im_end|>
<|im_start|>user
What is C. elegans?<|im_end|>
<|im_start|>assistant

El uso de herramientas sigue cuatro pasos: definir las herramientas como un objeto JSON en el prompt del sistema; el modelo genera una llamada a función en estilo Python entre <|tool_call_start|> y <|tool_call_end|>; ejecutar la llamada y devolver el resultado con el rol tool; luego el modelo interpreta la salida y proporciona una respuesta final. Este enfoque estructurado permite un comportamiento fiable de IA agéntica para aplicaciones del mundo real.

<|startoftext|><|im_start|>system
You are a helpful assistant trained by Liquid AI.<|im_end|>
<|im_start|>user
What is C. elegans?<|im_end|>
<|im_start|>assistant

Inferencia

LFM2.5-8B-A1B es compatible con múltiples frameworks para un despliegue flexible. Utilice Transformers para inferencia simple con acceso directo al modelo, vLLM para servir en GPU de alto rendimiento, llama.cpp para descarga de CPU multiplataforma, MLX para Apple Silicon y LM Studio para uso local en escritorio. Los checkpoints del modelo están disponibles en formato nativo, GGUF para llama.cpp, ONNX para tiempo de ejecución multiplataforma y MLX para dispositivos Mac. El modelo está optimizado para flujos de trabajo agénticos, uso de herramientas, salidas estructuradas y asistentes multilingües, pero no está pensado para programación pesada ni para preguntas y respuestas intensivas en conocimiento sin recuperación de información.

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model_id = "LiquidAI/LFM2.5-8B-A1B"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    dtype="bfloat16",
    # attn_implementation="flash_attention_2" <- uncomment on compatible GPU
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

prompt = "What is C. elegans?"
input_ids = tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    add_generation_prompt=True,
    return_tensors="pt",
    tokenize=True,
).to(model.device)

output = model.generate(
    input_ids,
    do_sample=True,
    temperature=0.2,
    top_k=80,
    repetition_penalty=1.05,
    max_new_tokens=8192,
    streamer=streamer,
)

Fine-Tuning

Se recomienda el fine-tuning para adaptar LFM2.5 a casos de uso específicos. Los métodos compatibles incluyen el preentrenamiento continuado (CPT) con Unsloth para completado de texto y traducción, el ajuste fino supervisado (SFT) con LoRA usando Unsloth o TRL, la optimización directa de preferencias (DPO) con TRL y la optimización de políticas relativas de grupo (GRPO) con Unsloth o TRL. Cada método va acompañado de documentación y cuadernos de Colab, lo que facilita la personalización del modelo para aplicaciones de IA en dispositivo o tareas agénticas especializadas.

Mejoras de rendimiento

LFM2.5-8B-A1B muestra ganancias notables sobre LFM2-8B-A1B en todos los benchmarks, impulsadas por el razonamiento, un preentrenamiento extendido y RL a gran escala.

Benchmark	LFM2-8B-A1B	LFM2.5-8B-A1B	Δ
AA-Omniscience Index	-78.42	-24.70	+53.62
AA-Omniscience Accuracy	7.33	8.67	+1.34
AA-Omniscience Non-Hallucination Rate	7.46	63.47	+56.01
IFEval	79.44	91.84	+12.40
IFBench	26.00	56.47	+30.47
Multi-IF	58.54	79.93	+21.39
MATH500	74.80	88.76	+13.96
AIME25	20.00	42.53	+22.53
BFCLv3	45.07	64.36	+19.29
BFCLv4	25.52	48.50	+22.98
Tau² Telecom	13.60	88.07	+74.47
Tau² Retail	7.02	39.82	+32.80

El AA-Omniscience Index, que premia las respuestas correctas y penaliza las alucinaciones, mejoró en más de 53 puntos. El seguimiento de instrucciones (IFEval) y los benchmarks agentivos (BFCL, Tau²) experimentaron saltos sustanciales, lo que convierte a este modelo en un candidato sólido para asistentes de IA en dispositivo que requieren un rendimiento fiable y con baja alucinación.

Project page GitHub ArXiv paper