LLMs

Descubre LFM2.5, la nueva familia de modelos híbridos optimizados para asistentes personales en tiempo real y rendimiento de inferencia sin precedentes.

Qué es LFM2.5-8B-A1B: Modelos Híbridos para Despliegue en Dispositivo

LFM2.5-8B-A1B es un modelo híbrido diseñado para el despliegue en dispositivos, ofreciendo rendimiento competitivo con modelos más grandes. Ideal para asistentes personales, encadenamiento de herramientas y tareas de agente, con soporte para vLLM, llama.cpp y MLX.

Descubre el LLM de 550B parámetros con Mamba-2 y MoE, optimizado para razonamiento, agentes y análisis de contexto largo.

Nemotron-3-Ultra-550B: Arquitectura LatentMoE de NVIDIA para IA de Frontera

Nemotron-3-Ultra-550B-A55B-BF16 es un LLM de NVIDIA de 550B parámetros con arquitectura LatentMoE (Mamba-2 + MoE + Atención). Diseñado para razonamiento avanzado, flujos de trabajo de agentes complejos y análisis de contexto largo, soporta múltiples idiomas y es ideal para aplicaciones de IA de alto rendimiento.

Investigadores proponen una fase de "sueño" fuera de línea para que los transformers superen las limitaciones de la atención en tareas de largo alcance, manteniendo la latencia de predicción.

Nuevo Mecanismo "Sueño" Mejora Modelos de Lenguaje en Contexto Largo

Un estudio reciente introduce un innovador mecanismo inspirado en el sueño para modelos de lenguaje, que permite procesar contextos largos de manera eficiente. Este método convierte el contexto reciente en "pesos rápidos" persistentes durante una fase de sueño fuera de línea, vaciando la caché clave-valor y mejorando el rendimiento en tareas complejas sin aumentar el costo de inferencia en línea.

La empresa de IA MiniMax revela detalles de su serie M2 y presenta M3, un modelo que promete eficiencia computacional con su innovadora Atención Dispersa.

MiniMax lanza informe M2 y adelanta M3 con Atención Dispersa

MiniMax publica un informe técnico detallando sus modelos M2, M2.5 y M2.7, destacando su arquitectura MoE y pensamiento intercalado. Además, adelanta M3, que introduce MiniMax Sparse Attention para reducir la carga computacional en contextos ultra largos, logrando aceleraciones significativas en latencia y velocidad de generación.

Descubre cómo MiniCPM5-1B redefine la ejecución de modelos de lenguaje en dispositivos con recursos limitados, ofreciendo rendimiento de vanguardia y versatilidad.

MiniCPM5-1B: Un Modelo de Lenguaje de 1B de Parámetros para Ejecución Local

Explora la arquitectura, variantes y los innovadores modos duales "Think / No Think" de MiniCPM5-1B. Aprende cómo este modelo de 1B de parámetros optimizado para entornos locales puede funcionar como asistente rápido y motor de razonamiento deliberativo, ideal para agentes de codificación y flujos de trabajo con herramientas.

Descubre cómo esta variante comunitaria de Qwen3.5-35B-A3B combina la libertad de un modelo sin censura con la eficiencia de la Predicción Nativa de Múltiples Tokens.

Qwen3.5-35B-A3B-Heretic-V2: Un Modelo de Lenguaje Sin Censura y Eficiente

Explora las características clave de Qwen3.5-35B-A3B-Heretic-V2, un modelo de lenguaje grande sin censura impulsado por la comunidad. Aprende sobre su arquitectura de mezcla de expertos, la conservación de la predicción de múltiples tokens y los diversos formatos disponibles para su despliegue, desde GPUs en la nube hasta dispositivos personales.

xAI completa el entrenamiento de su modelo fundacional de 1,5 billones de parámetros, triplicando la escala de su predecesor y enfocándose en programación avanzada.

Grok V9-Medium Finaliza Entrenamiento, Lanzamiento en Junio

Elon Musk confirma la finalización del entrenamiento de Grok V9-Medium, el nuevo modelo de xAI con 1,5 billones de parámetros. Se espera su lanzamiento público en junio de 2026 tras las fases de fine-tuning y aprendizaje por refuerzo, con un fuerte enfoque en capacidades de programación.

Análisis detallado del entrenamiento, capacidades, limitaciones y reacciones de la comunidad ante este LM de 13B parámetros

Talkie: Guía completa del modelo de lenguaje pre-1931

Exploramos en profundidad Talkie, un modelo de lenguaje de 13 mil millones de parámetros entrenado exclusivamente con textos anteriores a 1931. Abordamos su corpus de 260 mil millones de tokens, las técnicas de procesamiento de datos, respuestas anacrónicas reportadas, críticas académicas y planes de publicación. Una inmersión en este experimento sobre generalización de modelos lingüísticos.