home›LLMs›

MiniMax lanza informe M2 y adelanta M3 con Atención Dispersa

La empresa de IA MiniMax revela detalles de su serie M2 y presenta M3, un modelo que promete eficiencia computacional con su innovadora Atención Dispersa.

28 de mayo de 2026

#Agentes #Aprendizaje por Refuerzo #Contexto #Entrenamiento #LLM

MiniMax publica un informe técnico detallando sus modelos M2, M2.5 y M2.7, destacando su arquitectura MoE y pensamiento intercalado. Además, adelanta M3, que introduce MiniMax Sparse Attention para reducir la carga computacional en contextos ultra largos, logrando aceleraciones significativas en latencia y velocidad de generación.

MiniMax publica el informe de la serie M2 y adelanta M3 con Atención Dispersa

El 27 de mayo de 2026, MiniMax publicó un informe técnico detallando su serie de modelos M2: M2, M2.5 y M2.7. La empresa de IA con sede en Shanghái, respaldada por Tencent, Alibaba y miHoYo, también mostró un avance de su próximo modelo M3. El responsable de ingeniería de IA, Skyler Miao, afirmó que M3 está entrando en su fase final de preparación. El nuevo modelo introduce MiniMax Sparse Attention (MSA), un mecanismo disperso personalizado diseñado para reducir drásticamente la carga computacional en contextos ultra largos. Los primeros perfiles de hardware con secuencias de 1 millón de tokens muestran una aceleración de 9,7× en la latencia de prellenado y un aumento de 15,6× en la velocidad de generación durante la decodificación, en comparación con la atención completa de M2. La propia serie M2 incorpora pensamiento intercalado, un sistema escalable de aprendizaje por refuerzo llamado Forge y logros de ingeniería autónoma dentro de la compañía. El informe llega en un momento en que la industria de la IA se orienta hacia arquitecturas centradas en la eficiencia.

La columna vertebral de Mezcla Dispersa de Expertos de M2

La serie M2 se construye sobre un Transformer solo decodificador con Mezcla Dispersa de Expertos (MoE). La columna vertebral fundamental contiene 229,9 mil millones de parámetros totales, pero activa solo 9,8 mil millones por token, distribuidos entre 256 expertos de granularidad fina. El enrutamiento de expertos utiliza un mecanismo de compuerta sigmoide combinado con términos de sesgo específicos por experto y aprendibles. Este diseño reduce la dependencia de pérdidas auxiliares restrictivas, permitiendo que el modelo escale de manera eficiente manteniendo un presupuesto de cómputo por token manejable.

A vast, dark neural landscape of interlocking geometric shards, each glowing with a faint, intricate network of blue and gold threads. In the center, a single, brilliant crystalline node pulses with focused light, while countless other shards around it remain dim and dormant. The scene evokes a sense of immense scale and selective activation, with deep shadows and luminous highlights suggesting efficient, sparse computation.

Por qué la atención completa sobrevivió al rechazo subcuadrático

MiniMax exploró alternativas de atención subcuadrática — Lightning Attention y la híbrida Sliding Window Attention (SWA) — pero optó por mantener la atención multi-cabeza completa con Grouped Query Attention (GQA) en las 62 capas. En la tarea de extracción de palabras complejas RULER 128K, las variantes SWA cayeron de una puntuación base de 90,0 a 72,0 cuando el contexto superaba los 32.000 tokens. Los métodos subcuadráticos también encontraron limitaciones de ancho de banda de memoria durante el entrenamiento, carecían de soporte nativo para caché de prefijos y no podían integrarse limpiamente con los módulos de Multi-Token Prediction (MTP) para decodificación especulativa. Conservar la atención cuadrática preservó la capacidad de razonamiento multi-salto.

Pensamiento intercalado y el sistema de aprendizaje por refuerzo Forge

M2 introdujo un protocolo de “pensamiento intercalado”: el modelo alterna entre trazas de planificación en lenguaje natural e invocaciones explícitas de herramientas, añadiendo bloques de chain-of-thought directamente en el historial de la conversación. Esto evita la deriva de estado y permite la recuperación ante errores en tiempo de ejecución. Para entrenar flujos de trabajo de agentes en horizontes largos, MiniMax construyó Forge — un sistema escalable de aprendizaje por refuerzo que divide la ejecución en agente, middleware (Gateway Server y Data Pool) y motores de entrenamiento/inferencia. Dos innovaciones gestionan la varianza en la longitud de las trayectorias:

Windowed FIFO Scheduling mantiene la estabilidad distribucional operando una ventana deslizante sobre la cola de generación.
Prefix Tree Merging reutiliza prefijos de conversación compartidos durante el entrenamiento por lotes, logrando una aceleración de hasta 40× sin error de aproximación.

Forge produjo directamente el punto de control M2.7.

M2.5 y M2.7: Ingeniería autónoma en MiniMax

M2.5 completó el 30% de las tareas internas y el 80% del código recién incorporado en la sede de MiniMax. M2.7 avanzó aún más, actuando como un ingeniero de aprendizaje automático independiente dentro de un entorno automatizado. Perfila sus propias ejecuciones de entrenamiento, diagnostica anomalías, lee registros y modifica su base de código y configuraciones. MiniMax informa que M2.7 gestionó entre el 30% y el 50% de su propio flujo de trabajo de desarrollo. En el MLE Bench Lite de OpenAI, que evalúa la investigación autónoma en ML, M2.7 alcanzó una tasa de medallas del 66,6% en pruebas independientes de 24 horas — igualando al modelo de pesos cerrados Gemini 3.1 Pro de Google.

Adelanto de M3: MiniMax Sparse Attention (MSA) y ganancias de eficiencia

MSA se describe como un mecanismo de selección dinámica de bloques basado en GQA. Una rama de índice (Index Branch) escanea rápidamente el contexto completo para identificar tokens clave y luego los enruta a un S