MiniMax publica el informe de la serie M2 y adelanta M3 con Atención Dispersa
El 27 de mayo de 2026, MiniMax publicó un informe técnico detallando su serie de modelos M2: M2, M2.5 y M2.7. La empresa de IA con sede en Shanghái, respaldada por Tencent, Alibaba y miHoYo, también mostró un avance de su próximo modelo M3. El responsable de ingeniería de IA, Skyler Miao, afirmó que M3 está entrando en su fase final de preparación. El nuevo modelo introduce MiniMax Sparse Attention (MSA), un mecanismo disperso personalizado diseñado para reducir drásticamente la carga computacional en contextos ultra largos. Los primeros perfiles de hardware con secuencias de 1 millón de tokens muestran una aceleración de 9,7× en la latencia de prellenado y un aumento de 15,6× en la velocidad de generación durante la decodificación, en comparación con la atención completa de M2. La propia serie M2 incorpora pensamiento intercalado, un sistema escalable de aprendizaje por refuerzo llamado Forge y logros de ingeniería autónoma dentro de la compañía. El informe llega en un momento en que la industria de la IA se orienta hacia arquitecturas centradas en la eficiencia.
La columna vertebral de Mezcla Dispersa de Expertos de M2
La serie M2 se construye sobre un Transformer solo decodificador con Mezcla Dispersa de Expertos (MoE). La columna vertebral fundamental contiene 229,9 mil millones de parámetros totales, pero activa solo 9,8 mil millones por token, distribuidos entre 256 expertos de granularidad fina. El enrutamiento de expertos utiliza un mecanismo de compuerta sigmoide combinado con términos de sesgo específicos por experto y aprendibles. Este diseño reduce la dependencia de pérdidas auxiliares restrictivas, permitiendo que el modelo escale de manera eficiente manteniendo un presupuesto de cómputo por token manejable.

Por qué la atención completa sobrevivió al rechazo subcuadrático
MiniMax exploró alternativas de atención subcuadrática — Lightning Attention y la híbrida Sliding Window Attention (SWA) — pero optó por mantener la atención multi-cabeza completa con Grouped Query Attention (GQA) en las 62 capas. En la tarea de extracción de palabras complejas RULER 128K, las variantes SWA cayeron de una puntuación base de 90,0 a 72,0 cuando el contexto superaba los 32.000 tokens. Los métodos subcuadráticos también encontraron limitaciones de ancho de banda de memoria durante el entrenamiento, carecían de soporte nativo para caché de prefijos y no podían integrarse limpiamente con los módulos de Multi-Token Prediction (MTP) para decodificación especulativa. Conservar la atención cuadrática preservó la capacidad de razonamiento multi-salto.
Pensamiento intercalado y el sistema de aprendizaje por refuerzo Forge
M2 introdujo un protocolo de “pensamiento intercalado”: el modelo alterna entre trazas de planificación en lenguaje natural e invocaciones explícitas de herramientas, añadiendo bloques de chain-of-thought directamente en el historial de la conversación. Esto evita la deriva de estado y permite la recuperación ante errores en tiempo de ejecución. Para entrenar flujos de trabajo de agentes en horizontes largos, MiniMax construyó Forge — un sistema escalable de aprendizaje por refuerzo que divide la ejecución en agente, middleware (Gateway Server y Data Pool) y motores de entrenamiento/inferencia. Dos innovaciones gestionan la varianza en la longitud de las trayectorias:
- Windowed FIFO Scheduling mantiene la estabilidad distribucional operando una ventana deslizante sobre la cola de generación.
- Prefix Tree Merging reutiliza prefijos de conversación compartidos durante el entrenamiento por lotes, logrando una aceleración de hasta 40× sin error de aproximación.
Forge produjo directamente el punto de control M2.7.
M2.5 y M2.7: Ingeniería autónoma en MiniMax
M2.5 completó el 30% de las tareas internas y el 80% del código recién incorporado en la sede de MiniMax. M2.7 avanzó aún más, actuando como un ingeniero de aprendizaje automático independiente dentro de un entorno automatizado. Perfila sus propias ejecuciones de entrenamiento, diagnostica anomalías, lee registros y modifica su base de código y configuraciones. MiniMax informa que M2.7 gestionó entre el 30% y el 50% de su propio flujo de trabajo de desarrollo. En el MLE Bench Lite de OpenAI, que evalúa la investigación autónoma en ML, M2.7 alcanzó una tasa de medallas del 66,6% en pruebas independientes de 24 horas — igualando al modelo de pesos cerrados Gemini 3.1 Pro de Google.
Adelanto de M3: MiniMax Sparse Attention (MSA) y ganancias de eficiencia
MSA se describe como un mecanismo de selección dinámica de bloques basado en GQA. Una rama de índice (Index Branch) escanea rápidamente el contexto completo para identificar tokens clave y luego los enruta a un S



