home›LLMs›

MiniMax Svela M2 e Anticipa M3 con Rivoluzionaria Sparse Attention

MiniMax pubblica un report dettagliato sulla serie M2, introducendo il "pensiero interlacciato" e il sistema Forge, e preannuncia M3 con la tecnologia Sparse Attention per contesti ultra-lunghi.

28 maggio 2026

#Addestramento #Agenti #Apprendimento per Rinforzo #Contesto #LLM

MiniMax, azienda AI sostenuta da Tencent e Alibaba, ha rilasciato un report tecnico sulla sua serie M2 (M2, M2.5, M2.7) e ha offerto un'anteprima del futuro modello M3. Quest'ultimo promette un'efficienza computazionale rivoluzionaria grazie alla MiniMax Sparse Attention (MSA), ottimizzando le prestazioni su sequenze di token estese.

MiniMax pubblica il report sulla serie M2 e anticipa M3 con Sparse Attention

Il 27 maggio 2026, MiniMax ha pubblicato un report tecnico che descrive in dettaglio la sua serie di modelli M2 — M2, M2.5 e M2.7. L’azienda di AI con sede a Shanghai, sostenuta da Tencent, Alibaba e miHoYo, ha anche offerto un’anteprima del prossimo modello M3. Skyler Miao, AI Engineering Lead, ha dichiarato che M3 sta entrando nella fase finale di preparazione. Il nuovo modello introduce MiniMax Sparse Attention (MSA), un meccanismo sparso personalizzato progettato per ridurre drasticamente il carico computazionale nei contesti ultra-lunghi. Le prime profilature hardware su sequenze da 1 milione di token mostrano un’accelerazione di 9,7× nella latenza di pre-riempimento e un aumento di 15,6× nella velocità di generazione in decodifica rispetto all’attenzione completa di M2. La stessa serie M2 porta con sé il pensiero interlacciato, un sistema scalabile di apprendimento per rinforzo chiamato Forge e traguardi significativi nell’ingegneria autonoma all’interno dell’azienda. Il report arriva mentre l’industria dell’AI si sta orientando verso architetture incentrate sull’efficienza.

La spina dorsale Sparse Mixture‑of‑Experts di M2

La serie M2 è costruita su un trasformatore decoder-only di tipo Sparse Mixture‑of‑Experts (MoE). La spina dorsale fondativa contiene 229,9 miliardi di parametri totali ma ne attiva solo 9,8 miliardi per token, distribuiti su 256 esperti a granularità fine. Il routing degli esperti utilizza un gating sigmoide combinato con termini di bias apprendibili e specifici per ciascun esperto. Questa progettazione riduce la dipendenza da loss ausiliarie restrittive, consentendo al modello di scalare in modo efficiente mantenendo un budget di calcolo per token gestibile.

A vast, dark neural landscape of interlocking geometric shards, each glowing with a faint, intricate network of blue and gold threads. In the center, a single, brilliant crystalline node pulses with focused light, while countless other shards around it remain dim and dormant. The scene evokes a sense of immense scale and selective activation, with deep shadows and luminous highlights suggesting efficient, sparse computation.

Perché l’attenzione completa è sopravvissuta al rifiuto delle alternative sub-quadratiche

MiniMax ha esplorato alternative di attenzione sub-quadratica — Lightning Attention e l’ibrido Sliding Window Attention (SWA) — ma ha scelto di mantenere l’attenzione multi‑testa completa con Grouped Query Attention (GQA) in tutti i 62 layer. Nel compito complesso di estrazione di parole RULER a 128K, le varianti SWA sono scese da un punteggio baseline di 90,0 a 72,0 quando il contesto superava i 32.000 token. I metodi sub-quadratici hanno inoltre incontrato limiti legati alla banda di memoria durante l’addestramento, non offrivano un supporto nativo per la cache dei prefissi e non potevano integrarsi in modo pulito con i moduli di Multi‑Token Prediction (MTP) per la decodifica speculativa. Mantenere l’attenzione quadratica ha preservato la capacità di ragionamento multi‑salto.

Pensiero interlacciato e il sistema di apprendimento per rinforzo Forge

M2 ha introdotto un protocollo di “pensiero interlacciato”: il modello alterna tracce di pianificazione in linguaggio naturale e invocazioni esplicite di strumenti, aggiungendo blocchi di chain‑of‑thought direttamente nella cronologia della conversazione. Questo impedisce la deriva di stato e consente il recupero da errori a runtime. Per addestrare flussi di lavoro agentici su orizzonti lunghi, MiniMax ha costruito Forge — un sistema scalabile di apprendimento per rinforzo che suddivide l’esecuzione in agent, middleware (Gateway Server e Data Pool) e motori di addestramento/inferenza. Due innovazioni gestiscono la varianza nella lunghezza delle traiettorie:

Windowed FIFO Scheduling mantiene la stabilità distribuzionale operando con una finestra scorrevole sulla coda di generazione.
Prefix Tree Merging riutilizza i prefissi conversazionali condivisi durante l’addestramento in batch, offrendo un’accelerazione fino a 40× con zero errore di approssimazione.

Forge ha prodotto direttamente il checkpoint M2.7.

M2.5 e M2.7: ingegneria autonoma in MiniMax

M2.5 ha completato il 30% delle attività interne e l’80% del codice appena commissionato nella sede centrale di MiniMax. M2.7 ha fatto ulteriori progressi, agendo come un ingegnere di machine learning indipendente all’interno di un harness automatizzato. È in grado di profilare i propri cicli di addestramento, diagnosticare anomalie, leggere log e modificare la propria codebase e le configurazioni. MiniMax riferisce che M2.7 ha gestito tra il 30% e il 50% del proprio flusso di lavoro di sviluppo. Sul benchmark MLE Bench Lite di OpenAI, che testa la ricerca autonoma in ML, M2.7 ha raggiunto un tasso di medaglie del 66,6% in prove indipendenti di 24 ore — eguagliando il modello closed‑weight Gemini 3.1 Pro di Google.

Anteprima di M3: MiniMax Sparse Attention (MSA) e guadagni di efficienza

MSA è descritto come un meccanismo di selezione dinamica dei blocchi basato su GQA. Un Index Branch esplora rapidamente l’intero contesto per identificare i token chiave, quindi li instrada verso un S