
Gemma 4 MTP: promessa o illusione?
Il rilascio del modello Gemma 4 MTP (Multi-Token Prediction) da parte dell'utente Reddit u/am17an ha acceso un vivace dibattito nella comunità dell'intelligenza artificiale.
La premessa era chiara: si tratta di un lavoro in corso, da compilare manualmente, senza garanzie di funzionamento.
Tuttavia, decine di utenti hanno accettato la sfida, testando il modello su configurazioni hardware eterogenee.
Il risultato? Un quadro sorprendentemente contrastante.
Mentre alcuni hanno registrato incrementi di velocità modesti, la maggior parte ha osservato prestazioni inferiori o al massimo equivalenti alla versione senza MTP.
La tesi centrale di questo articolo è che la Multi-Token Prediction, almeno in questa implementazione preliminare, non rappresenta ancora un salto generazionale, ma offre spunti interessanti per scenari di memoria vincolata.
I numeri dal campo
La community ha prodotto dati preziosi, raccolti in una tabella riepilogativa:
| Utente | Hardware | Modello | Senza MTP | Con MTP | Note |
|---|---|---|---|---|---|
nickm_27 | AMD Radeon 7900 XTX | Gemma 26B-A4B | 120 tok/s | 100–130 tok/s | Dopo ottimizzazioni: MTP non giustificato |
EveningIncrease7579 | Dual RTX 3080 20GB | Q8 31B | 20 t/s | 10 t/s | Instabile |
SBoots | RTX 5090 (32GB) + RTX 4090 (24GB) | 52-token prompt HTML | 32.17 tok/s | 28.81 tok/s | Tasso accettazione 55% |
DragonfruitIll660 | Mixed VRAM/CPU (RTX 3080 mobile) | Gemma 31B (Q2KL) | 1.8 t/s | 3.5–4.5 t/s | Unico miglioramento netto |
DragonfruitIll660 | Full VRAM (RTX 3080 mobile) | Gemma 31B (Q2KL) | 20 t/s | ~25 t/s | Boost minore |
La tendenza è evidente: su GPU potenti (7900 XTX, doppia RTX 3080, RTX 5090+4090) il MTP ha ridotto le prestazioni o si è attestato su valori comparabili.
Solo nel caso di parziale offload su CPU la tecnologia ha mostrato un raddoppio della velocità (da 1.8 a 4.5 t/s).
Reazioni e speculazioni
La comunità non si è limitata a riportare numeri. rog-uk ha intravisto un potenziale nel "predictive expert preloading" per modelli Mixture-of-Experts (MoE), ipotizzando che GPU consumer possano eseguire modelli di grandi dimensioni se il riutilizzo degli esperti è elevato.
"Se gli esperti sono abbastanza piccoli e il riutilizzo è alto, il MTP potrebbe rendere fattibile l'inferenza locale."
scheurneus ha invece chiesto se il MTP su MoE possa aiutare gli utenti con soli 8 GB di VRAM, sfruttando pesi MTP abbastanza piccoli da ridurre il carico sulla CPU.
Opinioni opposte: PromptInjection_ prevede che il MTP diventerà "velocissimo e ottimo per uso agentico", mentre superdariom ha notato come il DGX Spark raggiunga solo 6 t/s, contro performance superiori del 30% su una iGPU da 200$ con lo stesso modello Q8 A4B.
Il clima è comunque di entusiasmo cautelativo: ringraziamenti e attesa dominano i commenti.
Pattern e insegnamenti
Dai test emerge un quadro coerente:
- L'accettazione dei draft è bassa – SBoots ha registrato un tasso del 55%, il che significa che quasi la metà dei token generati viene scartata, vanificando i vantaggi della predizione multipla.
- L'instabilità è un problema – EveningIncrease7579 ha segnalato crash e dimezzamento delle prestazioni.
- Le ottimizzazioni sono in corso – nickm_27 ha notato miglioramenti dopo il merge degli ultimi aggiornamenti, ma non sufficienti a superare il non-MTP.
- Il caso d'uso conta – DragonfruitIll660 sottolinea che la chat casuale è "uno dei punti deboli del MTP".
Il controargomento più forte arriva proprio dai dati: se su hardware di fascia alta il MTP è più lento, perché adottarlo?
La risposta risiede negli scenari di memoria mista. Quando il modello è parzialmente in VRAM e parzialmente in CPU, il MTP sembra colmare il gap di latenza. È un segnale che la tecnica potrebbe brillare non sui server, ma sui dispositivi consumer con memoria limitata.
Un invito a riflettere
Gemma 4 MTP non è ancora pronto per il prime time. I benchmark parlano chiaro: per chi possiede GPU potenti, conviene restare sulla versione standard.
Ma la strada è tracciata. La capacità di prevedere più token in parallelo, se ottimizzata e abbinata a modelli MoE, potrebbe democratizzare l'accesso ai grandi modelli linguistici, consentendo a chi ha hardware modesto di eseguire inferenze locali con prestazioni dignitose.
Non si tratta di abbandonare la speranza, ma di osservare con attenzione i prossimi rilasci. Il MTP è un work in progress, e la community ha già dimostrato di saperlo mettere alla prova.



