Tailored news hub
homeBenchmark

Gemma 4 MTP: no para hardware potente, sí para configuraciones con poca VRAM

Las pruebas comunitarias revelan que la predicción multi-token acelera solo en sistemas con memoria mixta, mientras que en GPU de alta gama es igual o más lenta.

Gemma 4 MTP: no para hardware potente, sí para configuraciones con poca VRAM
#Agentes#Automatización#Código Abierto#Entrenamiento#LLM

La comunidad de Reddit puso a prueba Gemma 4 MTP. En GPU potentes (RTX 5090, 7900 XTX) no hubo mejora o fue más lento. Solo en configuraciones mixtas VRAM/CPU se duplicó la velocidad. ¿Vale la pena? Los resultados apuntan a un uso de nicho.

Gemma 4 MTP: ¿Un salto adelante o un paso en falso?

La promesa de la predicción multi-token (MTP) es tentadora: acelerar la inferencia de modelos grandes sin sacrificar calidad. Con el lanzamiento comunitario de Gemma 4 MTP a través de u/am17an, la comunidad de código abierto se lanzó a probarlo. Los resultados, sin embargo, pintan un cuadro complejo. La tesis central de este artículo es que, si bien la MTP demuestra un potencial real en configuraciones con memoria limitada, en hardware de gama alta su rendimiento sigue siendo inconsistente e incluso inferior al estándar. La clave no está en la tecnología en sí, sino en dónde y cómo se aplica.

A conceptual diagram showing multi-token prediction (MTP) in a transformer model: input tokens flowing into the model, then multiple predicted tokens branching out in parallel, with some being accepted and others rejected. Clean, modern, blue and orange color scheme, infographic style.

La evidencia: una tabla de resultados contrastantes

La comunidad compartió mediciones en diversas configuraciones. Los datos recogidos demuestran la volatilidad de MTP en su estado actual:

UsuarioHardwareSin MTP (tok/s)Con MTP (tok/s)Observaciones
nickm_27AMD Radeon 7900 XTX120100–130varía por tarea; “no justifica” su uso
EveningIncrease7579Dual RTX 3080 20GB2010inestable, caída del 50%
SBootsRTX 5090 + RTX 409032.1728.81tasa de aceptación de borradores: 55%
DragonfruitIll660RTX 3080 mobile (mixto VRAM/CPU)1.83.5–4.5mejora significativa en modo offload
DragonfruitIll660RTX 3080 mobile (VRAM completa)20~25ganancia moderada

still not good enough to justifynickm_27

La tabla revela un patrón claro: cuanto más limitada es la VRAM, mayor es el beneficio relativo de MTP. En configuraciones con memoria holgada, el overhead de generar y evaluar tokens de borrador supera la ganancia.

Dos historias que lo resumen todo

SBoots proporcionó el registro más detallado. Usando una RTX 5090 (32 GB) junto a una RTX 4090 (24 GB), midió una caída de 32.17 a 28.81 tok/s con MTP activado. La tasa de aceptación de borradores fue de apenas 0.55447 — más de la mitad de los tokens generados fueron rechazados. Esto sugiere que el modelo MTP aún no aprende a predecir de forma fiable los tokens del modelo principal, generando trabajo extra sin recompensa.

En el extremo opuesto, DragonfruitIll660 reportó la única aceleración clara en una configuración mixta VRAM/CPU (Gemma 31B con mitad en VRAM, mitad en CPU). Pasó de 1.8 a 3.5–4.5 tok/s, duplicando la velocidad. En VRAM completa (Q2KL, RTX 3080 mobile) la mejora fue más modesta: de 20 a ~25 tok/s. Este caso demuestra que MTP puede ser un salvavidas para equipos con poca VRAM, permitiendo ejecutar modelos que de otra forma serían inviables.

Especulación y promesa: ¿qué dice la comunidad?

Las reacciones fueron variadas. rog-uk señaló el potencial del “precargado predictivo de expertos” en modelos MoE, imaginando un futuro donde GPUs de consumo puedan cargas dinámicamente solo los expertos necesarios. scheurneus preguntó si MTP podría beneficiar a usuarios con 8 GB de VRAM, al ocupar poco espacio extra. PromptInjection_ profetizó que MTP será “blazing fast and great for agentic usage”.

Pero también hubo realismo: superdariom contrastó los 6 tok/s de una DGX Spark con los 120 tok/s de una iGPU de $200 usando el modelo Q8 A4B. La promesa de MTP no es universal; depende del balance entre tamaño de modelo, memoria disponible y tipo de tarea.

Hype! Thanks for the hard work.Kahvana

El entusiasmo es genuino, pero la cautela debe acompañarlo. MTP no es un acelerador mágico; es una técnica en evolución que necesita afinarse para cada arquitectura y caso de uso.

Reflexión final: no enterremos la idea, reajustemos las expectativas

El contraargumento más fuerte es que, en hardware de alta gama, MTP empeoró el rendimiento. Es cierto: para usuarios con RTX 5090 o 7900 XTX, la MTP actual es un paso atrás. Pero ese no es el mercado objetivo. La verdadera promesa de la MTP reside en democratizar el acceso a modelos grandes en hardware modesto, donde la penalización por mover datos entre VRAM y CPU es brutal y cualquier ganancia es bienvenida.

Los desarrolladores de llama.cpp ya están fusionando optimizaciones (como atomic-llama-cpp-turboquant). La tasa de aceptación del 55% probablemente mejorará con entrenamiento más cuidadoso de los cabezales MTP. No deberíamos descartar la técnica por sus resultados iniciales en configuraciones donde no se necesitaba. En lugar de eso, pidamos más pruebas en entornos con VRAM limitada, y sigamos apoyando el trabajo abierto que u/am17an y otros están haciendo.

La MTP no es para todos hoy, pero puede ser esencial mañana. Reconsideremos dónde enfocamos la lupa.

Artículos Relacionados