Cómo elegir la cuantización GGUF adecuada para Qwen 3.6 35B

Aprende las diferencias entre NTP y MTP, benchmarks en GPU y CPU, y consejos prácticos de la comunidad

21 de mayo de 2026

#Contexto #Código Abierto #Herramientas Dev #LLM #Memoria

Descubre cómo ByteShape cuantizó Qwen 3.6 35B-A3B en formatos GGUF, con análisis de rendimiento en múltiples hardware, recomendaciones para elegir la mejor cuantización según tu equipo, y resultados de usuarios reales. Ideal para optimizar modelos de lenguaje en local.

El arte de elegir la cuantización correcta

Imagina que tienes un modelo de lenguaje enorme, como un gigante dormido.
Para que quepa en tu ordenador o GPU, necesitas comprimirlo.
Esa compresión se llama cuantización, y la medida clave son los bits por peso (bpw).
Menos bpw significa mayor compresión, pero también menor calidad.

ByteShape, un equipo conocido en la comunidad de inteligencia artificial local, ha lanzado cuantizaciones del modelo Qwen 3.6 35B-A3B en dos familias:

NTP (Next Token Prediction): el método estándar de predicción del siguiente token.
MTP (Multi-Token Prediction): una técnica que predice varios tokens a la vez, acelerando la generación.

Ambas familias están disponibles en Hugging Face (enlaces: NTP y MTP).
El anuncio se realizó en Reddit (r/LocalLLaMA) en mayo de 2026.

¿Por qué nos importa? Porque elegir la cuantización correcta puede duplicar la velocidad o arruinar la precisión.
ByteShape analizó a fondo el comportamiento de estas variantes en múltiples configuraciones de hardware.

A side-by-side diagram comparing traditional next-token prediction (NTP) vs multi-token prediction (MTP) in a quantized large language model. NTP shows a single token being predicted each step; MTP shows multiple tokens predicted simultaneously with a speed boost indicator (+20-40%). Memory usage is also compared, with MTP slightly larger. Clean, infographic style, with GPU and CPU symbols.

Dos caminos: NTP vs MTP

Modelos NTP (estándar)

En estos modelos, la recomendación de ByteShape es clara: elige la cuantización más grande que quepa en tu memoria.
La versión de mayor bpw (GPU-5, 4.15 bpw) a menudo compite en calidad y velocidad con variantes de menor bpw.
No siempre minimizar el bpw es la mejor opción. Si un modelo más grande cabe en tu presupuesto de VRAM y contexto, puede ser superior.

Modelos MTP (predicción multitoken)

Aquí la historia cambia. MTP ofrece un aumento de velocidad de generación del 20 al 40%, dependiendo de la carga de trabajo.
Sin embargo, consume más memoria durante la ejecución.
En GPUs de 16 GB, el modelo MTP más grande no es práctico; la recomendación es usar la variante GPU-2 MTP.

En CPU, MTP no es atractivo. El procesamiento de prompts ya es lento, y MTP lo empeora.
Para CPUs, ByteShape recomienda quedarse con los modelos NTP.

Hardware de prueba y metodología

ByteShape probó los modelos originales y cuantizados en una amplia gama de hardware:

GPUs: RTX 4090, RTX 5090, Pro 6000, RTX 4080, RTX 5060 Ti.
CPUs: Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5.

Los resultados completos, gráficos y desgloses se publicaron en su blog.

Un detalle importante: exclusión de MMLU

ByteShape decidió no usar el benchmark MMLU para comparar cuantizaciones.
¿La razón? Encontraron un problema de formato de respuesta en el modelo base Qwen 3.6 que no existía en Qwen 3.5.
En varios casos, el modelo de precisión completa parecía saber la respuesta, pero no respondía en el formato estricto que espera el benchmark, a pesar de usar ejemplos de 5 disparos.
Como esto es un comportamiento del modelo base y no un artefacto de cuantización, MMLU se descartó por ser una señal ruidosa para comparar cuantizaciones.

Resultados de la comunidad: casos reales

Varios usuarios compartieron sus propias pruebas. Aquí algunos destacados:

janvitos (Reddit) probó el modelo MTP GPU-5 (4.19 bpw) en una RTX 4070 Super 12 GB usando ik_llama.cpp.
Obtuvo un promedio de 110.24 tok/s con una tasa de aceptación de draft del 87.5%.

Mooncast Productions (Twitter, 21 mayo 2026) comparó en RTX 2080: beellama con K/V turbo + ngram speculative decoder vs. llama.cpp con K/V Q8/Q4 + MTP.
MXFP4 fue considerablemente más rápido, logrando un +41% de rendimiento.

Andrew Zhu (Twitter) reportó que con 180k tokens de contexto en Qwen3.6-27B con MTP, la velocidad bajó de 60 t/s a 20 t/s.

Ankit Prateek (Twitter, 20 mayo 2026) probó Qwen 3.6 27B en una sola RTX 5090.
A 128k de contexto (Q4_K_XL) la velocidad saltó de 40.8 t/s a 83.1 t/s (2.0×).
A 250k de contexto (Q5_K_XL) pasó de 25.3 t/s a 54.2 t/s (2.1×).
Afirmó que con temp=0, MTP mantiene una capa de veto estricta, preservando precisión lógica y matemática al 100%.

Fahd Mirza (Twitter, 19 mayo 2026) reportó que Qwen3.6 27B alcanzó 56 tok/s (antes 22 tok/s) combinando MTP y ngram-mod en llama.cpp, sin archivos extra.

LM Studio (Twitter, 20 mayo 2026) anunció que el soporte para Multi Token Prediction ya está en beta (versión 0.4.14+3, con motor llama.cpp 2.15.0).

# Comando usado por el usuario janvitos para ejecutar el modelo MTP en llama.cpp
llama-server \
  --fit --fit-margin 1664 \
  --ctx-size 131072 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  --cache-type-k-draft q8_0 \
  --cache-type-v-draft q8_0 \
  --multi-token-prediction \
  --draft-p-min 0.75 \
  --draft-max 3 \
  --no-mmap \
  --mlock \
  --threads 8 \
  --temp 0.0