La ola de la IA agéntica
Una IA agéntica no es solo un chatbot que responde preguntas. Actúa. Planifica, navega por la web, ejecuta código, manipula archivos y encadena herramientas, a menudo de forma autónoma. Piensa en un asistente digital que te reserva los vuelos, no en uno que se limita a leer en voz alta los términos del servicio.
Este paso de lo pasivo a lo activo exige modelos con un razonamiento sólido y facilidad para autodirigirse. Deben recordar objetivos a lo largo de muchos pasos, detectar cuándo falla una herramienta y cambiar de estrategia. A medida que maduran los marcos agénticos, la pregunta pasa de “¿qué puede decir una IA?” a “¿qué puede hacer una IA?”, y hacer cosas de forma fiable en hardware cotidiano sigue siendo el santo grial.
El imperativo local
Ejecutar agentes de IA en local resuelve un triángulo de tensiones: privacidad, latencia y coste. Enviar datos sensibles —correos, registros financieros, bases de código— a una API en la nube es inviable para muchos. La ejecución local mantiene los secretos en tu propia máquina.
La latencia importa cuando un agente debe reaccionar rápido, por ejemplo, durante la asistencia de codificación en vivo. Los viajes de ida y vuelta a la nube añaden fricción que rompe el flujo. Por último, disparar los créditos en la nube mientras un agente da vueltas en bucle con una tarea rebelde quema la cartera de verdad. Un modelo local, una vez descargado, solo cuesta la electricidad que bebe tu silicio. ¿La pega? Los modelos potentes suelen exigir GPUs de las que carece la mayoría de los equipos de sobremesa. El sueño agéntico necesita un modelo que piense a lo grande pero quepa en pequeño.

El puzle de los parámetros
El tamaño de un modelo de IA se mide en parámetros: las perillas ajustables que se aprenden durante el entrenamiento. Más parámetros suelen significar más conocimiento y un razonamiento más matizado, pero también exigen más cómputo y memoria. Ejecutar un modelo de 70 mil millones de parámetros en local requiere un lujoso clúster de GPUs, no un portátil.
Una ingeniosa alternativa es la arquitectura de mezcla de expertos (MoE). Imagina una biblioteca con 35 bibliotecarios especializados (parámetros totales), pero solo 3 se adelantan en cada momento (parámetros activos). Un modelo MoE almacena un conocimiento enorme, pero cada token procesado solo activa una fracción de su peso total. Esto reduce drásticamente el ancho de banda de memoria y la computación sin sacrificar demasiado la profundidad. Es la columna vertebral para hacer que la inteligencia a gran escala resida en máquinas modestas.
Qwen3.6 35B A3B deconstruido
El nombre Qwen3.6 35B A3B probablemente codifica exactamente este diseño. Qwen (通义千问) es la capaz serie de modelos de Alibaba, con cada generación mejorando el razonamiento y el uso de herramientas. El “35B” indica un conjunto total de 35 mil millones de parámetros. El “A3B” es la clave: solo 3 mil millones de parámetros están activos en cada paso hacia adelante, lo que lo clasifica como un peso pesado de MoE.
Esta proporción —35B totales, 3B activos— sugiere un inmenso conocimiento almacenado empaquetado en una huella de inferencia comparable a la de un pequeño modelo denso de 3B. En la práctica, podría funcionar en una GPU de consumo con la VRAM justa para alojar los expertos compartidos más una fina capa de enrutamiento. Obtienes la amplitud de un modelo de 35B a la velocidad y el coste de uno de 3B. Es el equivalente arquitectónico a un cohete de bolsillo.
Rendimiento con los pies en la tierra
En los benchmarks agénticos, un modelo de esta clase destacaría en la orquestación de herramientas en múltiples pasos. Imagina un agente que lee tu desordenada carpeta de Descargas, clasifica PDFs, extrae totales de facturas con una herramienta OCR local y rellena una hoja de cálculo, todo siguiendo una única instrucción en lenguaje natural.
La columna vertebral de conocimiento de 35B totales le aporta saber del mundo y soltura con el código; la huella activa de 3B lo mantiene ágil. Puede razonar sobre llamadas fallidas a herramientas sin pausas lentas. Y lo que es crucial, permite un auténtico bucle de agente local: pensar → actuar → observar → repensar, mantenido durante docenas de pasos sin reventar el presupuesto de memoria de la GPU. Convierte la aspiracional demo del “SO agéntico” en una utilidad de uso diario, noche tras noche.
El peso de la corona
Ser el rey, sin embargo, exige más que razonamiento en bruto. La fiabilidad en horizontes largos sigue siendo un problema de frontera. Los agentes se descarrilan: olvidan objetivos, alucinan parámetros de API o se dejan seducir por búsquedas web infinitas. Ni siquiera una proporción MoE perfecta puede arreglar instrucciones de sistema frágiles o esquemas de herramientas mal definidos.
Además, la cuantización, la eficiencia de la ventana de contexto y el soporte del motor de inferencia afectan al ritmo en el mundo real. Un modelo con 3B activos podría caber en 8 GB de VRAM, pero si su caché de 128k tokens infla la memoria, se ahoga. El ecosistema de marcos agénticos locales (LangChain, CrewAI, bucles personalizados) también debe madurar para explotar esta arquitectura. La corona pesa porque quien la lleva debe ofrecer no solo victorias en benchmarks, sino una fiabilidad aburrida y constante durante todo el día.
El veredicto
Entonces, ¿es Qwen3.6 35B A3B el rey agéntico local? Representa un salto de principios: empaquetar la sabiduría de un modelo grande en el tiempo de ejecución de un modelo pequeño. Para desarrolladores dispuestos a hacer fine tuning del enrutamiento y diseñar barreras de seguridad robustas, podría destronar a los antiguos modelos densos de 7B o 13B como el caballo de batalla local por defecto.
La incógnita persiste, sin embargo, porque la verdadera autonomía agéntica depende tanto de la ingeniería de software como de la arquitectura del modelo. Pero si la corona le queda bien a algún modelo de pesos abiertos en este momento, a uno que case profundidad con desplegabilidad, este diseño MoE presenta una candidatura convincente. Su reinado no se medirá en la fineza del chat, sino en las tareas exitosas y sin supervisión completadas mientras tu portátil reposa inactivo sobre el escritorio.



