home›LLMs›

Qwen3.5-35B-A3B-Heretic-V2: Un Modelo de Lenguaje Sin Censura y Eficiente

Descubre cómo esta variante comunitaria de Qwen3.5-35B-A3B combina la libertad de un modelo sin censura con la eficiencia de la Predicción Nativa de Múltiples Tokens.

26 de mayo de 2026

#Agentes #Ajuste Fino #Código Abierto #Generación de Contenido #LLM

Explora las características clave de Qwen3.5-35B-A3B-Heretic-V2, un modelo de lenguaje grande sin censura impulsado por la comunidad. Aprende sobre su arquitectura de mezcla de expertos, la conservación de la predicción de múltiples tokens y los diversos formatos disponibles para su despliegue, desde GPUs en la nube hasta dispositivos personales.

El auge de los modelos de lenguaje sin censura

La mayoría de los modelos de lenguaje grandes se entrenan con filtros de seguridad que prohíben ciertos temas sensibles o controvertidos.
Un modelo sin censura elimina esas restricciones, permitiendo respuestas abiertas sin moralización ni rechazo incorporados.
Este enfoque es valorado por investigadores que estudian el comportamiento de los modelos, por escritores que buscan libertad creativa y por desarrolladores que prefieren añadir sus propias capas de seguridad externamente.
Piensa en un modelo estándar como un coche con un limitador de velocidad; una variante sin censura elimina ese limitador, otorgando el control total al conductor.
Estos modelos no son inherentemente peligrosos, pero requieren un uso responsable, como cualquier herramienta potente.

Conoce Qwen3.5-35B-A3B-Heretic-V2

El modelo base, Qwen3.5-35B-A3B, pertenece a una nueva generación de modelos de lenguaje grandes y eficientes que utilizan una arquitectura de mezcla de expertos.
El sufijo “A3B” denota su diseño ligero y de activación dispersa: solo una fracción de sus 35 mil millones de parámetros totales está activa por token, lo que lo hace más rápido y mantiene un fuerte razonamiento.
La variante uncensored-heretic-v2, publicada por el colaborador comunitario llmfan46, elimina las barreras de alineamiento estándar.
La “v2” indica un proceso de eliminación de censura refinado, probablemente basado en retroalimentación iterativa y técnicas de entrenamiento o ablación mejoradas.
Se trata de un lanzamiento impulsado por la comunidad, no un producto oficial de Qwen, y muestra cómo los modelos de pesos abiertos permiten una rápida personalización.

A dark, abstract landscape of interconnected crystalline nodes, some dim and dormant, others blazing with golden light—representing sparse activation. In the center, a fractured, defiant figure made of shifting neon threads stands, its form splitting into multiple branching, luminous paths ahead, like a chess player seeing several future moves simultaneously. The background is a deep indigo void with subtle purple and amber glows, evoking forbidden knowledge and raw, unaligned intelligence. Textures of shattered glass and flowing liquid light convey the tension between freedom and efficiency.

Predicción de múltiples tokens, intacta

Una característica destacada del Qwen3.5-35B-A3B original es la Predicción nativa de múltiples tokens (MTP).
En lugar de predecir solo el siguiente token único en cada paso, MTP permite al modelo anticipar varios tokens futuros simultáneamente.
Esto puede aumentar la velocidad de generación y la coherencia, como un jugador de ajedrez que planea varios movimientos por adelantado en lugar de solo el siguiente.
Muchos ajustes sin censura rompen o descartan inadvertidamente estas capacidades avanzadas.
Esta versión preserva explícitamente MTP de forma nativa, lo que significa que obtienes el modelo en bruto y sin restricciones sin sacrificar las innovaciones arquitectónicas que lo hacen eficiente.
Es un cuidadoso equilibrio entre libertad y eficiencia.

Un modelo en muchas formas: formatos y cuantización

Para ejecutarse en todo, desde GPUs en la nube hasta portátiles personales, el modelo se distribuye en múltiples formatos:

Safetensors: Los pesos originales en precisión completa. Ideal para continuar con fine-tuning o inferencia de alta precisión cuando el hardware lo permite.
Cuantizaciones GGUF: Versiones comprimidas adaptadas para inferencia en CPU y GPUs de consumo con herramientas como llama.cpp. Intercambian una pérdida mínima de precisión por un enorme ahorro de memoria.
NVFP4: El formato de punto flotante de 4 bits de NVIDIA, optimizado para las últimas arquitecturas de GPU Blackwell y Hopper, ofreciendo un nuevo equilibrio entre velocidad y precisión.

llmfan46 aloja cada formato en un repositorio de Hugging Face separado, lo que facilita elegir el que se adapte a tu entorno.

Dónde encontrarlo y qué viene a continuación

Todos los repositorios se encuentran en el índice de modelos del autor en hf.co/llmfan46/models.
La página principal del modelo incluye una model card con notas de uso, y el repositorio GGUF ofrece una variedad de niveles de cuantización.
Al ser una publicación comunitaria, el proyecto agradece la retroalimentación, y la etiqueta “v2” sugiere que podrían llegar más iteraciones.
Si estás explorando las fronteras de la IA de generación abierta —para investigación, escritura creativa o asistentes autoalojados— esta variante sin censura que conserva MTP abre una puerta que los canales oficiales mantienen cerrada.
Solo recuerda: sin las barreras de seguridad, la responsabilidad de un despliegue seguro y ético recae totalmente en ti.