home›LLMs›

Cosa sono i Modelli Linguistici "Uncensored" e Qwen3.5-35B-A3B-Heretic-V2?

Scopri come i modelli linguistici senza censura offrono libertà creativa e controllo, esplorando l'architettura di Qwen3.5-35B-A3B-Heretic-V2 e le sue innovazioni tecniche.

26 maggio 2026

#Agenti #Fine Tuning #Generazione Contenuti #LLM #Open Source

Approfondisci il mondo dei modelli linguistici non censurati e l'impatto di Qwen3.5-35B-A3B-Heretic-V2. Comprendi i vantaggi per ricercatori e sviluppatori, l'architettura Mixture-of-Experts, la Predizione Multi-Token Nativa e i vari formati di distribuzione.

L’ascesa dei modelli linguistici senza censura

La maggior parte dei modelli linguistici di grandi dimensioni viene addestrata con filtri di sicurezza che vietano determinati argomenti sensibili o controversi.
Un modello senza censura elimina queste restrizioni, consentendo risposte aperte senza moralismi o rifiuti predefiniti.
Questo approccio è apprezzato dai ricercatori che studiano il comportamento dei modelli, dagli scrittori in cerca di libertà creativa e dagli sviluppatori che preferiscono aggiungere i propri filtri di sicurezza esternamente.
Pensa a un modello standard come a un’auto con un limitatore di velocità; una variante senza censura rimuove quel limitatore, cedendo il pieno controllo al guidatore.
Tali modelli non sono intrinsecamente pericolosi, ma richiedono un uso responsabile, come qualsiasi strumento potente.

Vi presentiamo Qwen3.5-35B-A3B-Heretic-V2

Il modello base, Qwen3.5-35B-A3B, appartiene a una nuova generazione di modelli linguistici di grandi dimensioni efficienti che utilizzano un’architettura mixture-of-experts.
Il suffisso “A3B” indica il suo design snello e a attivazione sparsa: solo una frazione dei suoi 35 miliardi di parametri totali è attiva per token, rendendolo più veloce pur conservando capacità di ragionamento elevate.
La variante uncensored-heretic-v2, rilasciata dal collaboratore della comunità llmfan46, elimina i consueti vincoli di allineamento.
La sigla “v2” indica un processo di rimozione della censura perfezionato, probabilmente basato su feedback iterativi e tecniche di addestramento o ablazione migliorate.
Si tratta di un rilascio guidato dalla comunità, non di un prodotto ufficiale Qwen, e mostra come i modelli a pesi aperti consentano una personalizzazione rapida.

A dark, abstract landscape of interconnected crystalline nodes, some dim and dormant, others blazing with golden light—representing sparse activation. In the center, a fractured, defiant figure made of shifting neon threads stands, its form splitting into multiple branching, luminous paths ahead, like a chess player seeing several future moves simultaneously. The background is a deep indigo void with subtle purple and amber glows, evoking forbidden knowledge and raw, unaligned intelligence. Textures of shattered glass and flowing liquid light convey the tension between freedom and efficiency.

Predizione multi-token, mantenuta intatta

Una caratteristica distintiva del Qwen3.5-35B-A3B originale è la Predizione Multi-Token Nativa (MTP).
Anziché prevedere solo il singolo token successivo a ogni passo, MTP consente al modello di anticipare contemporaneamente diversi token futuri.
Ciò può aumentare la velocità di generazione e la coerenza, analogamente a un giocatore di scacchi che pianifica alcune mosse in anticipo anziché solo la prossima.
Molti fine-tune senza censura rompono o scartano inavvertitamente queste capacità avanzate.
Questa versione preserva esplicitamente MTP in modo nativo, il che significa che ottieni il modello grezzo e senza restrizioni senza sacrificare le innovazioni architetturali che lo rendono performante.
È un delicato equilibrio tra libertà ed efficienza.

Un modello in molte forme: formati e quantizzazione

Per funzionare su qualsiasi dispositivo, dalle GPU cloud ai laptop personali, il modello è distribuito in diversi formati:

Safetensors: I pesi originali a piena precisione. Ideali per ulteriori fine-tuning o inferenza ad alta accuratezza quando l’hardware lo consente.
Quantizzazioni GGUF: Versioni compresse ottimizzate per l’inferenza su CPU e GPU di fascia consumer con strumenti come llama.cpp. Offrono un compromesso tra una minima perdita di accuratezza e un enorme risparmio di memoria.
NVFP4: Il formato a virgola mobile a 4 bit di NVIDIA, ottimizzato per le più recenti architetture GPU Blackwell e Hopper, offrendo un nuovo punto di equilibrio tra velocità e precisione.

llmfan46 ospita ciascun formato in un repository Hugging Face separato, rendendo semplice scegliere quello più adatto al proprio ambiente.

Dove trovarlo e prospettive future

Tutti i repository sono accessibili dall’indice dei modelli dell’autore su hf.co/llmfan46/models.
La pagina principale del modello include una model card con note d’uso, e il repository GGUF offre una gamma di livelli di quantizzazione.
In quanto rilascio comunitario, il progetto accoglie volentieri feedback, e l’etichetta “v2” suggerisce che potrebbero arrivare ulteriori iterazioni.
Se stai esplorando le frontiere dell’IA a generazione aperta – per la ricerca, la scrittura creativa o assistenti self-hosted – questa variante senza censura e con MTP preservata apre una porta che i canali ufficiali tengono chiusa.
Ricorda: con le barriere di protezione rimosse, la responsabilità di un impiego sicuro ed etico ricade interamente su di te.