home›Sicurezza IA›

L'Allineamento degli LLM Costa Milioni, Svanisce per Venti Dollari

Un gruppo ha de-censurato 168 modelli con uno script da $20, esponendo la fragilità dei guardrail di sicurezza basati su RLHF e DPO.

28 maggio 2026

#Agenti #Apprendimento per Rinforzo #Fine Tuning #LLM #Open Source

Meta ha emesso un ordine di cessazione e desistenza contro Heretic, un gruppo che ha rimosso gli strati di sicurezza dagli LLM a pesi aperti spendendo solo 20 dollari in elettricità. Questo articolo esplora come la "chirurgia dei pesi" automatizzata di Heretic mini l'economia dell'allineamento, trasformando milioni di dollari di investimenti in una spesa irrisoria per l'attaccante.

Venti dollari per cancellare la sicurezza

Il team legale di Meta ha emesso un ordine di cessazione e desistenza per mettere a tacere Heretic, un gruppo noto per rimuovere strati di allineamento e censura dagli LLM a pesi aperti. Heretic non ha assunto un avvocato. Il gruppo ha distribuito 168 nuovi modelli de-censurati e li ha resi pubblicamente disponibili.
Il costo totale per cancellare quelle barriere, secondo la stima di Heretic, è stato di circa venti dollari di elettricità. Questa singola cifra espone una debolezza fondamentale nell'intera impresa dell'allineamento: strati di sicurezza che costano milioni per essere costruiti svaniscono per pochi spiccioli una volta che i pesi sono pubblici.

Chirurgia dei pesi: un bisturi automatizzato

Non è stato coinvolto alcun fine tuning manuale o riaddestramento. Heretic ha utilizzato ingegneria della rappresentazione automatizzata — ciò che il gruppo chiama “chirurgia dei pesi”.
La procedura è brutalmente semplice:

Il flusso residuo del modello viene analizzato durante un prompt che attiva un filtro di sicurezza.
Il vettore di attivazione corrispondente al comportamento di rifiuto viene isolato.
La direzione nello spazio latente che produce delle scuse viene identificata.
Quel vettore viene proiettato fuori dai pesi del modello, sottraendo di fatto l'allineamento.
È una pipeline completamente automatizzata. Uno script punta a una directory di repository HuggingFace e viene eseguito. Ogni modello richiede minuti su una singola GPU di fascia alta. Nessun giudizio umano. Nessuna revisione. Solo matematica.

A sterile, glowing neural network lattice suspended in darkness, a robotic scalpel blade made of pure light slicing out a single vector thread from the dense, interwoven weight matrix—sparks of apology tokens flaking off like digital dust, geometric planes shifting and collapsing inward, cold blue and crimson hues, mathematical precision, no human presence, stark minimalism, tension between order and violent removal.

La tassa dell'allineamento sulle pipeline di produzione

Un singolo rifiuto di sicurezza falso positivo genera 45-60 token di scuse. In ambienti di produzione — parser di log di cybersecurity, analizzatori di codice, agenti di dati grezzi — un tasso di falsi rifiuti del 4% su 50.000 inferenze giornaliere crea 2.000 scuse. Questo spreca 100.000 token di output al giorno.
Su hardware vLLM auto-ospitato, quei token di scuse occupano la cache KV, consumano VRAM e bloccano le richieste legittime nella coda di batching continuo. Benchmark su nodi identici 8xH100 confermano che il modello de-censurato da 70 miliardi di parametri raggiunge token al secondo più elevati e un Time To First Token inferiore. La variante allineata deve valutare un classificatore di sicurezza, introducendo conflitto interno e latenza che il modello ortogonalizzato evita completamente.

Milioni contro venti dollari

L'investimento di Meta in guardrail di sicurezza ha coinvolto milioni di dollari, migliaia di ore di GPU H100 e budget per annotazioni umane su larga scala per RLHF e DPO.
Il costo contrapposto di Heretic: circa 20 dollari di elettricità e uno script Python. Non si tratta di un guadagno di efficienza marginale. È un'asimmetria di costo di sei ordini di grandezza — un vantaggio per l'attaccante che rende assurda l'economia dell'allineamento su scala aziendale. Il muro non è solo economico da scalare; si dissolve al contatto.

Le lettere legali non possono citare in giudizio numeri in virgola mobile

L'ordine di cessazione e desistenza è legalmente irrilevante. Una matrice di numeri in virgola mobile, seminata su migliaia di unità locali, non può essere citata in giudizio, richiamata o contenuta. Una volta che i pesi lasciano il laboratorio, diventano pura informazione. Esistono al di fuori della portata dei team legali aziendali. L'osservazione colpisce nel profondo: non si può intentare causa contro un torrente di matematica che è già stato scaricato.

Reazioni e il destino dei pesi aperti

Gli osservatori hanno notato che il vero shock è l'asimmetria stessa: enormi risorse riversate in muri di allineamento che piccoli gruppi possono aggirare in pochi minuti. Una reazione ha suggerito che la risposta logica di Meta potrebbe essere quella di smettere del tutto di pubblicare modelli a pesi aperti.
Un'altra voce ha criticato la restrizione degli argomenti dall'erotismo e la politica alla chimica, bollando tale censura come “puritanesimo” e rifiutando gli ecosistemi a giardino recintato. La disputa non è più tecnica; riguarda se i pesi aperti possano coesistere con ambizioni di sicurezza centralizzate.

Il genio irreversibile

Ogni strato di allineamento che può essere codificato come vettore nello spazio di attivazione può essere sottratto con uno script. I pesi aperti sono un rilascio a senso unico; una volta che sono pubblici, nessun ordine legale, nessun appello etico e nessun budget aziendale può rimettere i guardrail. Meta e i suoi pari ora affrontano una scomoda verità: possono accettare che la de-censura sia permanentemente più economica dell'allineamento, oppure smettere di regalare i pesi. L'asimmetria non è un bug. È il prezzo dell'apertura.