Veinte dólares para eliminar la seguridad
El equipo legal de Meta emitió una orden de cese y desistimiento para silenciar a Heretic, un grupo conocido por eliminar las capas de alineamiento y censura de los LLM de pesos abiertos.
Heretic no contrató a un abogado.
El grupo desplegó 168 modelos recién descensurados y los puso a disposición del público.
El coste total para borrar esas barreras de seguridad, según la estimación de Heretic, fue de aproximadamente veinte dólares en electricidad.
Esa única cifra expone una debilidad fundacional en todo el proyecto de alineamiento: las capas de seguridad que cuestan millones construir se evaporan por calderilla una vez que los pesos son públicos.
Cirugía de pesos: un bisturí automatizado
No hubo fine-tuning manual ni reentrenamiento.
Heretic utilizó ingeniería de representaciones automatizada, lo que el grupo llama “cirugía de pesos”.
El procedimiento es brutalmente simple:
- Se analiza el flujo residual del modelo durante un prompt que activa un filtro de seguridad.
- Se aísla el vector de activación correspondiente al comportamiento de rechazo.
- Se identifica la dirección en el espacio latente que produce una disculpa.
- Ese vector se proyecta fuera de los pesos del modelo, sustrayendo efectivamente el alineamiento.
Es un pipeline completamente automatizado.
Un script apunta a un directorio de repositorios de HuggingFace y se ejecuta.
Cada modelo tarda minutos en una sola GPU de alta gama.
Sin juicio humano.
Sin revisión.
Solo matemáticas.

El impuesto del alineamiento en los pipelines de producción
Un único rechazo de seguridad falso positivo genera entre 45 y 60 tokens de disculpa.
En entornos de producción —analizadores de logs de ciberseguridad, analizadores de código, agentes de datos en bruto— una tasa de falsos rechazos del 4 % sobre 50.000 inferencias diarias crea 2.000 disculpas.
Eso desperdicia 100.000 tokens de salida al día.
En hardware vLLM autoalojado, esos tokens de disculpa ocupan la caché KV, consumen VRAM y bloquean solicitudes legítimas en la cola de procesamiento por lotes continuo.
Las pruebas de rendimiento en nodos idénticos con 8×H100 confirman que el modelo descensurado de 70 mil millones de parámetros alcanza más tokens por segundo y un menor tiempo hasta el primer token.
La variante alineada debe evaluar un clasificador de seguridad, introduciendo un conflicto interno y una latencia que el modelo ortogonalizado evita por completo.
Millones frente a veinte dólares
La inversión de Meta en barreras de seguridad implicó millones de dólares, miles de horas de GPU H100 y grandes presupuestos de anotación humana para RLHF y DPO.
El coste equivalente de Heretic: aproximadamente electricidad por valor de 20 dólares y un script en Python.
Esto no es una ganancia marginal de eficiencia.
Es una asimetría de costes de seis órdenes de magnitud: una ventaja para el atacante que vuelve absurda la economía del alineamiento a escala corporativa.
El muro no solo es barato de escalar; se disuelve al contacto.
Las cartas legales no pueden citar números de punto flotante
La orden de cese y desistimiento es jurídicamente irrelevante.
Una matriz de números de punto flotante, sembrada en miles de discos locales, no puede ser citada, recuperada ni contenida.
Una vez que los pesos salen del laboratorio, se convierten en información pura.
Existen fuera del alcance de los equipos legales corporativos.
La observación es profunda: no se puede litigar contra un torrente matemático que ya ha sido descargado.
Reacciones y el destino de los pesos abiertos
Los observadores señalaron que la verdadera conmoción es la asimetría en sí: vastos recursos invertidos en muros de alineamiento que grupos pequeños pueden sortear en minutos.
Una reacción sugirió que la respuesta lógica de Meta podría ser dejar de publicar modelos de pesos abiertos por completo.
Otra voz criticó la restricción de temas que van desde el erotismo y la política hasta la química, tachando esa censura de “puritanismo” y rechazando los ecosistemas de jardín amurallado.
La disputa ya no es técnica; se trata de si los pesos abiertos pueden coexistir con ambiciones centralizadas de seguridad.
El genio irreversible
Cada capa de alineamiento que puede codificarse como un vector en el espacio de activación puede sustraerse con un script.
Los pesos abiertos son una liberación unidireccional; una vez que son públicos, ninguna orden legal, ningún ruego ético y ningún presupuesto corporativo pueden volver a colocar las barreras.
Meta y sus pares se enfrentan ahora a una verdad incómoda: pueden aceptar que la descensura es permanentemente más barata que el alineamiento, o dejar de regalar los pesos.
La asimetría no es un error.
Es el precio de la apertura.



