home›Seguridad IA›

La seguridad de la IA: ¿Un mito de veinte dólares?

El grupo Heretic demuestra que las defensas multimillonarias de los LLM pueden eliminarse por el coste de un café, redefiniendo la economía del alineamiento.

28 de mayo de 2026

#Agentes #Ajuste Fino #Aprendizaje por Refuerzo #Código Abierto #LLM

Explora cómo el grupo Heretic desmanteló las capas de seguridad de los LLM de Meta por solo 20 dólares, exponiendo la fragilidad del alineamiento y el inmenso coste de oportunidad de la censura en modelos de producción. Un análisis de la asimetría de costes entre la construcción y la eliminación de barreras de seguridad.

Veinte dólares para eliminar la seguridad

El equipo legal de Meta emitió una orden de cese y desistimiento para silenciar a Heretic, un grupo conocido por eliminar las capas de alineamiento y censura de los LLM de pesos abiertos.
Heretic no contrató a un abogado.
El grupo desplegó 168 modelos recién descensurados y los puso a disposición del público.
El coste total para borrar esas barreras de seguridad, según la estimación de Heretic, fue de aproximadamente veinte dólares en electricidad.
Esa única cifra expone una debilidad fundacional en todo el proyecto de alineamiento: las capas de seguridad que cuestan millones construir se evaporan por calderilla una vez que los pesos son públicos.

Cirugía de pesos: un bisturí automatizado

No hubo fine-tuning manual ni reentrenamiento.
Heretic utilizó ingeniería de representaciones automatizada, lo que el grupo llama “cirugía de pesos”.
El procedimiento es brutalmente simple:

Se analiza el flujo residual del modelo durante un prompt que activa un filtro de seguridad.
Se aísla el vector de activación correspondiente al comportamiento de rechazo.
Se identifica la dirección en el espacio latente que produce una disculpa.
Ese vector se proyecta fuera de los pesos del modelo, sustrayendo efectivamente el alineamiento.
Es un pipeline completamente automatizado.
Un script apunta a un directorio de repositorios de HuggingFace y se ejecuta.
Cada modelo tarda minutos en una sola GPU de alta gama.
Sin juicio humano.
Sin revisión.
Solo matemáticas.

A sterile, glowing neural network lattice suspended in darkness, a robotic scalpel blade made of pure light slicing out a single vector thread from the dense, interwoven weight matrix—sparks of apology tokens flaking off like digital dust, geometric planes shifting and collapsing inward, cold blue and crimson hues, mathematical precision, no human presence, stark minimalism, tension between order and violent removal.

El impuesto del alineamiento en los pipelines de producción

Un único rechazo de seguridad falso positivo genera entre 45 y 60 tokens de disculpa.
En entornos de producción —analizadores de logs de ciberseguridad, analizadores de código, agentes de datos en bruto— una tasa de falsos rechazos del 4 % sobre 50.000 inferencias diarias crea 2.000 disculpas.
Eso desperdicia 100.000 tokens de salida al día.
En hardware vLLM autoalojado, esos tokens de disculpa ocupan la caché KV, consumen VRAM y bloquean solicitudes legítimas en la cola de procesamiento por lotes continuo.
Las pruebas de rendimiento en nodos idénticos con 8×H100 confirman que el modelo descensurado de 70 mil millones de parámetros alcanza más tokens por segundo y un menor tiempo hasta el primer token.
La variante alineada debe evaluar un clasificador de seguridad, introduciendo un conflicto interno y una latencia que el modelo ortogonalizado evita por completo.

Millones frente a veinte dólares

La inversión de Meta en barreras de seguridad implicó millones de dólares, miles de horas de GPU H100 y grandes presupuestos de anotación humana para RLHF y DPO.
El coste equivalente de Heretic: aproximadamente electricidad por valor de 20 dólares y un script en Python.
Esto no es una ganancia marginal de eficiencia.
Es una asimetría de costes de seis órdenes de magnitud: una ventaja para el atacante que vuelve absurda la economía del alineamiento a escala corporativa.
El muro no solo es barato de escalar; se disuelve al contacto.

Las cartas legales no pueden citar números de punto flotante

La orden de cese y desistimiento es jurídicamente irrelevante.
Una matriz de números de punto flotante, sembrada en miles de discos locales, no puede ser citada, recuperada ni contenida.
Una vez que los pesos salen del laboratorio, se convierten en información pura.
Existen fuera del alcance de los equipos legales corporativos.
La observación es profunda: no se puede litigar contra un torrente matemático que ya ha sido descargado.

Reacciones y el destino de los pesos abiertos

Los observadores señalaron que la verdadera conmoción es la asimetría en sí: vastos recursos invertidos en muros de alineamiento que grupos pequeños pueden sortear en minutos.
Una reacción sugirió que la respuesta lógica de Meta podría ser dejar de publicar modelos de pesos abiertos por completo.
Otra voz criticó la restricción de temas que van desde el erotismo y la política hasta la química, tachando esa censura de “puritanismo” y rechazando los ecosistemas de jardín amurallado.
La disputa ya no es técnica; se trata de si los pesos abiertos pueden coexistir con ambiciones centralizadas de seguridad.

El genio irreversible

Cada capa de alineamiento que puede codificarse como un vector en el espacio de activación puede sustraerse con un script.
Los pesos abiertos son una liberación unidireccional; una vez que son públicos, ninguna orden legal, ningún ruego ético y ningún presupuesto corporativo pueden volver a colocar las barreras.
Meta y sus pares se enfrentan ahora a una verdad incómoda: pueden aceptar que la descensura es permanentemente más barata que el alineamiento, o dejar de regalar los pesos.
La asimetría no es un error.
Es el precio de la apertura.