Un nuevo objeto de entrenamiento: El documento de habilidades
A medida que los grandes modelos de lenguaje impulsan agentes cada vez más complejos, adaptarlos a un nuevo dominio requiere algo más que un nuevo prompt: a menudo exige mejores procedimientos para recopilar evidencia, invocar herramientas y formatear las salidas. Los documentos de habilidades —artefactos compactos en lenguaje natural que encapsulan estos procedimientos— han surgido como una capa de adaptación popular, pero su creación suele ser manual o de una sola vez. SkillOpt replantea el propio documento de habilidades como un estado entrenable. Al tratar la edición de habilidades como un proceso de optimización controlado, con rollouts, validación y límites similares a una tasa de aprendizaje, el sistema puede destilar la experiencia de ejecución en texto reutilizable sin modificar nunca los pesos del modelo. Esto hace posible la adaptación al dominio incluso para modelos de frontera cerrados y congelados.

Un optimizador en espacio textual con controles de aprendizaje profundo
SkillOpt ejecuta un bucle en el que un modelo objetivo congelado ejecuta tareas utilizando la habilidad actual, y un modelo optimizador independiente analiza las trayectorias resultantes. El proceso refleja un pipeline de entrenamiento:
- Los lotes de rollout proporcionan evidencia (como los datos de entrenamiento).
- La reflexión en minilotes sobre aciertos y errores propone ediciones estructuradas de añadir/eliminar/reemplazar.
- Una tasa de aprendizaje textual (un presupuesto de edición ) controla cuántas ediciones se aplican por paso, preservando la continuidad.
- Una puerta de validación evalúa las habilidades candidatas en una partición de selección separada, aceptando solo aquellas que mejoran el rendimiento. Las ediciones rechazadas se conservan como retroalimentación negativa.
- Una actualización lenta/meta por épocas captura regularidades a más largo plazo, actuando como un momento.
Fundamentalmente, el modelo optimizador nunca toca el modelo objetivo.
El artefacto desplegado es un archivo portátil best_skill.md, normalmente de 300 a 2000 tokens, que se puede reutilizar sin cambios en distintos modelos y entornos de ejecución.
Actualizaciones acotadas y la puerta de validación
El optimizador propone ediciones que primero se fusionan jerárquicamente (las correcciones de fallos tienen prioridad) y luego se ordenan según su utilidad esperada. Solo se aplican las mejores ediciones, y el presupuesto decae con el tiempo (por ejemplo, con una programación coseno). Esta actualización textual acotada evita que la habilidad se borre o se sobredite debido a una sola mala reflexión.
Cada habilidad candidata se evalúa a continuación en una partición de selección independiente. Se convierte en la nueva habilidad solo si su puntuación supera estrictamente a la actual; los empates se rechazan. Esta puerta conservadora es el mecanismo central de seguridad: los diagnósticos que suenan plausibles pero que realmente perjudican al modelo objetivo se detectan antes del despliegue. Las ediciones rechazadas no se descartan, sino que entran en un búfer que las llamadas posteriores del optimizador ven, proporcionando retroalimentación negativa sin coste en tiempo de inferencia. El resultado es un ciclo de propuesta y prueba que mejora la habilidad de forma constante y evita la deriva.
Actualización lenta/meta por épocas y diseño agnóstico al entorno de ejecución
Al final de cada época, SkillOpt ejecuta los mismos ítems de entrenamiento con las habilidades anterior y actual, clasificándolos en mejoras, regresiones, fallos persistentes y aciertos estables. El optimizador escribe entonces un bloque de guía longitudinal protegido dentro de la habilidad —su actualización lenta— que las ediciones a nivel de paso no pueden sobrescribir. Una meta-habilidad del lado optimizador independiente resume qué patrones de edición ayudaron, cuáles fallaron y qué fallos persistieron, orientando las futuras llamadas de reflexión. Esta separación mantiene compacta la habilidad desplegada a la vez que permite al entrenador aprender de líneas temporales más largas.
Todo el bucle es agnóstico al entorno de ejecución. Un adaptador fino inyecta la habilidad en entornos de chat directo, ejecución de código o entornos corpóreos y devuelve trayectorias puntuadas. El mismo código del optimizador entrena, por tanto, habilidades para búsqueda con QA, manipulación de hojas de cálculo, razonamiento documental, preguntas de opción múltiple matemáticas y toma de decisiones domésticas, así como dentro de los sandboxes de Codex y Claude Code.
Dominancia experimental en todos los frentes
SkillOpt se evaluó en seis benchmarks, siete modelos objetivo (desde GPT‑5.5 hasta Qwen‑3.5‑4B) y tres modos de ejecución. De las 52 celdas medidas (modelo, benchmark, entorno), es la mejor o empata en el primer puesto en las 52. En GPT‑5.5 en chat directo, eleva la media de los seis benchmarks del 58.8% (sin habilidad) al 82.3% (+23.5 puntos) y supera en +5.4 puntos a un oráculo que elige el mejor de siete líneas base competidoras (escritas por humanos, LLM de un solo disparo, Trace2Skill, TextGrad, GEPA, EvoSkill). Las mayores ganancias se dan en tareas procedimentales: SpreadsheetBench salta de 41.8 a 80.7, OfficeQA de 33.1 a 72.1. El mismo optimizador dentro de los entornos de Codex y Claude Code produce mejoras medias de +24.8 y +19.1 puntos, superando al rival más fuerte en el lado del entorno, EvoSkill, en +14.0 y +3.2 puntos respectivamente.
Los modelos objetivo pequeños también se benefician de forma desproporcionada —GPT‑5.4‑nano casi duplica su rendimiento en DocVQA y lo triplica en ALFWorld—, lo que demuestra que una habilidad compacta puede aportar el conocimiento procedimental del que carecen los modelos pequeños.
Ablaciones: evidencia, presupuestos y el papel de la memoria
Las ablaciones controladas confirman que las decisiones de diseño del optimizador son importantes.
- Evidencia de entrenamiento: Los benchmarks procedurales mejoran de forma constante a medida que se expone más datos de entrenamiento (SpreadsheetBench +30,5 puntos del 1 % al 100 % de los datos), mientras que el QA factual se satura rápidamente.
- Tasa de aprendizaje acotada: Eliminar el presupuesto de edición (permitiendo reescrituras ilimitadas) degrada el rendimiento. Con un presupuesto de , las puntuaciones se mantienen cerca de los máximos en todos los entornos.
- Búfer de ediciones rechazadas: Eliminarlo reduce SpreadsheetBench en 4,6 puntos, lo que confirma que estabiliza el aprendizaje.
- Actualización lenta/meta por época: La ablación más drástica: eliminar tanto la habilidad meta como la actualización lenta reduce SpreadsheetBench de 77,5 a 55,0 (−22,5 puntos). Este mecanismo es fundamental para retener lecciones a largo plazo.
Un optimizador de frontera más potente siempre produce mayores ganancias que uno ajustado al objetivo, pero incluso un optimizador ajustado al objetivo recupera entre el 56 % y el 74 % de la ganancia del optimizador potente, lo que demuestra que el bucle en sí mismo aporta valor más allá de la potencia bruta del optimizador.
Transferencia, compacidad y qué aprenden las habilidades
Las habilidades entrenadas en un modelo o arnés se transfieren positivamente en todas las pruebas realizadas:
- Entre modelos: Una habilidad de SpreadsheetBench entrenada en GPT‑5.4 mejora variantes más pequeñas de GPT entre +3,0 y +10,7 puntos.
- Entre arneses: Una habilidad de hoja de cálculo entrenada en Codex y transferida a Claude Code obtiene +59,7 puntos sobre la línea base de Claude Code sin habilidad.
- Entre benchmarks: Una habilidad de OlympiadBench proporciona ganancias positivas en Omni‑MATH en tres escalas de modelo.
Los artefactos aprendidos son notablemente compactos: solo entre 300 y 2000 tokens después de 1 a 4 ediciones aceptadas. El costo por punto de ganancia en prueba varía (0,6–46,4 millones de tokens de entrenamiento), pero el gasto se realiza una sola vez durante el entrenamiento offline; el despliegue no añade costo adicional.

Las reglas en sí mismas son procedurales, no específicas de una instancia. Por ejemplo, la habilidad de hoja de cálculo aprende a «inspect workbook structure and formulas, then write evaluated static values … instead of relying on Excel recalculation», mientras que la habilidad de ALFWorld añade un registro de visitados/frontera y un interruptor de bucle. Estos son exactamente los patrones disciplinados que un experto humano codificaría después de observar fallos, y que el optimizador obtiene automáticamente y valida con datos reservados.
Conclusión y perspectivas
SkillOpt demuestra que un documento de habilidades en lenguaje natural puede servir como una capa de adaptación entrenable y auto-mejorable para agentes LLM congelados. Al importar controles típicos del deep learning —lotes, tasas de aprendizaje, puertas de validación y retroalimentación negativa— a la edición en el espacio textual, el sistema produce artefactos compactos e interpretables que se transfieren entre modelos, arneses y benchmarks, alcanzando un nuevo estado del arte en la adaptación de dominio sin actualización de pesos. Las direcciones futuras incluyen la construcción de librerías de habilidades, la validación sin recompensa para tareas abiertas y la autodestilación de habilidades optimizadas de vuelta a los pesos del modelo. Tratar la habilidad en sí misma como el objeto entrenable abre la puerta a aplicar todo el conjunto de herramientas de optimización a procedimientos agentivos.



