Harness-1: Aprendizaje por Refuerzo para Agentes de Búsqueda

Un enfoque innovador con arneses para la externalización de estados en la IA.

5 de junio de 2026

#Agentes #Aprendizaje por Refuerzo #Entrenamiento #Harness #LLM

Harness-1 es un proyecto de aprendizaje por refuerzo diseñado para agentes de búsqueda que utiliza arneses para externalizar estados, mejorando la eficiencia y el rendimiento. El código fuente está disponible en GitHub.

Una Nueva Arquitectura para Agentes de Búsqueda

Los modelos de lenguaje grandes (LLMs) se muestran prometedores como agentes de búsqueda en tareas complejas de obtención de información, aunque a menudo tienen dificultades con la planificación a largo plazo, el seguimiento del estado y el razonamiento coherente en múltiples pasos. El artículo presenta Harness-1, un marco que dota a los agentes de búsqueda de una memoria estructurada y externalizada denominada harness. Este harness actúa como una representación explícita y evolutiva del estado, que el agente lee y en la que escribe durante un episodio de búsqueda.

A diferencia de los enfoques puramente implícitos de cadena de pensamiento, el harness externaliza los objetivos actuales del agente, los hallazgos y el estado de las subpreguntas, haciendo el proceso de búsqueda más transparente y controlable. La idea central se inspira en el clásico Reinforcement Learning: An Introduction de Sutton y Barto, donde las representaciones claras del estado son fundamentales para una toma de decisiones eficaz. Al proporcionar al agente un espacio de trabajo dedicado, Harness-1 busca mejorar la profundidad de planificación y reducir la carga cognitiva del LLM subyacente, permitiendo un rendimiento más robusto en tareas de investigación profunda.

Entrenamiento de Agentes con Aprendizaje por Refuerzo

Un desafío central en la construcción de agentes de búsqueda es la falta de datos de entrenamiento supervisado con trayectorias de búsqueda óptimas. Harness-1 aborda esto utilizando aprendizaje por refuerzo (RL) para entrenar al agente de extremo a extremo. El agente recibe una recompensa basada en la calidad de su respuesta final, lo que le permite descubrir estrategias de búsqueda eficaces sin demostraciones humanas.

El bucle de entrenamiento trata el proceso de búsqueda como un problema de decisión secuencial. En cada paso, el agente emite una consulta, recibe resultados y actualiza su harness externo. Un método de gradiente de política optimiza el comportamiento del agente para maximizar la recompensa esperada. Este enfoque está conceptualmente relacionado con el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), pero aquí la señal de recompensa proviene de una evaluación automatizada del resultado final, en lugar de un modelo aprendido de preferencias humanas. El resultado es un agente que aprende a equilibrar exploración y explotación, decidiendo cuándo profundizar en un tema y cuándo sintetizar una respuesta a partir de la información recopilada.

El Harness: Externalización del Estado del Agente

La innovación clave es el propio harness — un estado textual estructurado que el agente mantiene a lo largo de una sesión de búsqueda. En lugar de depender únicamente de la ventana de contexto interna del LLM, el harness registra explícitamente:

La pregunta original del usuario y cualquier subpregunta descompuesta.
La información recopilada hasta el momento, con citas.
El estado actual de cada subpregunta (pendiente, en curso, respondida).
Un borrador en evolución de la respuesta final.

En cada turno, el agente lee el harness actual, decide una acción (por ejemplo, buscar una consulta específica, refinar una subpregunta o finalizar la respuesta) y luego escribe las actualizaciones de vuelta al harness. Este ciclo de lectura-escritura crea un bucle de retroalimentación estrecho. El estado externalizado hace que el razonamiento del agente sea auditable y le permite recuperarse de callejones sin salida marcando explícitamente las direcciones de búsqueda fallidas. El diseño del harness es general y puede adaptarse a diversos entornos de búsqueda y arquitecturas de LLM.

Evaluación en Benchmarks de Investigación Profunda

El artículo evalúa Harness-1 en benchmarks desafiantes de preguntas abiertas que requieren búsqueda web en múltiples pasos y síntesis. El banco de pruebas principal es Harness-100, un conjunto curado de 100 preguntas diversas y complejas que abarcan ciencia, historia y eventos actuales. El rendimiento se mide tanto con métricas automatizadas como con evaluación humana de la completitud y precisión de las respuestas.

Harness-1 supera significativamente a los agentes de referencia basados en LLM que carecen de un estado externalizado o que se entrenan con aprendizaje por imitación. El agente entrenado con RL aprende a realizar investigaciones más exhaustivas, emitiendo consultas más diversas y dedicando más tiempo a las subpreguntas difíciles. Los estudios de ablación confirman que tanto la estructura del harness como el entrenamiento con RL son cruciales: eliminar el harness degrada el rendimiento, y cambiar a clonación de comportamiento reduce la capacidad del agente para explorar eficazmente. El agente generaliza más allá de su distribución de entrenamiento, mostrando un comportamiento robusto en tipos de preguntas no vistos.

Por Qué Importa el Estado Externalizado

El éxito de Harness-1 subraya un principio más amplio en IA: externalizar el estado cognitivo puede mejorar drásticamente la capacidad de un agente para manejar tareas complejas y de largo horizonte. Al mantener una memoria persistente y estructurada, el agente evita las limitaciones de la ventana de contexto y la dilución de la atención que afectan a los enfoques de razonamiento puramente implícito.

Este diseño también hace que el agente sea más interpretable. Una persona puede inspeccionar el harness en cualquier momento para comprender qué sabe el agente, qué está investigando actualmente y por qué tomó ciertas decisiones. En aplicaciones de alto riesgo como la investigación científica o el análisis legal, esta transparencia es esencial. El harness actúa como el cuaderno de notas de un agente de búsqueda, capturando la investigación en evolución de una manera que es tanto legible por máquinas como auditable por humanos. Esta estrategia de externalización podría influir en el diseño de futuros agentes autónomos más allá de la búsqueda, incluyendo asistentes de codificación y sistemas de planificación de tareas.

Limitaciones y direcciones futuras

Aunque Harness-1 supone un avance significativo, el artículo reconoce varias limitaciones. La estructura actual del harness está diseñada manualmente, lo que puede no ser óptimo para todos los dominios. Trabajos futuros podrían explorar el aprendizaje del propio esquema del harness. El proceso de entrenamiento RL es intensivo en cómputo y requiere muchos episodios de búsqueda simulada. La función de recompensa, basada en la calidad de la respuesta final, es dispersa y puede no proporcionar retroalimentación detallada sobre los pasos intermedios.

Los autores sugieren varias direcciones prometedoras: incorporar una asignación de créditos más sofisticada para recompensar decisiones intermedias acertadas, extender el harness para admitir información multimodal como imágenes y tablas, y aplicar el marco a otros contextos de search agents in AI, como la generación de código o la consulta de bases de datos. Ampliar el entrenamiento a modelos aún más grandes y a conjuntos de preguntas más diversos podría mejorar aún más la robustez y la generalización.

Project page GitHub ArXiv paper