home›Entrenamiento›

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje

Marco de coevolución de políticas para generar tareas y respuestas sin supervisión externa, superando el rendimiento con datos curados.

9 de junio de 2026

#Académico #Aprendizaje por Refuerzo #Entrenamiento #LLM

SCOPE es un marco de autoaprendizaje sin datos para tareas abiertas que coevoluciona un Challenger (generador de tareas) y un Solver (respondedor). Utiliza un auto-juez para evaluar respuestas, mejorando el rendimiento en modelos de 7-8B en benchmarks de tareas abiertas y QA de formato corto.

Una nueva frontera para la IA que se auto-mejora

Los grandes modelos de lenguaje han dominado juegos como el Go y el ajedrez mediante el self-play, aprendiendo estrategias sobrehumanas sin datos humanos. Pero aplicar este mismo principio a tareas de lenguaje abiertas —como redactar un informe de investigación o planificar un proyecto— ha seguido siendo un reto difícil de alcanzar. La razón es sencilla: en un juego, puedes comprobar quién ganó contando puntos. En un ensayo, no hay una única respuesta correcta que verificar.

Un nuevo marco llamado SCOPE cambia esto. Es el primer método que extiende el auto-juego sin datos a tareas abiertas, donde el éxito se mide por la calidad, no por un acierto o error binario. En lugar de depender de instrucciones seleccionadas por humanos o de costosos modelos frontera que actúen como jueces, SCOPE crea un ecosistema autocontenido donde un modelo aprende jugando contra sí mismo. Esto rompe un importante cuello de botella, demostrando que la IA puede mejorar en tareas complejas y creativas sin ninguna supervisión externa.

Cómo funciona el ecosistema de auto-juego de SCOPE

SCOPE funciona dividiendo un único modelo base en tres roles: un Challenger, un Solver y un Judge fijo. El Challenger y el Solver son las dos políticas que evolucionan e impulsan el aprendizaje, mientras que el Judge se mantiene congelado para proporcionar un estándar de evaluación estable.

Descripción general de SCOPE

El proceso se desarrolla en un bucle. Primero, el Challenger lee un documento fuente de un corpus como Wikipedia y genera una tarea compleja basada en el documento. A continuación, el Judge crea una rúbrica específica para la tarea a partir del mismo documento fuente. Es fundamental que el Solver nunca vea este documento; debe resolver la tarea realizando una recuperación de información en varios pasos para encontrar la información necesaria. El Judge califica la respuesta del Solver con respecto a la rúbrica, y esta puntuación se convierte en la señal de recompensa. El Challenger es recompensado por crear tareas que sean moderadamente difíciles para el Solver actual, mientras que el Solver es recompensado por satisfacer los criterios de la rúbrica. Esto crea un ciclo sostenible de mejora, ya que el Challenger debe idear constantemente tareas más difíciles para mantenerse por delante del Solver en mejora.

La necesidad de la coevolución

Un hallazgo clave es que el Challenger y el Solver deben coevolucionar. El artículo muestra que si el Challenger se congela después de la primera iteración, el rendimiento del Solver se estanca rápidamente. Sin un adversario coevolutivo, las tareas se vuelven demasiado fáciles y la señal de aprendizaje desaparece.

El marco utiliza una función de recompensa inteligente para mantener este equilibrio. La recompensa del Challenger se maximiza cuando la puntuación media de la rúbrica del Solver se sitúa cerca de 0.5, el punto de máxima varianza en la retroalimentación. Esto se formaliza con una recompensa de dificultad, $f_{\mathrm{diff}}$ , que alcanza su punto máximo en este punto óptimo:

$f_{\mathrm{diff}}(\bar{g};\,\tau)=\max\!\Bigl(0,\;1-\frac{|\bar{g}-\tau|}{\min(\tau,\,1{-}\tau)}\Bigr)$

Esta ecuación asegura matemáticamente que el Challenger está incentivado para proponer tareas justo en la frontera de la capacidad del Solver. El artículo también introduce una penalización de longitud cosenoidal para evitar que el Solver haga «trampa de recompensa» simplemente escribiendo respuestas más largas para complacer al juez de la rúbrica. Los estudios de ablación muestran que eliminar la coevolución o estas barreras de protección provoca el colapso del entrenamiento, lo que demuestra que tanto la dinámica adversarial como un diseño cuidadoso de la recompensa son esenciales para la auto-mejora sostenida.

Igualando los datos seleccionados sin usar ninguno

Los resultados son impactantes. SCOPE se probó en tres modelos de 7 a 8 mil millones de parámetros: Qwen2.5, Qwen3 y OLMo-3. En ocho bancos de pruebas diversos de tareas abiertas —desde investigación profunda y preguntas académicas hasta escritura creativa— SCOPE ofreció ganancias sustanciales. Por ejemplo, en el modelo Qwen2.5-7B, la puntuación media saltó de 24.4 a 34.8, una mejora de más de 10 puntos.

Modelo	Puntuación Base	Puntuación SCOPE	Puntuación GRPO (datos)
Qwen2.5-7B	24.4	34.8	33.4
Qwen3-8B	37.7	43.1	41.5
OLMo-3-7B	30.7	38.5	39.0

Sorprendentemente, SCOPE logró esto sin una sola instrucción seleccionada ni un juez externo. Igualó o superó el rendimiento de un modelo de referencia entrenado con ~9,000 instrucciones seleccionadas por humanos y rúbricas de modelos frontera. Las mejoras fueron más notables en las tareas intensivas en investigación, donde la capacidad del modelo para recuperar y sintetizar información es fundamental. Esto demuestra que los datos autogenerados pueden ser tan efectivos como los datos seleccionados por humanos para el aprendizaje complejo y abierto.

Generalizando más allá del terreno de entrenamiento

Quizás el resultado más sorprendente es lo bien que se transfirió el entrenamiento de SCOPE a tareas completamente diferentes. Aunque fueron entrenados exclusivamente en tareas abiertas basadas en documentos, los modelos mostraron una mejora significativa en los bancos de pruebas de preguntas y respuestas de formato corto que no se usaron durante el entrenamiento. En Qwen2.5-7B, la puntuación media en siete bancos de pruebas de QA aumentó en 13.8 puntos, superando al modelo entrenado con datos seleccionados.

Esto sugiere que las habilidades aprendidas a través de SCOPE —a saber, la recuperación estratégica y la síntesis de información— son fundamentales y ampliamente aplicables. Un experimento controlado desentrañó estas dos capacidades. Al intercambiar componentes entre un Solver inicial y uno en etapa avanzada, el estudio demostró que SCOPE mejora tanto la recuperación como la síntesis, y que la fuente dominante de mejora depende de la tarea. Para las preguntas de múltiples saltos que requieren consultas encadenadas, la recuperación mejoró más. Para las preguntas de un solo salto, la síntesis fue el factor más importante. Esto explica por qué los beneficios de SCOPE se transfieren tan bien: construye un motor de investigación y razonamiento de propósito general, no solo un solucionador de tareas limitado.

El cuello de botella es la calidad de la rúbrica

El mecanismo de autoevaluación es el eje central de todo el marco. El análisis del artículo revela que la calidad de la rúbrica, y no la calificación en sí, es el cuello de botella. Cuando el generador de rúbricas se redujo a un modelo de 4B parámetros, el rendimiento cayó drásticamente porque las rúbricas se volvían genéricas, perdiendo los detalles específicos basados en el documento necesarios para una evaluación significativa. Por el contrario, escalar el modelo calificador casi no tuvo efecto.

La calidad de la rúbrica importa más que la calificación

Este hallazgo tiene profundas implicaciones. Demuestra que, para la IA con capacidad de auto-mejora, la habilidad de formular las preguntas correctas y definir los criterios de éxito es más importante que la capacidad de juzgar la respuesta final. El éxito de SCOPE radica en su capacidad para generar automáticamente estas rúbricas específicas y relevantes para la tarea a partir de los documentos fuente, creando un ciclo cerrado donde un modelo puede aprender por sí mismo cómo es una buena respuesta y luego aprender a producirla. Este trabajo marca un paso significativo hacia sistemas de IA que pueden expandir autónomamente sus capacidades más allá de los límites de la supervisión humana.

Project page ArXiv paper