Tailored news hub
homeAddestramento

SCOPE: Self-Play per Task aperti con Co-Evoluzione di Policy

Un framework data-free che migliora le prestazioni dei modelli linguistici su task complessi tramite sfidanti, risolutori e autovalutazione.

SCOPE: Self-Play per Task aperti con Co-Evoluzione di Policy
#Accademico#Addestramento#Apprendimento per Rinforzo#LLM

SCOPE è un framework di self-play data-free che allena modelli linguistici per task aperti co-evolvendo un Challenger e un Solver. Utilizza un self-judge basato sul modello iniziale per valutare le risposte. Migliora le prestazioni fino a +10.4 punti su otto benchmark open-ended e +13.8 punti su QA a formato breve.

Una nuova frontiera per l’IA auto-migliorante

I grandi modelli linguistici hanno imparato giochi come Go e scacchi attraverso il self-play, sviluppando strategie sovrumane senza dati umani. Ma applicare lo stesso principio a compiti linguistici aperti – come scrivere un articolo di ricerca o pianificare un progetto – è rimasto sfuggente. Il motivo è semplice: in un gioco si può verificare chi ha vinto contando i punti. Per un saggio, non esiste un’unica risposta corretta da verificare.

Un nuovo framework chiamato SCOPE cambia le cose. È il primo metodo che estende il self-play senza dati a compiti aperti, nei quali il successo si misura in termini di qualità, non di giusto o sbagliato binario. Invece di basarsi su prompt curati da umani o su costosi modelli di frontiera che facciano da giudici, SCOPE crea un ecosistema autonomo in cui un modello impara giocando contro sé stesso. Questo supera un grave collo di bottiglia, dimostrando che l’IA può migliorare in compiti creativi e complessi senza alcuna supervisione esterna.

Come funziona l’ecosistema di self-play di SCOPE

SCOPE opera dividendo un singolo modello di base in tre ruoli: un Challenger, un Solver e un Judge fisso. Il Challenger e il Solver sono le due politiche in evoluzione che guidano l’apprendimento, mentre il Judge rimane congelato per fornire uno standard di valutazione stabile.

Panoramica di SCOPE

Il processo si sviluppa in un ciclo. Per prima cosa, il Challenger legge un documento sorgente da un corpus come Wikipedia e genera un compito complesso, ancorato al documento. Il Judge crea quindi una rubrica di valutazione specifica per il compito a partire dallo stesso documento. Un aspetto cruciale è che il Solver non vede mai questo documento: deve svolgere il compito effettuando un recupero multi-turno per trovare le informazioni necessarie. Il Judge valuta la risposta del Solver rispetto alla rubrica e questo punteggio diventa il segnale di ricompensa. Il Challenger viene premiato per aver creato compiti moderatamente difficili per il Solver attuale, mentre il Solver viene premiato per soddisfare i criteri della rubrica. Si crea così un ciclo di miglioramento sostenibile, perché il Challenger deve costantemente escogitare compiti più difficili per restare al passo con il Solver che migliora.

La necessità della co-evoluzione

Una scoperta fondamentale è che il Challenger e il Solver devono co-evolvere. L’articolo mostra che, se il Challenger viene congelato dopo la prima iterazione, le prestazioni del Solver raggiungono rapidamente un plateau. Senza un avversario che co-evolve, i compiti diventano troppo facili e il segnale di apprendimento scompare.

Il framework utilizza una funzione di ricompensa intelligente per mantenere questo equilibrio. La ricompensa del Challenger è massima quando il punteggio medio della rubrica del Solver si avvicina a 0,5, il punto di massima varianza del feedback. Ciò è formalizzato con una ricompensa di difficoltà, fdifff_{\mathrm{diff}}, che raggiunge il picco in questo punto ottimale:

fdiff(gˉ;τ)=max ⁣(0,  1gˉτmin(τ,1τ))f_{\mathrm{diff}}(\bar{g};\,\tau)=\max\!\Bigl(0,\;1-\frac{|\bar{g}-\tau|}{\min(\tau,\,1{-}\tau)}\Bigr)

Questa equazione garantisce matematicamente che il Challenger sia incentivato a proporre compiti proprio sulla frontiera delle capacità del Solver. L’articolo introduce inoltre una penalità coseno sulla lunghezza per impedire al Solver di fare “reward hacking”, semplicemente scrivendo risposte più lunghe per compiacere il giudice basato su rubrica. Gli studi di ablazione mostrano che rimuovere la co-evoluzione o questi meccanismi di salvaguardia provoca il collasso dell’addestramento, dimostrando che sia la dinamica avversariale sia un’attenta progettazione della ricompensa sono essenziali per un auto-miglioramento duraturo.

Eguagliare i dati curati senza averne

I risultati sono notevoli. SCOPE è stato testato su tre modelli da 7-8 miliardi di parametri: Qwen2.5, Qwen3 e OLMo-3. In otto diversi benchmark aperti – dalla ricerca approfondita al question answering accademico, fino alla scrittura creativa – SCOPE ha prodotto guadagni sostanziali. Ad esempio, sul modello Qwen2.5-7B, il punteggio medio è passato da 24,4 a 34,8, con un incremento di oltre 10 punti.

ModelloPunteggio BasePunteggio SCOPEPunteggio GRPO (dati)
Qwen2.5-7B24,434,833,4
Qwen3-8B37,743,141,5
OLMo-3-7B30,738,539,0

È interessante notare che SCOPE ha raggiunto questi risultati senza un solo prompt curato o giudice esterno. Ha eguagliato o superato le prestazioni di un modello allenato su circa 9.000 prompt curati da umani con rubriche generate da modelli di frontiera. I guadagni più marcati si sono osservati nei compiti ad alta intensità di ricerca, dove la capacità del modello di recuperare e sintetizzare informazioni è fondamentale. Questo dimostra che i dati auto-generati possono essere efficaci quanto quelli curati da umani per un apprendimento complesso e aperto.

Generalizzare oltre i confini dell’addestramento

Forse il risultato più sorprendente è quanto bene l’addestramento di SCOPE si sia trasferito a compiti completamente diversi. Sebbene addestrato esclusivamente su compiti aperti e ancorati a documenti, i modelli hanno mostrato un significativo miglioramento su benchmark di question answering a risposta breve non visti durante l’addestramento. Su Qwen2.5-7B, il punteggio medio su sette benchmark di QA è aumentato di 13,8 punti, superando il modello addestrato sui dati curati.

Ciò suggerisce che le abilità apprese attraverso SCOPE – vale a dire il recupero strategico e la sintesi delle informazioni – siano fondamentali e ampiamente applicabili. Un esperimento controllato ha separato queste due capacità. Scambiando i componenti tra un Solver in fase iniziale e uno in fase avanzata, lo studio ha mostrato che SCOPE migliora sia il recupero sia la sintesi, e che il contributo principale dipende dal compito. Per domande multi-hop che richiedono query concatenate, il recupero è migliorato maggiormente. Per domande single-hop, il fattore più rilevante è stato la sintesi. Questo spiega perché i benefici di SCOPE si trasferiscono così bene: costruisce un motore di ricerca e ragionamento di uso generale, non un semplice risolutore di compiti ristretto.

Il collo di bottiglia è la qualità della rubrica

Il meccanismo di autovalutazione è il perno dell'intero framework. L'analisi dell'articolo rivela che il collo di bottiglia è la qualità della rubrica, non la valutazione in sé. Quando il generatore di rubriche è stato ridotto a un modello da 4 miliardi di parametri, le prestazioni sono calate drasticamente perché le rubriche diventavano generiche, prive dei dettagli specifici e ancorati al documento necessari per una valutazione significativa. Al contrario, scalare il modello di valutazione non ha avuto quasi alcun effetto.

La qualità della rubrica conta più della valutazione

Questa scoperta ha implicazioni profonde. Dimostra che, per un'IA in grado di auto-migliorarsi, la capacità di porre le domande giuste e definire i criteri di successo è più importante della capacità di giudicare la risposta finale. Il successo di SCOPE risiede nella sua capacità di generare automaticamente queste rubriche specifiche e pertinenti al compito a partire dai documenti di origine, creando un circuito chiuso in cui un modello può insegnare a se stesso che aspetto abbia una buona risposta e poi imparare a produrla. Questo lavoro segna un passo significativo verso sistemi di IA in grado di espandere autonomamente le proprie capacità oltre i limiti della supervisione umana.

Articoli Correlati