home›Addestramento›

SkillOpt: Ottimizzazione di Competenze per Modelli Linguistici

Un nuovo approccio per adattare i LLM a nuovi domini tramite documenti di competenze addestrabili, anche per modelli closed-source.

27 maggio 2026

#Accademico #Addestramento #Agenti #Fine Tuning #LLM

SkillOpt introduce un framework per l'ottimizzazione iterativa di "documenti di competenze" in linguaggio naturale. Questo sistema permette ai modelli linguistici di acquisire nuove procedure operative attraverso un processo di apprendimento controllato, senza modificare i pesi del modello. Ideale per l'adattamento di LLM chiusi e congelati.

Un nuovo oggetto di addestramento: il documento di competenze

Poiché i modelli linguistici di grandi dimensioni alimentano agenti sempre più complessi, adattarli a un nuovo dominio richiede più di un semplice prompt: spesso sono necessarie procedure migliori per raccogliere prove, chiamare strumenti e formattare gli output. I documenti di competenze (skill document) – artefatti compatti in linguaggio naturale che racchiudono queste procedure – sono emersi come un popolare strato di adattamento, ma la loro creazione è solitamente manuale o one-shot. SkillOpt reimmagina il documento di competenze stesso come uno stato addestrabile. Trattando la modifica delle competenze come un processo di ottimizzazione controllato, completo di rollout, validazione e limiti simili a un tasso di apprendimento, il sistema può distillare l'esperienza di esecuzione in testo riutilizzabile senza mai modificare i pesi del modello. Ciò rende possibile l'adattamento al dominio anche per modelli di frontiera chiusi e congelati.

Overview of SkillOpt

Un ottimizzatore nello spazio testuale con controlli da deep learning

SkillOpt esegue un ciclo in cui un modello target congelato esegue compiti utilizzando la competenza corrente, e un modello ottimizzatore separato analizza le traiettorie risultanti. Il processo rispecchia una pipeline di addestramento:

I batch di rollout forniscono evidenze (come dati di addestramento).
La riflessione in minibatch su successi e fallimenti propone modifiche strutturate di tipo aggiunta/eliminazione/sostituzione.
Un tasso di apprendimento testuale (un budget di modifiche $L_t$ ) controlla quante modifiche vengono applicate per passo, preservando la continuità.
Un gate di validazione valuta le competenze candidate su una divisione di selezione tenuta da parte, accettando solo quelle che migliorano le prestazioni. Le modifiche rifiutate vengono conservate come feedback negativo.
Un aggiornamento lento/meta per epoca cattura regolarità su orizzonti più lunghi, agendo come un momentum.

Fondamentalmente, il modello ottimizzatore non tocca mai il modello target. L'artefatto distribuito è un file portatile best_skill.md, tipicamente di 300–2.000 token, che può essere riutilizzato invariato su modelli e harness diversi.

Aggiornamenti limitati e il gate di validazione

L'ottimizzatore propone modifiche che vengono prima unite gerarchicamente (le correzioni dei fallimenti hanno la priorità) e poi classificate in base all'utilità attesa. Solo le prime $L_t$ modifiche vengono applicate, con il budget che decresce nel tempo (ad esempio, con una schedulazione coseno). Questo aggiornamento testuale limitato impedisce che la competenza venga cancellata o sovra-modificata da una singola riflessione errata.

Ogni competenza candidata viene poi valutata su una divisione di selezione separata. Diventa la nuova competenza solo se il suo punteggio supera strettamente quello corrente; i pareggi vengono respinti. Questo gate conservativo è il meccanismo di sicurezza centrale: diagnosi apparentemente plausibili che in realtà danneggiano il modello target vengono intercettate prima del deployment. Le modifiche rifiutate non vengono scartate: entrano in un buffer che le chiamate successive dell'ottimizzatore vedono, fornendo feedback negativo senza alcun costo in fase di inferenza. Il risultato è un ciclo di proposta e verifica che migliora costantemente la competenza evitando la deriva.

Aggiornamento lento/meta per epoca e design agnostico rispetto all'harness

Alla fine di ogni epoca, SkillOpt esegue gli stessi elementi di addestramento con le competenze precedente e corrente, classificandoli in miglioramenti, regressioni, fallimenti persistenti e successi stabili. L'ottimizzatore scrive quindi un blocco di guida longitudinale protetto nella competenza – il suo aggiornamento lento – che le modifiche a livello di passo non possono sovrascrivere. Una meta-competenza separata lato ottimizzatore riassume quali pattern di modifica hanno aiutato, quali hanno fallito e quali fallimenti sono persistiti, guidando le future chiamate di riflessione. Questa separazione mantiene compatta la competenza distribuita, consentendo al trainer di apprendere da timeline più lunghe.

L'intero ciclo è agnostico rispetto all'harness. Un sottile adattatore inietta la competenza in ambienti di chat diretta, esecuzione di codice o incarnati e restituisce traiettorie con punteggio. La stessa codebase dell'ottimizzatore addestra quindi competenze per QA di ricerca, manipolazione di fogli di calcolo, ragionamento su documenti, MCQ matematici e processi decisionali domestici, oltre che all'interno dei sandbox Codex e Claude Code.

Dominanza sperimentale su tutta la linea

SkillOpt è stato valutato su sei benchmark, sette modelli target (da GPT‑5.5 a Qwen‑3.5‑4B) e tre modalità di esecuzione. Su 52 celle misurate (modello, benchmark, harness), è il migliore o a pari merito in tutte e 52. Su GPT‑5.5 in chat diretta, porta la media sui sei benchmark dal 58,8% (senza competenza) all'82,3% (+23,5 punti), e supera un oracolo che sceglie il migliore tra sette baseline concorrenti (scritto da umani, LLM one-shot, Trace2Skill, TextGrad, GEPA, EvoSkill) di +5,4 punti. I guadagni sono maggiori nei compiti procedurali: SpreadsheetBench passa da 41,8 a 80,7, OfficeQA da 33,1 a 72,1. Lo stesso ottimizzatore all'interno degli harness Codex e Claude Code produce miglioramenti medi di +24,8 e +19,1 punti, superando il più forte rivale lato harness, EvoSkill, rispettivamente di +14,0 e +3,2 punti.

Anche i modelli target piccoli traggono vantaggio in modo sproporzionato – GPT‑5.4‑nano quasi raddoppia su DocVQA e triplica su ALFWorld – dimostrando che una competenza compatta può fornire la conoscenza procedurale che i modelli piccoli non possiedono.

Ablazioni: Evidenze, Budget e il Ruolo della Memoria

Le ablazioni controllate confermano che le scelte progettuali dell'ottimizzatore contano.

Evidenze di addestramento: i benchmark procedurali migliorano costantemente man mano che vengono esposti più dati di addestramento (SpreadsheetBench +30,5 punti passando dall'1% al 100% dei dati), mentre il QA fattuale satura presto.
Tasso di apprendimento limitato: rimuovere il budget di modifica (consentendo riscritture illimitate) degrada le prestazioni. Con un budget di $L_t=4$ , i punteggi si mantengono vicini ai massimi in tutte le configurazioni.
Buffer delle modifiche rifiutate: rimuoverlo riduce SpreadsheetBench di 4,6 punti, confermando che stabilizza l'apprendimento.
Aggiornamento lento/meta per epoca: l'ablazione più drastica: rimuovere sia la meta-competenza che l'aggiornamento lento fa crollare SpreadsheetBench da 77,5 a 55,0 (−22,5 punti). Questo meccanismo è fondamentale per conservare le lezioni su orizzonti temporali lunghi.

Un ottimizzatore di frontiera più potente produce sempre guadagni maggiori rispetto a uno adattato al target, ma persino un ottimizzatore adattato al target recupera il 56–74% del guadagno dell'ottimizzatore forte, dimostrando che il ciclo stesso apporta un valore che va oltre la pura potenza dell'ottimizzatore.

Trasferimento, Compattezza e Cosa Imparano le Competenze

Le competenze addestrate su un modello o harness si trasferiscono positivamente in tutti i test effettuati:

Cross-modello: una competenza SpreadsheetBench proveniente da GPT‑5.4 migliora le varianti GPT più piccole da +3,0 a +10,7 punti.
Cross-harness: una competenza spreadsheet addestrata su Codex, trasferita a Claude Code, guadagna +59,7 punti rispetto alla baseline di Claude Code senza competenza.
Cross-benchmark: una competenza OlympiadBench produce guadagni positivi su Omni‑MATH su tre scale di modello.

Gli artefatti appresi sono straordinariamente compatti: soltanto 300–2.000 token dopo 1–4 modifiche accettate. Il costo per punto di guadagno al test varia (da 0,6 a 46,4 milioni di token di addestramento), ma la spesa viene sostenuta una sola volta durante l'addestramento offline; il deployment non aggiunge costi extra.

Learned rules per benchmark

Le regole stesse sono procedurali, non specifiche per l'istanza. Ad esempio, la competenza per fogli di calcolo impara a “ispezionare la struttura e le formule della cartella di lavoro, quindi scrivere valori statici valutati … invece di affidarsi al ricalcolo di Excel”, mentre la competenza ALFWorld aggiunge un registro di stati visitati/frontiera e un interruttore di loop. Sono esattamente gli schemi disciplinati che un esperto umano codificherebbe dopo aver osservato i fallimenti — ottenuti automaticamente dall'ottimizzatore e convalidati su dati tenuti da parte.

Conclusioni e Prospettive

SkillOpt dimostra che un documento di competenze in linguaggio naturale può fungere da strato di adattamento addestrabile e auto-migliorante per agenti LLM congelati. Importando i controlli del deep learning — batch, tassi di apprendimento, gate di validazione e feedback negativo — nell'editing nello spazio testuale, il sistema produce artefatti compatti e interpretabili che si trasferiscono tra modelli, harness e benchmark, definendo un nuovo stato dell'arte per l'adattamento di dominio senza aggiornamento dei pesi. Le direzioni future includono la creazione di librerie di competenze, la validazione senza ricompensa per compiti aperti e l'auto-distillazione delle competenze ottimizzate nuovamente nei pesi del modello. Trattare la competenza stessa come oggetto addestrabile apre la porta all'applicazione dell'intero kit di strumenti di ottimizzazione alle procedure agentiche.

Project page GitHub ArXiv paper