home›Addestramento›

I Modelli Linguistici Ricorsivi Frantumano il Mito del Limite di Contesto

SkyRL introduce un'infrastruttura di meta-ragionamento che permette ai LLM di generare agenti figli e ragionare ricorsivamente in sandbox Python stateful.

26 maggio 2026

#Addestramento #Agenti #Apprendimento per Rinforzo #Python #Sandboxing

Scopri come i Recursive Language Models (RLM) di SkyRL stanno ridefinendo le capacità dei LLM. Con sandbox Python persistenti e la capacità di generare agenti figli, questi modelli superano i limiti tradizionali del contesto, imparando a pensare per passi e a costruire alberi di ragionamento complessi. Un'innovazione che riscrive le regole dell'intelligenza artificiale.

Il limite della ricorsione è un mito — e questo codice lo infrange

Pensi che i modelli linguistici di grandi dimensioni siano limitati dalla loro finestra di contesto a singola chiamata. Ti sbagli. Il team NovaSky ha appena rilasciato un ambiente in cui i modelli generano agenti figli ricorsivi che ragionano all'interno di sandbox Python dotate di stato, chiamano sotto-modelli durante l'esecuzione e terminano solo quando viene prodotta una risposta strutturata FINAL. Non è un trucco di prompt engineering — è un'infrastruttura per il meta-ragionamento guidato dall'esecuzione. L'implementazione dei Recursive Language Models (RLM) di SkyRL trasforma una palestra RL piatta in un albero di ragionamento multi-turno e multi-agente. Con 1,9k stelle su GitHub, NovaSky-AI/SkyRL sta silenziosamente ridefinendo cosa significhi davvero "addestrare un modello a pensare".

Dentro la sandbox Python stateful che insegna ai modelli a pensare per passi

Il cuore è PersistentREPL — un interprete Python che sopravvive tra un turno e l'altro, blocca funzioni built-in pericolose come eval e inietta identificatori di scaffold (FINAL_VAR, SHOW_VARS, context) direttamente nello spazio dei nomi. I modelli non si limitano a chattare; eseguono codice, ispezionano variabili e interrogano helper LM (llm_query, rlm_query) che possono a loro volta generare agenti RLM figli con REPL indipendenti. I timeout usano SIGALRM con un fallback basato su thread per i worker Ray. Dopo ogni execute(), gli identificatori riservati vengono ripristinati, così che i tentativi di oscuramento falliscano silenziosamente. L'ambiente costringe il modello a strutturare il proprio ragionamento come una sequenza di cicli pensiero-azione-osservazione — ogni turno viene analizzato a partire dall'ultimo blocco ```repl`.

A luminous chamber of translucent blue glass suspended in infinite darkness, within it a spiraling helix of molten amber and silver light ascending like frozen fire, its coils intersecting with smaller radiant spheres floating at branching nodes — each sphere encased in its own delicate crystalline shell, connected by threads of electric violet that pulse rhythmically outward. The larger helix pulses with persistent warmth while child spheres glow with independent intensities, their light bleeding soft shadows across the chamber walls. The atmosphere is thick with floating geometric fragments — shattered hexagons and fractured cubes — suspended mid-rotation like suspended computation. Above, a crown of silver scaffolding hovers, emitting faint geometric signatures into the luminous core below. The mood is contemplative and electric, like witnessing thought itself crystallizing into form, with cinematic depth of field blurring the infinite void surrounding the central apparatus.

Alberi di rollout di addestramento: dove ogni foglia è un agente figlio con la propria REPL

RLMGymGenerator gestisce non un singolo rollout ma un albero. Un rollout genitore può invocare subcall_fn, che lancia un intero agent_loop per un figlio, restituendo il suo final_answer dopo l'elaborazione con ast.literal_eval. I rollout figli portano un sentinella _rlm_parent_rid per il collegamento, e un flag opzionale train_child_trajectories integra i loro step-output direttamente nella traiettoria del genitore una volta avvenuta la finalizzazione della radice. Se viene configurato un modello OpenRouter congelato, le chiamate figlie vengono instradate attraverso OpenRouterInferenceEngine; altrimenti passano al policy engine predefinito. Ogni token assistant nelle sequenze sia del genitore sia dei figli riceve una loss_mask — il generatore richiede step_wise_trajectories=True. Le metriche confluiscono su Weights & Biases, già registrate per le esecuzioni RLM-2b-4b-E2E.

FSDP1 era già morto — questa PR l'ha solo seppellito

Per mesi, il backend FSDP1 di SkyRL è esistito come peso morto. Le pipeline SFT lo rifiutavano. FSDP2 era lo standard operativo, eppure la manutenzione del doppio backend appesantiva il codebase con dispatcher ridondanti, funzioni helper parallele, prefissi LoRA specifici per FSDP1 e matrici duplicate di test CI. La pull request #1659 ha messo fine alla farsa. Ha rimosso ogni traccia — get_fsdp_state_ctx, offload_fsdp_model_to_cpu, get_sharding_strategy — e standardizzato l'identificatore di strategia su "fsdp". Il vecchio alias "fsdp2" ora emette semplicemente un DeprecationWarning e normalizza. Mantenere due percorsi non è mai stata una questione di flessibilità; era debito tecnico mascherato da compatibilità.

Cosa resta dopo la pulizia: uno stack di addestramento distribuito snello e a percorso unico

La pulizia ha toccato fsdp_utils.py, fsdp_strategy.py, fsdp_worker.py e i valori predefiniti di configurazione. I workaround _handle.reshard(True) sono scomparsi. Il valore predefinito di FSDPBackendOverrides.strategy è diventato "fsdp". Le suite di test hanno perso 14 righe parametrizzate per FSDP1, e un nuovo test per l'alias verifica il warning. Una matrice CI su GPU è collassata in un unico percorso FSDP. Ventidue esecuzioni pytest sono passate. Una scansione con grep ha confermato zero riferimenti rimanenti agli identificatori legacy in skyrl/, tests/, examples/ e docs/. Le configurazioni che usano ancora strategy="fsdp2" funzioneranno — ma ora eseguono FSDP2 sotto un nome pulito e onesto.

Il vero fossato non è la dimensione del modello — è la profondità dell'ambiente

Mentre l'industria si ossessiona con il numero di parametri, NovaSky-AI sta trasformando l'ambiente di addestramento stesso in un'arma. Il sistema RLM non si limita a valutare un modello — lo costringe a diventare un programmatore, un orchestratore e un ragionatore ricorsivo. Ogni REPL figlia è un laboratorio dove i sotto-problemi vengono scomposti e risolti in modo indipendente. Il consolidamento di FSDP dimostra la stessa etica ingegneristica: rimuovere il superfluo, imporre un unico percorso coerente e ottimizzare per ciò che funziona davvero. Se stai ancora scommettendo su benchmark statici per misurare l'intelligenza, ti stai perdendo il cambiamento. Il futuro appartiene ai framework che permettono ai modelli di eseguire codice, generare sotto-menti e ragionare attraverso l'esecuzione — e SkyRL ha appena acceso la miccia.