Apprendimento per Rinforzo
Page 1 of 1

SCOPE: Self-Play per Task aperti con Co-Evoluzione di Policy
SCOPE è un framework di self-play data-free che allena modelli linguistici per task aperti co-evolvendo un Challenger e un Solver. Utilizza un self-judge basato sul modello iniziale per valutare le risposte. Migliora le prestazioni fino a +10.4 punti su otto benchmark open-ended e +13.8 punti su QA a formato breve.

Harness-1: Reinforcement Learning per Agenti di Ricerca con Esternazione di Stato
Presentazione di Harness-1, un sistema di Reinforcement Learning che impiega "harness" per permettere agli agenti di ricerca di esternalizzare il proprio stato, ottimizzando le prestazioni e la gestione delle informazioni.

Cosmos 3: Modelli di Mondo Omnimodali per l'IA Fisica
Presentazione di Cosmos 3, un framework di NVIDIA per la costruzione di modelli di mondo omnimodali. Questo sistema consente all'IA di comprendere e prevedere dinamiche fisiche complesse, migliorando le capacità di robotica e interazione nel mondo reale.

L'Allineamento degli LLM Costa Milioni, Svanisce per Venti Dollari
Meta ha emesso un ordine di cessazione e desistenza contro Heretic, un gruppo che ha rimosso gli strati di sicurezza dagli LLM a pesi aperti spendendo solo 20 dollari in elettricità . Questo articolo esplora come la "chirurgia dei pesi" automatizzata di Heretic mini l'economia dell'allineamento, trasformando milioni di dollari di investimenti in una spesa irrisoria per l'attaccante.

Come la Ricerca Evolutiva Bidirezionale Migliora l'Auto-Miglioramento degli LLM
Questo articolo esplora la Ricerca Evolutiva Bidirezionale (BES), un nuovo framework che affronta i colli di bottiglia del campionamento negli LLM. Impara come gli operatori evolutivi e il feedback denso della scomposizione degli obiettivi permettono a BES di scoprire soluzioni complesse, migliorando l'auto-miglioramento dei modelli linguistici.

MiniMax Svela M2 e Anticipa M3 con Rivoluzionaria Sparse Attention
MiniMax, azienda AI sostenuta da Tencent e Alibaba, ha rilasciato un report tecnico sulla sua serie M2 (M2, M2.5, M2.7) e ha offerto un'anteprima del futuro modello M3. Quest'ultimo promette un'efficienza computazionale rivoluzionaria grazie alla MiniMax Sparse Attention (MSA), ottimizzando le prestazioni su sequenze di token estese.

Generative UI: Superare i Limiti delle Chat Text-Only con A2UI
Questo articolo esplora Macaron-A2UI, un modello innovativo che permette agli agenti IA di generare risposte testuali e UI interattive. Viene descritta la costruzione di un corpus di dialogo eterogeneo, un benchmark per la valutazione strutturata (A2UI-Bench) e una ricetta di addestramento a due fasi per modelli come Qwen3 e GLM. L'obiettivo è superare le limitazioni delle interfacce puramente testuali.

I Modelli Linguistici Ricorsivi Frantumano il Mito del Limite di Contesto
Scopri come i Recursive Language Models (RLM) di SkyRL stanno ridefinendo le capacità dei LLM. Con sandbox Python persistenti e la capacità di generare agenti figli, questi modelli superano i limiti tradizionali del contesto, imparando a pensare per passi e a costruire alberi di ragionamento complessi. Un'innovazione che riscrive le regole dell'intelligenza artificiale.

Grok V9-Medium Completa Addestramento, Rilascio Previsto a Giugno
xAI ha completato l'addestramento di Grok V9-Medium, un modello AI da 1,5 trilioni di parametri, con rilascio pubblico atteso a giugno 2026. Il nuovo sistema migliora significativamente le capacità di programmazione e risolve le criticità del predecessore v8-small, puntando a una maggiore completezza e qualità dei dati.