Accademico

Page 1 of 3

Un framework data-free che migliora le prestazioni dei modelli linguistici su task complessi tramite sfidanti, risolutori e autovalutazione.

SCOPE: Self-Play per Task aperti con Co-Evoluzione di Policy

SCOPE è un framework di self-play data-free che allena modelli linguistici per task aperti co-evolvendo un Challenger e un Solver. Utilizza un self-judge basato sul modello iniziale per valutare le risposte. Migliora le prestazioni fino a +10.4 punti su otto benchmark open-ended e +13.8 punti su QA a formato breve.

Esplorazione dell'adattamento efficiente di modelli linguistici di grandi dimensioni per una personalizzazione su vasta scala

Scalabilità di PEFT: Verso Milioni di Modelli Personali con Trillioni di Parametri

Il documento "On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters" esamina le tecniche di Parameter-Efficient Fine-Tuning (PEFT) nel contesto della scalabilità. L'obiettivo è abilitare la creazione di milioni di modelli personalizzati basati su architetture con trillioni di parametri, evidenziando le sfide e le opportunità nell'adattamento di modelli linguistici di grandi dimensioni.

Scopri il modello ibrido ottimizzato per prestazioni e throughput in applicazioni reali, con supporto day-one per le principali piattaforme di inferenza.

Come LFM2.5-8B-A1B Rivoluziona gli Assistenti Personali On-Device

LFM2.5-8B-A1B è un nuovo modello ibrido da 8.3B parametri, progettato per il deployment on-device. Offre prestazioni competitive e throughput impareggiabile per assistenti personali, supportando tool calls e istruzioni complesse. Ottimizzato per CPU/GPU con compatibilità nativa per llama.cpp, MLX, vLLM e SGLang.

Guida pratica all'implementazione di un rigoroso workflow di ricerca per agenti AI, con enfasi su preregistrazione e riproducibilità.

Come Science Superpowers trasforma gli agenti AI in collaboratori scientifici

Science Superpowers converte un agente AI in un collaboratore scientifico disciplinato, implementando un workflow rigoroso e preregistrato. Questo sistema previene p-hacking e HARKing, garantisce riproducibilità e verifica i risultati. Adattato dalla metodologia Superpowers per lo sviluppo software, si concentra sulla preregistrazione. Funziona senza dipendenze di terze parti e si integra con vari harness AI come Cursor, Claude Code e Gemini CLI.

Un framework co-progettato per l'editing video in streaming ad alta risoluzione su GPU consumer, ottimizzato per consistenza temporale e throughput.

SANA-Streaming: Editing Video in Tempo Reale con Transformer a Diffusione Ibrido

SANA-Streaming è un framework co-progettato per l'editing video in tempo reale su GPU consumer. Utilizza un transformer a diffusione ibrido e una regolarizzazione ciclo-inversa per garantire consistenza temporale e throughput elevato, raggiungendo 24 FPS a 1280x704 su una singola RTX 5090.

Scopri il framework che integra text-to-audio, text-to-speech e clonazione vocale zero-shot in un unico modello a pesi unificati.

Come UNISON Unifica Generazione ed Editing Audio con Deep LLM

UNISON è un framework unificato di flow-matching latente per la generazione e l'editing di audio e parlato. Utilizzando un singolo set di pesi, integra text-to-audio, text-to-speech, clonazione vocale zero-shot e editing di scene audio/vocali in un unico modello, architettura e passaggio in avanti.

Un'innovativa architettura di NVIDIA per l'intelligenza artificiale che comprende e interagisce con il mondo fisico attraverso molteplici modalità.

Cosmos 3: Modelli di Mondo Omnimodali per l'IA Fisica

Presentazione di Cosmos 3, un framework di NVIDIA per la costruzione di modelli di mondo omnimodali. Questo sistema consente all'IA di comprendere e prevedere dinamiche fisiche complesse, migliorando le capacità di robotica e interazione nel mondo reale.

Scopri le capacità all'avanguardia di Ideogram 4, con prompting JSON strutturato, rendering testo multilingue e prestazioni leader nei benchmark di design.

Ideogram 4: Il Modello Text-to-Image Open-Weight Che Ridefinisce la Generazione

Ideogram 4 è il primo modello text-to-image open-weight di Ideogram, addestrato da zero. Offre un'interfaccia di prompting JSON strutturata, rendering testo multilingue di alta qualità, comprensione linguistica profonda, controllo layout/colore e immagini 2K native. Eccelle nei benchmark Design Arena e ContraLabs.

Scopri come un nuovo framework basato sui modelli di diffusione rivoluziona l'addestramento di Transformer profondi, riducendo drasticamente il consumo di memoria.

Come DiffusionBlocks Supera il Muro della Memoria nel Deep Learning

Esplora DiffusionBlocks, un approccio innovativo che trasforma le reti residuali in processi di diffusione per addestrare modelli di deep learning profondi in modo efficiente. Supera i limiti di memoria dell'addestramento end-to-end e sblocca nuove possibilità per l'IA generativa.

Uno studio controllato rivela l'impatto della parametrizzazione del target nella generazione di immagini latenti, dimostrando che non è una semplice riscrittura algebrica.

Perché la Predizione del Latente Pulito Supera Quella di Velocità nei Modelli Diffusivi

Esplora come la scelta del target di predizione influenzi le prestazioni dei modelli diffusivi in spazi latenti compressi. Questo articolo analizza JLT, un Transformer latente che predice il latente pulito, superando i modelli basati sulla predizione di velocità e fornendo approfondimenti cruciali sulla modellazione geometrica.

Nuovo meccanismo ispirato al sonno migliora le prestazioni dei LLM nei compiti a lungo raggio, preservando la latenza di inferenza.

Modelli Linguistici: Un "Sonno" per Contesto Lungo Efficiente

Uno studio propone una fase di "sonno" offline per i modelli linguistici, convertendo il contesto recente in fast weights persistenti e svuotando la cache. Questo approccio risolve il problema della scalabilità dell'attenzione, migliorando le prestazioni nei benchmark a orizzonte lungo senza costi aggiuntivi di inferenza.

Scopri il ruolo cruciale della distribuzione gaussiana e le implicazioni del teorema "se e solo se" per l'apprendimento di rappresentazioni latenti.

Come LeJEPA Raggiunge l'Identificabilità Lineare dei World Model

Questo articolo esplora come LeJEPA, bilanciando allineamento e regolarizzazione gaussiana, riesca a identificare linearmente i world model. Approfondiamo il perché la gaussianità sia essenziale per il recupero lineare e le conseguenze della sua assenza, fornendo una comprensione chiara delle basi teoriche e delle evidenze empiriche.