Addestramento

Innovazioni in AudioVAE, condizionamento full-history e post-training autocorrettivo per prestazioni all'avanguardia nella generazione vocale multilingue.

dots.tts: Un Modello Fondamentale di Sintesi Vocale Autoregressivo Continuo da 2 Miliardi di Parametri

Presentiamo dots.tts, un modello fondamentale di sintesi vocale autoregressivo continuo da 2B-parametri. Con innovazioni in AudioVAE, condizionamento full-history e post-training autocorrettivo, raggiunge prestazioni medie eccellenti su Seed-TTS-Eval e offre stabilità, clonazione vocale ed espressività emotiva. Include anche distillazione MeanFlow per inferenza a bassa latenza.

Un approccio innovativo per ottimizzare l'uso della computazione nella fase di pre-addestramento, superando i limiti dei dati e migliorando l'efficienza.

q0: Primitivi per il Pre-Addestramento Iper-Epoca nei Modelli Linguistici

Introduzione a q0, un nuovo metodo di pre-addestramento iper-epoca che sfrutta popolazioni di modelli per ottenere una minore perdita di validazione con meno epoche. Migliora l'efficienza dei dati fino a 12.9x e offre ricette per l'allocazione del budget computazionale.

Un framework data-free che migliora le prestazioni dei modelli linguistici su task complessi tramite sfidanti, risolutori e autovalutazione.

SCOPE: Self-Play per Task aperti con Co-Evoluzione di Policy

SCOPE è un framework di self-play data-free che allena modelli linguistici per task aperti co-evolvendo un Challenger e un Solver. Utilizza un self-judge basato sul modello iniziale per valutare le risposte. Migliora le prestazioni fino a +10.4 punti su otto benchmark open-ended e +13.8 punti su QA a formato breve.

Un framework co-progettato per l'editing video in streaming ad alta risoluzione su GPU consumer, ottimizzato per consistenza temporale e throughput.

SANA-Streaming: Editing Video in Tempo Reale con Transformer a Diffusione Ibrido

SANA-Streaming è un framework co-progettato per l'editing video in tempo reale su GPU consumer. Utilizza un transformer a diffusione ibrido e una regolarizzazione ciclo-inversa per garantire consistenza temporale e throughput elevato, raggiungendo 24 FPS a 1280x704 su una singola RTX 5090.

Un nuovo approccio nell'apprendimento per rinforzo che utilizza "harness" per gestire stati esterni, migliorando l'efficienza e la generalizzazione.

Harness-1: Reinforcement Learning per Agenti di Ricerca con Esternazione di Stato

Presentazione di Harness-1, un sistema di Reinforcement Learning che impiega "harness" per permettere agli agenti di ricerca di esternalizzare il proprio stato, ottimizzando le prestazioni e la gestione delle informazioni.

Un'innovativa architettura di NVIDIA per l'intelligenza artificiale che comprende e interagisce con il mondo fisico attraverso molteplici modalità.

Cosmos 3: Modelli di Mondo Omnimodali per l'IA Fisica

Presentazione di Cosmos 3, un framework di NVIDIA per la costruzione di modelli di mondo omnimodali. Questo sistema consente all'IA di comprendere e prevedere dinamiche fisiche complesse, migliorando le capacità di robotica e interazione nel mondo reale.

Scopri come un nuovo framework basato sui modelli di diffusione rivoluziona l'addestramento di Transformer profondi, riducendo drasticamente il consumo di memoria.

Come DiffusionBlocks Supera il Muro della Memoria nel Deep Learning

Esplora DiffusionBlocks, un approccio innovativo che trasforma le reti residuali in processi di diffusione per addestrare modelli di deep learning profondi in modo efficiente. Supera i limiti di memoria dell'addestramento end-to-end e sblocca nuove possibilità per l'IA generativa.

Uno studio controllato rivela l'impatto della parametrizzazione del target nella generazione di immagini latenti, dimostrando che non è una semplice riscrittura algebrica.

Perché la Predizione del Latente Pulito Supera Quella di Velocità nei Modelli Diffusivi

Esplora come la scelta del target di predizione influenzi le prestazioni dei modelli diffusivi in spazi latenti compressi. Questo articolo analizza JLT, un Transformer latente che predice il latente pulito, superando i modelli basati sulla predizione di velocità e fornendo approfondimenti cruciali sulla modellazione geometrica.

Scopri il ruolo cruciale della distribuzione gaussiana e le implicazioni del teorema "se e solo se" per l'apprendimento di rappresentazioni latenti.

Come LeJEPA Raggiunge l'Identificabilità Lineare dei World Model

Questo articolo esplora come LeJEPA, bilanciando allineamento e regolarizzazione gaussiana, riesca a identificare linearmente i world model. Approfondiamo il perché la gaussianità sia essenziale per il recupero lineare e le conseguenze della sua assenza, fornendo una comprensione chiara delle basi teoriche e delle evidenze empiriche.

Un nuovo approccio per adattare i LLM a nuovi domini tramite documenti di competenze addestrabili, anche per modelli closed-source.

SkillOpt: Ottimizzazione di Competenze per Modelli Linguistici

SkillOpt introduce un framework per l'ottimizzazione iterativa di "documenti di competenze" in linguaggio naturale. Questo sistema permette ai modelli linguistici di acquisire nuove procedure operative attraverso un processo di apprendimento controllato, senza modificare i pesi del modello. Ideale per l'adattamento di LLM chiusi e congelati.

Esplorando come il consolidamento offline ispirato al replay ippocampale migliora il ragionamento sequenziale profondo nei modelli linguistici ibridi.

Il "Sonno" negli LLM: Consolidamento della Memoria per un Ragionamento Profondo

Questo articolo analizza i limiti dei modelli ibridi attention-SSM per il ragionamento profondo e introduce un meccanismo di "sonno" ispirato alla neuroscienza. Dimostra come la computazione offline per il consolidamento della memoria, prima dell'evizione della cache di attenzione, permetta ai modelli di superare i colli di bottiglia computazionali e migliorare le prestazioni in compiti di simulazione sequenziale complessi, come l'Automa Cellulare Rule 110.

Analisi della difficoltà di generare un riassunto accurato senza il testo completo, includendo abstract, metodologia, risultati e figure.

Contenuto del documento mancante: Necessità di input completo

Questo documento evidenzia l'impossibilità di produrre un riassunto basato su evidenze quando manca il contenuto integrale del documento originale. Si sottolinea l'importanza di fornire tutti gli elementi chiave per un'analisi corretta.