Addestramento
Contenuto segnaposto per l'Addestramento.

dots.tts: Un Modello Fondamentale di Sintesi Vocale Autoregressivo Continuo da 2 Miliardi di Parametri
Presentiamo dots.tts, un modello fondamentale di sintesi vocale autoregressivo continuo da 2B-parametri. Con innovazioni in AudioVAE, condizionamento full-history e post-training autocorrettivo, raggiunge prestazioni medie eccellenti su Seed-TTS-Eval e offre stabilità, clonazione vocale ed espressività emotiva. Include anche distillazione MeanFlow per inferenza a bassa latenza.

q0: Primitivi per il Pre-Addestramento Iper-Epoca nei Modelli Linguistici
Introduzione a q0, un nuovo metodo di pre-addestramento iper-epoca che sfrutta popolazioni di modelli per ottenere una minore perdita di validazione con meno epoche. Migliora l'efficienza dei dati fino a 12.9x e offre ricette per l'allocazione del budget computazionale.

SCOPE: Self-Play per Task aperti con Co-Evoluzione di Policy
SCOPE è un framework di self-play data-free che allena modelli linguistici per task aperti co-evolvendo un Challenger e un Solver. Utilizza un self-judge basato sul modello iniziale per valutare le risposte. Migliora le prestazioni fino a +10.4 punti su otto benchmark open-ended e +13.8 punti su QA a formato breve.

SANA-Streaming: Editing Video in Tempo Reale con Transformer a Diffusione Ibrido
SANA-Streaming è un framework co-progettato per l'editing video in tempo reale su GPU consumer. Utilizza un transformer a diffusione ibrido e una regolarizzazione ciclo-inversa per garantire consistenza temporale e throughput elevato, raggiungendo 24 FPS a 1280x704 su una singola RTX 5090.

Harness-1: Reinforcement Learning per Agenti di Ricerca con Esternazione di Stato
Presentazione di Harness-1, un sistema di Reinforcement Learning che impiega "harness" per permettere agli agenti di ricerca di esternalizzare il proprio stato, ottimizzando le prestazioni e la gestione delle informazioni.

Cosmos 3: Modelli di Mondo Omnimodali per l'IA Fisica
Presentazione di Cosmos 3, un framework di NVIDIA per la costruzione di modelli di mondo omnimodali. Questo sistema consente all'IA di comprendere e prevedere dinamiche fisiche complesse, migliorando le capacità di robotica e interazione nel mondo reale.

Come DiffusionBlocks Supera il Muro della Memoria nel Deep Learning
Esplora DiffusionBlocks, un approccio innovativo che trasforma le reti residuali in processi di diffusione per addestrare modelli di deep learning profondi in modo efficiente. Supera i limiti di memoria dell'addestramento end-to-end e sblocca nuove possibilità per l'IA generativa.

Perché la Predizione del Latente Pulito Supera Quella di Velocità nei Modelli Diffusivi
Esplora come la scelta del target di predizione influenzi le prestazioni dei modelli diffusivi in spazi latenti compressi. Questo articolo analizza JLT, un Transformer latente che predice il latente pulito, superando i modelli basati sulla predizione di velocità e fornendo approfondimenti cruciali sulla modellazione geometrica.

Come LeJEPA Raggiunge l'Identificabilità Lineare dei World Model
Questo articolo esplora come LeJEPA, bilanciando allineamento e regolarizzazione gaussiana, riesca a identificare linearmente i world model. Approfondiamo il perché la gaussianità sia essenziale per il recupero lineare e le conseguenze della sua assenza, fornendo una comprensione chiara delle basi teoriche e delle evidenze empiriche.

SkillOpt: Ottimizzazione di Competenze per Modelli Linguistici
SkillOpt introduce un framework per l'ottimizzazione iterativa di "documenti di competenze" in linguaggio naturale. Questo sistema permette ai modelli linguistici di acquisire nuove procedure operative attraverso un processo di apprendimento controllato, senza modificare i pesi del modello. Ideale per l'adattamento di LLM chiusi e congelati.

Il "Sonno" negli LLM: Consolidamento della Memoria per un Ragionamento Profondo
Questo articolo analizza i limiti dei modelli ibridi attention-SSM per il ragionamento profondo e introduce un meccanismo di "sonno" ispirato alla neuroscienza. Dimostra come la computazione offline per il consolidamento della memoria, prima dell'evizione della cache di attenzione, permetta ai modelli di superare i colli di bottiglia computazionali e migliorare le prestazioni in compiti di simulazione sequenziale complessi, come l'Automa Cellulare Rule 110.

Contenuto del documento mancante: Necessità di input completo
Questo documento evidenzia l'impossibilità di produrre un riassunto basato su evidenze quando manca il contenuto integrale del documento originale. Si sottolinea l'importanza di fornire tutti gli elementi chiave per un'analisi corretta.