Addestramento
Page 1 of 3

dots.tts: Un Modello Fondamentale di Sintesi Vocale Autoregressivo Continuo da 2 Miliardi di Parametri
Presentiamo dots.tts, un modello fondamentale di sintesi vocale autoregressivo continuo da 2B-parametri. Con innovazioni in AudioVAE, condizionamento full-history e post-training autocorrettivo, raggiunge prestazioni medie eccellenti su Seed-TTS-Eval e offre stabilità, clonazione vocale ed espressività emotiva. Include anche distillazione MeanFlow per inferenza a bassa latenza.

q0: Primitivi per il Pre-Addestramento Iper-Epoca nei Modelli Linguistici
Introduzione a q0, un nuovo metodo di pre-addestramento iper-epoca che sfrutta popolazioni di modelli per ottenere una minore perdita di validazione con meno epoche. Migliora l'efficienza dei dati fino a 12.9x e offre ricette per l'allocazione del budget computazionale.

SCOPE: Self-Play per Task aperti con Co-Evoluzione di Policy
SCOPE è un framework di self-play data-free che allena modelli linguistici per task aperti co-evolvendo un Challenger e un Solver. Utilizza un self-judge basato sul modello iniziale per valutare le risposte. Migliora le prestazioni fino a +10.4 punti su otto benchmark open-ended e +13.8 punti su QA a formato breve.

Scalabilità di PEFT: Verso Milioni di Modelli Personali con Trillioni di Parametri
Il documento "On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters" esamina le tecniche di Parameter-Efficient Fine-Tuning (PEFT) nel contesto della scalabilità. L'obiettivo è abilitare la creazione di milioni di modelli personalizzati basati su architetture con trillioni di parametri, evidenziando le sfide e le opportunità nell'adattamento di modelli linguistici di grandi dimensioni.

SANA-Streaming: Editing Video in Tempo Reale con Transformer a Diffusione Ibrido
SANA-Streaming è un framework co-progettato per l'editing video in tempo reale su GPU consumer. Utilizza un transformer a diffusione ibrido e una regolarizzazione ciclo-inversa per garantire consistenza temporale e throughput elevato, raggiungendo 24 FPS a 1280x704 su una singola RTX 5090.

Harness-1: Reinforcement Learning per Agenti di Ricerca con Esternazione di Stato
Presentazione di Harness-1, un sistema di Reinforcement Learning che impiega "harness" per permettere agli agenti di ricerca di esternalizzare il proprio stato, ottimizzando le prestazioni e la gestione delle informazioni.

Cosmos 3: Modelli di Mondo Omnimodali per l'IA Fisica
Presentazione di Cosmos 3, un framework di NVIDIA per la costruzione di modelli di mondo omnimodali. Questo sistema consente all'IA di comprendere e prevedere dinamiche fisiche complesse, migliorando le capacità di robotica e interazione nel mondo reale.

Ideogram 4: Il Modello Text-to-Image Open-Weight Che Ridefinisce la Generazione
Ideogram 4 è il primo modello text-to-image open-weight di Ideogram, addestrato da zero. Offre un'interfaccia di prompting JSON strutturata, rendering testo multilingue di alta qualità, comprensione linguistica profonda, controllo layout/colore e immagini 2K native. Eccelle nei benchmark Design Arena e ContraLabs.

Come Funziona Nemotron-3-Ultra-550B-A55B-BF16
Nemotron-3-Ultra-550B-A55B-BF16 è un LLM all'avanguardia di NVIDIA, ottimizzato per agenti complessi, analisi di contesto lungo e ragionamento ad alta precisione. Utilizza un'architettura ibrida LatentMoE con Mamba-2, MoE e Attention, integrando Multi-Token Prediction per prestazioni superiori. Supporta 10 lingue e licenza OpenMDW.

Come DiffusionBlocks Supera il Muro della Memoria nel Deep Learning
Esplora DiffusionBlocks, un approccio innovativo che trasforma le reti residuali in processi di diffusione per addestrare modelli di deep learning profondi in modo efficiente. Supera i limiti di memoria dell'addestramento end-to-end e sblocca nuove possibilità per l'IA generativa.

Come la Ricerca Evolutiva Bidirezionale Migliora l'Auto-Miglioramento degli LLM
Questo articolo esplora la Ricerca Evolutiva Bidirezionale (BES), un nuovo framework che affronta i colli di bottiglia del campionamento negli LLM. Impara come gli operatori evolutivi e il feedback denso della scomposizione degli obiettivi permettono a BES di scoprire soluzioni complesse, migliorando l'auto-miglioramento dei modelli linguistici.

Perché la Predizione del Latente Pulito Supera Quella di Velocità nei Modelli Diffusivi
Esplora come la scelta del target di predizione influenzi le prestazioni dei modelli diffusivi in spazi latenti compressi. Questo articolo analizza JLT, un Transformer latente che predice il latente pulito, superando i modelli basati sulla predizione di velocità e fornendo approfondimenti cruciali sulla modellazione geometrica.