Addestramento

Page 1 of 3

Innovazioni in AudioVAE, condizionamento full-history e post-training autocorrettivo per prestazioni all'avanguardia nella generazione vocale multilingue.

dots.tts: Un Modello Fondamentale di Sintesi Vocale Autoregressivo Continuo da 2 Miliardi di Parametri

Presentiamo dots.tts, un modello fondamentale di sintesi vocale autoregressivo continuo da 2B-parametri. Con innovazioni in AudioVAE, condizionamento full-history e post-training autocorrettivo, raggiunge prestazioni medie eccellenti su Seed-TTS-Eval e offre stabilità, clonazione vocale ed espressività emotiva. Include anche distillazione MeanFlow per inferenza a bassa latenza.

Un approccio innovativo per ottimizzare l'uso della computazione nella fase di pre-addestramento, superando i limiti dei dati e migliorando l'efficienza.

q0: Primitivi per il Pre-Addestramento Iper-Epoca nei Modelli Linguistici

Introduzione a q0, un nuovo metodo di pre-addestramento iper-epoca che sfrutta popolazioni di modelli per ottenere una minore perdita di validazione con meno epoche. Migliora l'efficienza dei dati fino a 12.9x e offre ricette per l'allocazione del budget computazionale.

Un framework data-free che migliora le prestazioni dei modelli linguistici su task complessi tramite sfidanti, risolutori e autovalutazione.

SCOPE: Self-Play per Task aperti con Co-Evoluzione di Policy

SCOPE è un framework di self-play data-free che allena modelli linguistici per task aperti co-evolvendo un Challenger e un Solver. Utilizza un self-judge basato sul modello iniziale per valutare le risposte. Migliora le prestazioni fino a +10.4 punti su otto benchmark open-ended e +13.8 punti su QA a formato breve.

Esplorazione dell'adattamento efficiente di modelli linguistici di grandi dimensioni per una personalizzazione su vasta scala

Scalabilità di PEFT: Verso Milioni di Modelli Personali con Trillioni di Parametri

Il documento "On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters" esamina le tecniche di Parameter-Efficient Fine-Tuning (PEFT) nel contesto della scalabilità. L'obiettivo è abilitare la creazione di milioni di modelli personalizzati basati su architetture con trillioni di parametri, evidenziando le sfide e le opportunità nell'adattamento di modelli linguistici di grandi dimensioni.

Un framework co-progettato per l'editing video in streaming ad alta risoluzione su GPU consumer, ottimizzato per consistenza temporale e throughput.

SANA-Streaming: Editing Video in Tempo Reale con Transformer a Diffusione Ibrido

SANA-Streaming è un framework co-progettato per l'editing video in tempo reale su GPU consumer. Utilizza un transformer a diffusione ibrido e una regolarizzazione ciclo-inversa per garantire consistenza temporale e throughput elevato, raggiungendo 24 FPS a 1280x704 su una singola RTX 5090.

Un nuovo approccio nell'apprendimento per rinforzo che utilizza "harness" per gestire stati esterni, migliorando l'efficienza e la generalizzazione.

Harness-1: Reinforcement Learning per Agenti di Ricerca con Esternazione di Stato

Presentazione di Harness-1, un sistema di Reinforcement Learning che impiega "harness" per permettere agli agenti di ricerca di esternalizzare il proprio stato, ottimizzando le prestazioni e la gestione delle informazioni.

Un'innovativa architettura di NVIDIA per l'intelligenza artificiale che comprende e interagisce con il mondo fisico attraverso molteplici modalità.

Cosmos 3: Modelli di Mondo Omnimodali per l'IA Fisica

Presentazione di Cosmos 3, un framework di NVIDIA per la costruzione di modelli di mondo omnimodali. Questo sistema consente all'IA di comprendere e prevedere dinamiche fisiche complesse, migliorando le capacità di robotica e interazione nel mondo reale.

Scopri le capacità all'avanguardia di Ideogram 4, con prompting JSON strutturato, rendering testo multilingue e prestazioni leader nei benchmark di design.

Ideogram 4: Il Modello Text-to-Image Open-Weight Che Ridefinisce la Generazione

Ideogram 4 è il primo modello text-to-image open-weight di Ideogram, addestrato da zero. Offre un'interfaccia di prompting JSON strutturata, rendering testo multilingue di alta qualità, comprensione linguistica profonda, controllo layout/colore e immagini 2K native. Eccelle nei benchmark Design Arena e ContraLabs.

Scopri l'architettura ibrida LatentMoE di NVIDIA per il ragionamento avanzato e l'analisi di contesto lungo.

Come Funziona Nemotron-3-Ultra-550B-A55B-BF16

Nemotron-3-Ultra-550B-A55B-BF16 è un LLM all'avanguardia di NVIDIA, ottimizzato per agenti complessi, analisi di contesto lungo e ragionamento ad alta precisione. Utilizza un'architettura ibrida LatentMoE con Mamba-2, MoE e Attention, integrando Multi-Token Prediction per prestazioni superiori. Supporta 10 lingue e licenza OpenMDW.

Scopri come un nuovo framework basato sui modelli di diffusione rivoluziona l'addestramento di Transformer profondi, riducendo drasticamente il consumo di memoria.

Come DiffusionBlocks Supera il Muro della Memoria nel Deep Learning

Esplora DiffusionBlocks, un approccio innovativo che trasforma le reti residuali in processi di diffusione per addestrare modelli di deep learning profondi in modo efficiente. Supera i limiti di memoria dell'addestramento end-to-end e sblocca nuove possibilità per l'IA generativa.

Scopri come il framework BES supera i limiti del campionamento tradizionale negli LLM, combinando ricerca evolutiva e scomposizione degli obiettivi per soluzioni innovative.

Come la Ricerca Evolutiva Bidirezionale Migliora l'Auto-Miglioramento degli LLM

Questo articolo esplora la Ricerca Evolutiva Bidirezionale (BES), un nuovo framework che affronta i colli di bottiglia del campionamento negli LLM. Impara come gli operatori evolutivi e il feedback denso della scomposizione degli obiettivi permettono a BES di scoprire soluzioni complesse, migliorando l'auto-miglioramento dei modelli linguistici.

Uno studio controllato rivela l'impatto della parametrizzazione del target nella generazione di immagini latenti, dimostrando che non è una semplice riscrittura algebrica.

Perché la Predizione del Latente Pulito Supera Quella di Velocità nei Modelli Diffusivi

Esplora come la scelta del target di predizione influenzi le prestazioni dei modelli diffusivi in spazi latenti compressi. Questo articolo analizza JLT, un Transformer latente che predice il latente pulito, superando i modelli basati sulla predizione di velocità e fornendo approfondimenti cruciali sulla modellazione geometrica.