Addestramento

Page 2 of 3

Scopri il ruolo cruciale della distribuzione gaussiana e le implicazioni del teorema "se e solo se" per l'apprendimento di rappresentazioni latenti.

Come LeJEPA Raggiunge l'Identificabilità Lineare dei World Model

Questo articolo esplora come LeJEPA, bilanciando allineamento e regolarizzazione gaussiana, riesca a identificare linearmente i world model. Approfondiamo il perché la gaussianità sia essenziale per il recupero lineare e le conseguenze della sua assenza, fornendo una comprensione chiara delle basi teoriche e delle evidenze empiriche.

MiniMax pubblica un report dettagliato sulla serie M2, introducendo il "pensiero interlacciato" e il sistema Forge, e preannuncia M3 con la tecnologia Sparse Attention per contesti ultra-lunghi.

MiniMax Svela M2 e Anticipa M3 con Rivoluzionaria Sparse Attention

MiniMax, azienda AI sostenuta da Tencent e Alibaba, ha rilasciato un report tecnico sulla sua serie M2 (M2, M2.5, M2.7) e ha offerto un'anteprima del futuro modello M3. Quest'ultimo promette un'efficienza computazionale rivoluzionaria grazie alla MiniMax Sparse Attention (MSA), ottimizzando le prestazioni su sequenze di token estese.

Scopri le innovazioni tecniche di MOSS-SoundEffect v2.0, il modello text-to-audio basato su Diffusion Transformer e Flow Matching per sintesi sonora ad alta fedeltà.

Come Funziona MOSS-SoundEffect v2.0: Generazione Audio di Nuova Generazione

Esplora MOSS-SoundEffect v2.0, un modello text-to-audio all'avanguardia che utilizza un Diffusion Transformer e Flow Matching per generare effetti sonori realistici a 48 kHz. Impara come funziona, le sue caratteristiche principali e le impostazioni consigliate per una sintesi sonora flessibile e di alta qualità.

Un nuovo approccio per adattare i LLM a nuovi domini tramite documenti di competenze addestrabili, anche per modelli closed-source.

SkillOpt: Ottimizzazione di Competenze per Modelli Linguistici

SkillOpt introduce un framework per l'ottimizzazione iterativa di "documenti di competenze" in linguaggio naturale. Questo sistema permette ai modelli linguistici di acquisire nuove procedure operative attraverso un processo di apprendimento controllato, senza modificare i pesi del modello. Ideale per l'adattamento di LLM chiusi e congelati.

Esplorando come il consolidamento offline ispirato al replay ippocampale migliora il ragionamento sequenziale profondo nei modelli linguistici ibridi.

Il "Sonno" negli LLM: Consolidamento della Memoria per un Ragionamento Profondo

Questo articolo analizza i limiti dei modelli ibridi attention-SSM per il ragionamento profondo e introduce un meccanismo di "sonno" ispirato alla neuroscienza. Dimostra come la computazione offline per il consolidamento della memoria, prima dell'evizione della cache di attenzione, permetta ai modelli di superare i colli di bottiglia computazionali e migliorare le prestazioni in compiti di simulazione sequenziale complessi, come l'Automa Cellulare Rule 110.

SkyRL introduce un'infrastruttura di meta-ragionamento che permette ai LLM di generare agenti figli e ragionare ricorsivamente in sandbox Python stateful.

I Modelli Linguistici Ricorsivi Frantumano il Mito del Limite di Contesto

Scopri come i Recursive Language Models (RLM) di SkyRL stanno ridefinendo le capacità dei LLM. Con sandbox Python persistenti e la capacità di generare agenti figli, questi modelli superano i limiti tradizionali del contesto, imparando a pensare per passi e a costruire alberi di ragionamento complessi. Un'innovazione che riscrive le regole dell'intelligenza artificiale.

xAI annuncia la conclusione dell'addestramento del modello fondazionale da 1,5 trilioni di parametri, triplicando le dimensioni del predecessore e migliorando la programmazione.

Grok V9-Medium Completa Addestramento, Rilascio Previsto a Giugno

xAI ha completato l'addestramento di Grok V9-Medium, un modello AI da 1,5 trilioni di parametri, con rilascio pubblico atteso a giugno 2026. Il nuovo sistema migliora significativamente le capacità di programmazione e risolve le criticità del predecessore v8-small, puntando a una maggiore completezza e qualità dei dati.

La ricerca dimostra che la conoscenza procedurale può essere interiorizzata nei pesi, eliminando l'orchestratore esterno e abbattendo i costi operativi.

Come compilare flussi di lavoro complessi in piccoli modelli linguistici

Un team di Melbourne ha messo a punto un metodo per incorporare interi flussi di lavoro in un piccolo LLM, ottenendo prestazioni pari o superiori a modelli 70× più grandi nei task di prenotazione, supporto tecnico e assicurazioni.

Una famiglia di modelli completamente addestrati per la generazione di immagini anime, basata sull'architettura S3-DiT con 6 miliardi di parametri.

Z-Anime: Modello Anime con Fine-Tuning Completo su Z-Image Base

Z-Anime è un fine-tuning completo dell'architettura Z-Image Base di Alibaba, non un merge LoRA. Offre qualità elevata, diversità stilistica, supporto per prompt in linguaggio naturale e negative prompt, con varianti BF16, FP8, GGUF e AIO. Compatibile con 8GB VRAM e pronto per training LoRA.

Creato da Team Juggernaut e KandooAI, rilasciato da RunDiffusion: luci, texture e anatomia migliorate per ritratti e scene cinematografiche.

Juggernaut Z: un fine-tuning cinematografico per Z-Image

Juggernaut Z è un fine-tuning di Z-Image Base, ottimizzato per illuminazione drammatica, messa a fuoco nitida, texture della pelle più naturale e miglioramenti nell'anatomia e nella composizione. Include pesi completi, varianti FP16, FP8 e quantizzazioni GGUF. Ideale per lavori editoriali, concettuali e cinematografici.

Modello open-source da 2.6B parametri per video 720p di 60 secondi con controllo camera, 36x più veloce di modelli precedenti

SANA-WM: Modello mondiale bidirezionale per video di un minuto

SANA-WM è un world model bidirezionale open-source che genera video 720p di un minuto con controllo 6-DoF. Basato su un diffusion transformer ibrido lineare, è addestrato su 213K video pubblici e funziona su meno di 8 GB VRAM. Include un raffinatore LTX-2 per decodifica ad alta fedeltà.

Addestramento e inferenza efficienti per modelli di diffusione autoregressivi a lunghissimo termine con parallelismo di sequenza e quantizzazione a 4 bit

LongLive-2.0: Infrastruttura Parallela NVFP4 per Video Lunghi

LongLive-2.0 presenta un'infrastruttura parallela basata su NVFP4 per l'intero flusso di addestramento e inferenza nella generazione di video lunghi. Include addestramento AR con parallelismo di sequenza bilanciato (Balanced SP) e quantizzazione NVFP4 per ridurre memoria e accelerare GEMM. Per l'inferenza su GPU Blackwell, supporta W4A4 e cache KV quantizzata, oltre a decodifica VAE asincrona. Raggiunge speedup fino a 2.15x in addestramento e 1.84x in inferenza, con 45.7 FPS per il modello 5B.