Addestramento
Page 2 of 3

Come LeJEPA Raggiunge l'Identificabilità Lineare dei World Model
Questo articolo esplora come LeJEPA, bilanciando allineamento e regolarizzazione gaussiana, riesca a identificare linearmente i world model. Approfondiamo il perché la gaussianità sia essenziale per il recupero lineare e le conseguenze della sua assenza, fornendo una comprensione chiara delle basi teoriche e delle evidenze empiriche.

MiniMax Svela M2 e Anticipa M3 con Rivoluzionaria Sparse Attention
MiniMax, azienda AI sostenuta da Tencent e Alibaba, ha rilasciato un report tecnico sulla sua serie M2 (M2, M2.5, M2.7) e ha offerto un'anteprima del futuro modello M3. Quest'ultimo promette un'efficienza computazionale rivoluzionaria grazie alla MiniMax Sparse Attention (MSA), ottimizzando le prestazioni su sequenze di token estese.

Come Funziona MOSS-SoundEffect v2.0: Generazione Audio di Nuova Generazione
Esplora MOSS-SoundEffect v2.0, un modello text-to-audio all'avanguardia che utilizza un Diffusion Transformer e Flow Matching per generare effetti sonori realistici a 48 kHz. Impara come funziona, le sue caratteristiche principali e le impostazioni consigliate per una sintesi sonora flessibile e di alta qualità.

SkillOpt: Ottimizzazione di Competenze per Modelli Linguistici
SkillOpt introduce un framework per l'ottimizzazione iterativa di "documenti di competenze" in linguaggio naturale. Questo sistema permette ai modelli linguistici di acquisire nuove procedure operative attraverso un processo di apprendimento controllato, senza modificare i pesi del modello. Ideale per l'adattamento di LLM chiusi e congelati.

Il "Sonno" negli LLM: Consolidamento della Memoria per un Ragionamento Profondo
Questo articolo analizza i limiti dei modelli ibridi attention-SSM per il ragionamento profondo e introduce un meccanismo di "sonno" ispirato alla neuroscienza. Dimostra come la computazione offline per il consolidamento della memoria, prima dell'evizione della cache di attenzione, permetta ai modelli di superare i colli di bottiglia computazionali e migliorare le prestazioni in compiti di simulazione sequenziale complessi, come l'Automa Cellulare Rule 110.

I Modelli Linguistici Ricorsivi Frantumano il Mito del Limite di Contesto
Scopri come i Recursive Language Models (RLM) di SkyRL stanno ridefinendo le capacità dei LLM. Con sandbox Python persistenti e la capacità di generare agenti figli, questi modelli superano i limiti tradizionali del contesto, imparando a pensare per passi e a costruire alberi di ragionamento complessi. Un'innovazione che riscrive le regole dell'intelligenza artificiale.

Grok V9-Medium Completa Addestramento, Rilascio Previsto a Giugno
xAI ha completato l'addestramento di Grok V9-Medium, un modello AI da 1,5 trilioni di parametri, con rilascio pubblico atteso a giugno 2026. Il nuovo sistema migliora significativamente le capacità di programmazione e risolve le criticità del predecessore v8-small, puntando a una maggiore completezza e qualità dei dati.

Come compilare flussi di lavoro complessi in piccoli modelli linguistici
Un team di Melbourne ha messo a punto un metodo per incorporare interi flussi di lavoro in un piccolo LLM, ottenendo prestazioni pari o superiori a modelli 70× più grandi nei task di prenotazione, supporto tecnico e assicurazioni.

Z-Anime: Modello Anime con Fine-Tuning Completo su Z-Image Base
Z-Anime è un fine-tuning completo dell'architettura Z-Image Base di Alibaba, non un merge LoRA. Offre qualità elevata, diversità stilistica, supporto per prompt in linguaggio naturale e negative prompt, con varianti BF16, FP8, GGUF e AIO. Compatibile con 8GB VRAM e pronto per training LoRA.

Juggernaut Z: un fine-tuning cinematografico per Z-Image
Juggernaut Z è un fine-tuning di Z-Image Base, ottimizzato per illuminazione drammatica, messa a fuoco nitida, texture della pelle più naturale e miglioramenti nell'anatomia e nella composizione. Include pesi completi, varianti FP16, FP8 e quantizzazioni GGUF. Ideale per lavori editoriali, concettuali e cinematografici.

SANA-WM: Modello mondiale bidirezionale per video di un minuto
SANA-WM è un world model bidirezionale open-source che genera video 720p di un minuto con controllo 6-DoF. Basato su un diffusion transformer ibrido lineare, è addestrato su 213K video pubblici e funziona su meno di 8 GB VRAM. Include un raffinatore LTX-2 per decodifica ad alta fedeltà.

LongLive-2.0: Infrastruttura Parallela NVFP4 per Video Lunghi
LongLive-2.0 presenta un'infrastruttura parallela basata su NVFP4 per l'intero flusso di addestramento e inferenza nella generazione di video lunghi. Include addestramento AR con parallelismo di sequenza bilanciato (Balanced SP) e quantizzazione NVFP4 per ridurre memoria e accelerare GEMM. Per l'inferenza su GPU Blackwell, supporta W4A4 e cache KV quantizzata, oltre a decodifica VAE asincrona. Raggiunge speedup fino a 2.15x in addestramento e 1.84x in inferenza, con 45.7 FPS per il modello 5B.