LLMs

Scopri il modello ibrido ottimizzato per prestazioni e throughput in applicazioni reali, con supporto day-one per le principali piattaforme di inferenza.

Come LFM2.5-8B-A1B Rivoluziona gli Assistenti Personali On-Device

LFM2.5-8B-A1B è un nuovo modello ibrido da 8.3B parametri, progettato per il deployment on-device. Offre prestazioni competitive e throughput impareggiabile per assistenti personali, supportando tool calls e istruzioni complesse. Ottimizzato per CPU/GPU con compatibilità nativa per llama.cpp, MLX, vLLM e SGLang.

Scopri l'architettura ibrida LatentMoE di NVIDIA per il ragionamento avanzato e l'analisi di contesto lungo.

Come Funziona Nemotron-3-Ultra-550B-A55B-BF16

Nemotron-3-Ultra-550B-A55B-BF16 è un LLM all'avanguardia di NVIDIA, ottimizzato per agenti complessi, analisi di contesto lungo e ragionamento ad alta precisione. Utilizza un'architettura ibrida LatentMoE con Mamba-2, MoE e Attention, integrando Multi-Token Prediction per prestazioni superiori. Supporta 10 lingue e licenza OpenMDW.

Nuovo meccanismo ispirato al sonno migliora le prestazioni dei LLM nei compiti a lungo raggio, preservando la latenza di inferenza.

Modelli Linguistici: Un "Sonno" per Contesto Lungo Efficiente

Uno studio propone una fase di "sonno" offline per i modelli linguistici, convertendo il contesto recente in fast weights persistenti e svuotando la cache. Questo approccio risolve il problema della scalabilità dell'attenzione, migliorando le prestazioni nei benchmark a orizzonte lungo senza costi aggiuntivi di inferenza.

MiniMax pubblica un report dettagliato sulla serie M2, introducendo il "pensiero interlacciato" e il sistema Forge, e preannuncia M3 con la tecnologia Sparse Attention per contesti ultra-lunghi.

MiniMax Svela M2 e Anticipa M3 con Rivoluzionaria Sparse Attention

MiniMax, azienda AI sostenuta da Tencent e Alibaba, ha rilasciato un report tecnico sulla sua serie M2 (M2, M2.5, M2.7) e ha offerto un'anteprima del futuro modello M3. Quest'ultimo promette un'efficienza computazionale rivoluzionaria grazie alla MiniMax Sparse Attention (MSA), ottimizzando le prestazioni su sequenze di token estese.

Scopri le caratteristiche, le varianti e la rivoluzionaria modalità "Think/No Think" di MiniCPM5-1B per prestazioni AI all'avanguardia su dispositivi con risorse limitate.

MiniCPM5-1B: Un Modello AI On-Device da 1B Parametri con Ragionamento Duale

Esplora MiniCPM5-1B, il modello linguistico causale denso da 1B parametri ottimizzato per l'esecuzione on-device. Approfondisci la sua architettura LlamaForCausalLM, la finestra di contesto di 131.072 token e le varianti disponibili (BF16, SFT, GGUF, MLX). Impara come la modalità di chat "Think/No Think" abilita ragionamento complesso e risposte rapide con un unico checkpoint.

Scopri come i modelli linguistici senza censura offrono libertà creativa e controllo, esplorando l'architettura di Qwen3.5-35B-A3B-Heretic-V2 e le sue innovazioni tecniche.

Cosa sono i Modelli Linguistici "Uncensored" e Qwen3.5-35B-A3B-Heretic-V2?

Approfondisci il mondo dei modelli linguistici non censurati e l'impatto di Qwen3.5-35B-A3B-Heretic-V2. Comprendi i vantaggi per ricercatori e sviluppatori, l'architettura Mixture-of-Experts, la Predizione Multi-Token Nativa e i vari formati di distribuzione.

xAI annuncia la conclusione dell'addestramento del modello fondazionale da 1,5 trilioni di parametri, triplicando le dimensioni del predecessore e migliorando la programmazione.

Grok V9-Medium Completa Addestramento, Rilascio Previsto a Giugno

xAI ha completato l'addestramento di Grok V9-Medium, un modello AI da 1,5 trilioni di parametri, con rilascio pubblico atteso a giugno 2026. Il nuovo sistema migliora significativamente le capacità di programmazione e risolve le criticità del predecessore v8-small, puntando a una maggiore completezza e qualità dei dati.

Come un modello di 13 miliardi di parametri, addestrato esclusivamente su testi antecedenti il 1931, generalizza e risponde a domande moderne.

Inside Talkie: il modello linguistico addestrato solo su testi pre-1931

Scopri Talkie, un modello linguistico da 13B parametri sviluppato da Nick Levine, Alec Radford e David Duvenaud, addestrato solo su 260 miliardi di token di testi pubblicati prima del 1931. Analizziamo le fonti, le capacità, le limitazioni e le reazioni della comunità. Un'esplorazione approfondita di questo esperimento di generalizzazione AI.