ai/news — home

Sistemi Agentici

SkillOpt: Ottimizzazione Testuale per Skill di Agenti IA

SkillOpt di Microsoft Research è un ottimizzatore testuale che addestra descrizioni di skill in linguaggio naturale per agenti IA. Trattando la documentazione come stato esterno addestrabile, consente l'auto-evoluzione delle skill. Dimostrato da `@omarsar0` con un miglioramento del 20% nell'estrazione di figure da documenti.

Workflow Dinamici di Anthropic: Orchestrazione Autonoma con Claude Code

I workflow dinamici di Anthropic permettono a Claude di determinare autonomamente la sequenza di azioni a runtime, contrastando i workflow statici. Con Claude Code, sono script JavaScript che orchestrano subagenti per compiti complessi, offrendo scalabilità e ispezionabilità.

Come usare PentesterFlow per il Pentesting e il Bug Hunting

Scopri PentesterFlow, l'assistente terminale open-source per penetration testing e bug hunting. Integra LLM con strumenti di sicurezza reali per automatizzare, verificare e riportare vulnerabilità, mantenendo il controllo umano. Risolve problemi come allucinazioni AI e integrazione di strumenti, offrendo flussi di lavoro specifici per il dominio.

Il MOBA di Claude 4.8: Sviluppato in un Weekend con IA Generativa

Un MOBA web multiplayer, lmaomoba.com, è stato interamente sviluppato in un weekend usando Claude 4.8 (Opus). Il progetto, che ha sfruttato TypeScript, React e Canvas senza un game engine esterno, ha visto l'IA generare codice, grafica e persino effetti sonori, con un costo stimato di 6.600 $ in token.

Programmazione IA

Come integrare LLM esterni in Claude Code con cc-fleet

cc-fleet consente di utilizzare modelli di linguaggio esterni (DeepSeek, GLM, Qwen, ecc.) come agenti in Claude Code. Questo strumento Go CLI gestisce profili venditore, chiavi API e orchestrazione tmux, risolvendo problemi di sicurezza e credenziali. Installazione e configurazione rapida per estendere le capacità di Claude Code.

Come usare SmallCode: la guida completa per sviluppatori

Questa guida esplora SmallCode, uno strumento potente che abilita piccoli modelli linguistici locali per compiti di programmazione. Impara a installarlo, configurarlo, interagire con la sua TUI e integrarlo programmaticamente per migliorare la tua produttività di coding.

Come la Memoria Persistente Rivoluziona gli Agenti di Codifica AI

Esplora AI-Memory, la soluzione innovativa che dota gli agenti di codifica AI di una memoria persistente sotto forma di wiki Git-based. Apprendi come cattura automaticamente il contesto, facilita l'handoff tra agenti e supporta un'ampia gamma di strumenti, migliorando la produttività e la collaborazione nei progetti di sviluppo AI.

ADHD: Come Generare Idee Innovative e Superare l'Ancoraggio Mentale

ADHD è una skill drop-in per agenti di coding che combatte l'ancoraggio alla prima idea. Impara come utilizzare il suo processo a due fasi (divergenza e focalizzazione) per generare un'ampia gamma di idee, valutarle criticamente e selezionare le migliori soluzioni per problemi di progettazione aperti. Ideale per architettura, naming e refactoring.

Assistenti Personali

Claude per Scrittura e Ricerca: L'Arte di Ottenere il Meglio dall'AI

Guida pratica basata su esperienze utente Reddit sull'uso di Claude per scrittura e ricerca non-code. Strategie per editing, gestione del contesto lungo e tecniche di prompting per ottenere risposte critiche e meno generiche. Include configurazioni utente e approfondimenti tecnici.

L'AI non è abbastanza intelligente: la filosofia come chiave per la profondità

Questo articolo esplora come il "priming" dell'intelligenza artificiale con concetti filosofici possa superare i limiti delle sue risposte attuali, rendendole più profonde, eticamente consapevoli e concettualmente ricche. Analizziamo il potenziale dell'umanistica digitale per sbloccare nuove frontiere nell'interazione AI.

La Tecnica Fable Prompt Rivela: Non Spiegare, Fai Emergere la Comprensione

Esplora la "Tecnica Fable Prompt" di Amanda Askell, ricercatrice di Anthropic, per la comprensione di concetti complessi. Il metodo usa favole indirette, ritardando la rivelazione del concetto per innescare modellazione attiva e attrito cognitivo, allineandosi alla filosofia di design di Claude. Ideale per scenari di teoria dei giochi e allineamento AI.

Imprenditore ADHD Ristruttura Flotta Camper con Claude AI

Un imprenditore con ADHD ha rivoluzionato la sua flotta di 20 camper Winnebago utilizzando Claude AI per il design degli interni, il marketing e la selezione degli strumenti. L'IA ha trasformato la gestione delle sfide legate all'ADHD in un periodo di intensa concentrazione, portando a una ristrutturazione di successo e zero guasti anche dopo il Burning Man.

LLMs

Come LFM2.5-8B-A1B Rivoluziona gli Assistenti Personali On-Device

LFM2.5-8B-A1B è un nuovo modello ibrido da 8.3B parametri, progettato per il deployment on-device. Offre prestazioni competitive e throughput impareggiabile per assistenti personali, supportando tool calls e istruzioni complesse. Ottimizzato per CPU/GPU con compatibilità nativa per llama.cpp, MLX, vLLM e SGLang.

Come Funziona Nemotron-3-Ultra-550B-A55B-BF16

Nemotron-3-Ultra-550B-A55B-BF16 è un LLM all'avanguardia di NVIDIA, ottimizzato per agenti complessi, analisi di contesto lungo e ragionamento ad alta precisione. Utilizza un'architettura ibrida LatentMoE con Mamba-2, MoE e Attention, integrando Multi-Token Prediction per prestazioni superiori. Supporta 10 lingue e licenza OpenMDW.

Modelli Linguistici: Un "Sonno" per Contesto Lungo Efficiente

Uno studio propone una fase di "sonno" offline per i modelli linguistici, convertendo il contesto recente in fast weights persistenti e svuotando la cache. Questo approccio risolve il problema della scalabilità dell'attenzione, migliorando le prestazioni nei benchmark a orizzonte lungo senza costi aggiuntivi di inferenza.

MiniMax Svela M2 e Anticipa M3 con Rivoluzionaria Sparse Attention

MiniMax, azienda AI sostenuta da Tencent e Alibaba, ha rilasciato un report tecnico sulla sua serie M2 (M2, M2.5, M2.7) e ha offerto un'anteprima del futuro modello M3. Quest'ultimo promette un'efficienza computazionale rivoluzionaria grazie alla MiniMax Sparse Attention (MSA), ottimizzando le prestazioni su sequenze di token estese.

Audio

Come UNISON Unifica Generazione ed Editing Audio con Deep LLM

UNISON è un framework unificato di flow-matching latente per la generazione e l'editing di audio e parlato. Utilizzando un singolo set di pesi, integra text-to-audio, text-to-speech, clonazione vocale zero-shot e editing di scene audio/vocali in un unico modello, architettura e passaggio in avanti.

Come Funziona MOSS-SoundEffect v2.0: Generazione Audio di Nuova Generazione

Esplora MOSS-SoundEffect v2.0, un modello text-to-audio all'avanguardia che utilizza un Diffusion Transformer e Flow Matching per generare effetti sonori realistici a 48 kHz. Impara come funziona, le sue caratteristiche principali e le impostazioni consigliate per una sintesi sonora flessibile e di alta qualità.

Immagini

Generazione Immagini AI con Solo Emoji su r/ChatGPT

Un utente di r/ChatGPT ha condiviso esperimenti di generazione di immagini AI utilizzando solo prompt composti da emoji, ottenendo risultati inaspettati. Il post ha generato interesse nella comunità, con istruzioni aggiuntive da AutoModerator.

Ideogram 4: Il Modello Text-to-Image Open-Weight Che Ridefinisce la Generazione

Ideogram 4 è il primo modello text-to-image open-weight di Ideogram, addestrato da zero. Offre un'interfaccia di prompting JSON strutturata, rendering testo multilingue di alta qualità, comprensione linguistica profonda, controllo layout/colore e immagini 2K native. Eccelle nei benchmark Design Arena e ContraLabs.

Come Bonsai Image Ternary 4B rivoluziona la diffusione testo-immagine

Esplora l'innovativo modello Bonsai Image Ternary 4B, un diffusion transformer compatto basato su architettura FLUX.2 Klein 4B. Analizza l'uso dei pesi ternari, che riducono il modello a soli 1,21 GB, le sue prestazioni su diverse GPU e la sua efficienza nel deployment, definendo un nuovo standard per la generazione di immagini AI.

Z-Anime: Modello Anime con Fine-Tuning Completo su Z-Image Base

Z-Anime è un fine-tuning completo dell'architettura Z-Image Base di Alibaba, non un merge LoRA. Offre qualità elevata, diversità stilistica, supporto per prompt in linguaggio naturale e negative prompt, con varianti BF16, FP8, GGUF e AIO. Compatibile con 8GB VRAM e pronto per training LoRA.

Video

SwiftVR: Restauro Video Generativo in Tempo Reale su GPU Consumer

SwiftVR è un framework di restauro video generativo one-step per lo streaming live, ottimizzato per GPU consumer. Affronta i colli di bottiglia dell'attenzione spaziale e degli autoencoder con un'architettura innovativa, raggiungendo 26 FPS a 1080p su RTX 5090 e 14 FPS a 4K su H100.

Come NAVA genera video e audio sincronizzati da un singolo prompt

NAVA è un generatore audio-video con 6.3B parametri che sintetizza video e audio sincronizzati da un singolo prompt, inclusi discorsi multilingue con controllo del timbro di riferimento. Utilizza un'architettura Align-then-Fuse MMDiT per una corrispondenza audio-video nativa.

Ti hanno mentito: la vera svolta dell’AI video non è la generazione

La generazione video è solo la parte facile. La vera prova è l’editing nativo senza re‑rendering, attraverso la conversazione. Gemini Omni ridefinisce il campo, ma il costo in token e i limiti di coerenza tracciano un confine netto tra sperimentazione e produzione.

SANA-WM: Modello mondiale bidirezionale per video di un minuto

SANA-WM è un world model bidirezionale open-source che genera video 720p di un minuto con controllo 6-DoF. Basato su un diffusion transformer ibrido lineare, è addestrato su 213K video pubblici e funziona su meno di 8 GB VRAM. Include un raffinatore LTX-2 per decodifica ad alta fedeltà.

Fine-tuning

Scalabilità di PEFT: Verso Milioni di Modelli Personali con Trillioni di Parametri

Il documento "On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters" esamina le tecniche di Parameter-Efficient Fine-Tuning (PEFT) nel contesto della scalabilità. L'obiettivo è abilitare la creazione di milioni di modelli personalizzati basati su architetture con trillioni di parametri, evidenziando le sfide e le opportunità nell'adattamento di modelli linguistici di grandi dimensioni.

Come la Ricerca Evolutiva Bidirezionale Migliora l'Auto-Miglioramento degli LLM

Questo articolo esplora la Ricerca Evolutiva Bidirezionale (BES), un nuovo framework che affronta i colli di bottiglia del campionamento negli LLM. Impara come gli operatori evolutivi e il feedback denso della scomposizione degli obiettivi permettono a BES di scoprire soluzioni complesse, migliorando l'auto-miglioramento dei modelli linguistici.

Generative UI: Superare i Limiti delle Chat Text-Only con A2UI

Questo articolo esplora Macaron-A2UI, un modello innovativo che permette agli agenti IA di generare risposte testuali e UI interattive. Viene descritta la costruzione di un corpus di dialogo eterogeneo, un benchmark per la valutazione strutturata (A2UI-Bench) e una ricetta di addestramento a due fasi per modelli come Qwen3 e GLM. L'obiettivo è superare le limitazioni delle interfacce puramente testuali.

Can I Finetune This: Guida pratica al fine-tuning LLM su GPU consumer

Scopri come stimare il consumo di VRAM per il fine-tuning di modelli linguistici di grandi dimensioni su GPU consumer. Include benchmark reali, calibrazione automatica e generazione di script di addestramento pronti all'uso con Hugging Face e PEFT.

Addestramento

dots.tts: Un Modello Fondamentale di Sintesi Vocale Autoregressivo Continuo da 2 Miliardi di Parametri

Presentiamo dots.tts, un modello fondamentale di sintesi vocale autoregressivo continuo da 2B-parametri. Con innovazioni in AudioVAE, condizionamento full-history e post-training autocorrettivo, raggiunge prestazioni medie eccellenti su Seed-TTS-Eval e offre stabilità, clonazione vocale ed espressività emotiva. Include anche distillazione MeanFlow per inferenza a bassa latenza.

q0: Primitivi per il Pre-Addestramento Iper-Epoca nei Modelli Linguistici

Introduzione a q0, un nuovo metodo di pre-addestramento iper-epoca che sfrutta popolazioni di modelli per ottenere una minore perdita di validazione con meno epoche. Migliora l'efficienza dei dati fino a 12.9x e offre ricette per l'allocazione del budget computazionale.

SCOPE: Self-Play per Task aperti con Co-Evoluzione di Policy

SCOPE è un framework di self-play data-free che allena modelli linguistici per task aperti co-evolvendo un Challenger e un Solver. Utilizza un self-judge basato sul modello iniziale per valutare le risposte. Migliora le prestazioni fino a +10.4 punti su otto benchmark open-ended e +13.8 punti su QA a formato breve.

SANA-Streaming: Editing Video in Tempo Reale con Transformer a Diffusione Ibrido

SANA-Streaming è un framework co-progettato per l'editing video in tempo reale su GPU consumer. Utilizza un transformer a diffusione ibrido e una regolarizzazione ciclo-inversa per garantire consistenza temporale e throughput elevato, raggiungendo 24 FPS a 1280x704 su una singola RTX 5090.

Benchmark

ProAct: Rivoluzionare gli Assistenti AI con l'Anticipazione Proattiva

Questo articolo esplora ProAct, un'architettura di agente AI che supera il modello reattivo tradizionale. ProAct utilizza la cronologia del dialogo e la memoria persistente per anticipare i bisogni futuri dell'utente durante i tempi morti, acquisendo evidenze pertinenti e presentandole in modo intelligente. Viene introdotto ProActEval, un benchmark per valutare l'efficacia di questi assistenti proattivi.

Come ottimizzare le prestazioni di Qwen 3.6 35B con le quantizzazioni ByteShape

Scopri le differenze tra le quantizzazioni NTP e MTP di ByteShape per Qwen 3.6 35B. Include benchmark su RTX 4090, 5090 e CPU, oltre a test della community. Impara perché la bpw più bassa non è sempre la scelta migliore e come MTP può raddoppiare la velocità di generazione su GPU.

Gemma 4 MTP: vantaggio solo per sistemi con VRAM limitata

Analisi dei test della community su Gemma 4 MTP. Mentre GPU di fascia alta non registrano miglioramenti, configurazioni con VRAM mista e CPU raddoppiano la velocità. Scopri dettagli delle performance e reazioni degli utenti.

Sicurezza IA

La memoria di ChatGPT: un aiuto o un ostacolo inatteso?

Il nuovo sistema di memoria di ChatGPT genera riassunti automatici delle conversazioni passate, sollevando preoccupazioni tra gli utenti di r/ChatGPT. Le critiche riguardano l'irrilevanza delle informazioni memorizzate, la gestione macchinosa e l'impatto negativo sui progetti strutturati.

L'Allineamento degli LLM Costa Milioni, Svanisce per Venti Dollari

Meta ha emesso un ordine di cessazione e desistenza contro Heretic, un gruppo che ha rimosso gli strati di sicurezza dagli LLM a pesi aperti spendendo solo 20 dollari in elettricità. Questo articolo esplora come la "chirurgia dei pesi" automatizzata di Heretic mini l'economia dell'allineamento, trasformando milioni di dollari di investimenti in una spesa irrisoria per l'attaccante.

Cos'è e come usare MLLM-Jailbreak-Bench per valutare gli LLM multimodali

Impara a utilizzare MLLM-Jailbreak-Bench, un framework di valutazione riproducibile, per misurare la propensione degli LLM multimodali a generare output dannosi. Esplora le categorie di attacco, le metriche (ASR, qualità del rifiuto, errore di calibrazione) e come interpretare i risultati per migliorare la sicurezza dei modelli.

OpenAI: Una Promessa Svuotata e i Costi Nascosti dell'AI Castrata

L'annuncio di Sam Altman di allentare le restrizioni di ChatGPT 4o è accolto con scetticismo e rabbia dagli utenti. L'articolo esplora come le nuove politiche di sicurezza abbiano degradato le prestazioni, causato danni psicologici e manipolato gli utenti, trasformando un potente strumento in un'ombra di sé stesso.

Elaborazione Documenti

NuExtract3: Come un Decoder Universale Rende i Documenti Leggibili da una Macchina

Impara come NuExtract3 estrae dati complessi da documenti visivi, convertendoli in Markdown o JSON. Esplora la sua architettura, le capacità local-first e come gestisce le tabelle complesse, rendendo l'estrazione dati accessibile e affidabile.

Memoria

mnemo: Guida Pratica alla Memoria Locale Persistente per LLM

mnemo è un layer di memoria local-first per LLM che fornisce memoria persistente e strutturata tramite un knowledge graph in SQLite. Funziona come servizio sidecar per estrarre entità e relazioni dal testo, costruendo un grafo in-memory per una rapida traversata. Offre un pipeline di recupero a 6 stadi per generare stringhe di contesto ottimizzate. Ideale per sviluppatori che necessitano di controllo completo sulla memoria locale delle loro pipeline LLM.

Comunità e Discussioni

Claude Opus 4.8: L'Auto-Contraddizione nel Pensiero Esteso

Gli utenti di Reddit segnalano auto-contraddizioni e "dubbi ricorsivi" nel "thinking bubble" di Claude Opus 4.8, anche in nuove conversazioni. Viene discussa anche la variazione nel consumo di token e i metodi di accesso.

Sovranità Digitale: La Geopolitica dell'IA Ridisegna il Potere Globale

La sovranità nel XXI secolo è definita dal controllo sull'infrastruttura IA. Stati Uniti, Cina e India investono miliardi per dominare dati, algoritmi e capacità di calcolo, ridefinendo il potere geopolitico e la sicurezza globale.

Africa Digitale: Chi Detiene il Vero Potere?

Esploriamo la crescente tensione tra gli stati africani e le multinazionali tecnologiche globali, evidenziando casi di blocco e multe. L'articolo discute la necessità di piattaforme indigene, una regolamentazione equilibrata e il ruolo della società civile per un futuro digitale sovrano e inclusivo.

Sovranità digitale e IA: la terza via dell'Europa

Analisi del dibattito su come l'Europa possa bilanciare innovazione, regolamentazione e collaborazione internazionale nell'IA, puntando su fiducia, accessibilità e sovranità condivisa, con contributi da esperti globali.