Memoria
Page 1 of 1

mnemo: Guida Pratica alla Memoria Locale Persistente per LLM
mnemo è un layer di memoria local-first per LLM che fornisce memoria persistente e strutturata tramite un knowledge graph in SQLite. Funziona come servizio sidecar per estrarre entità e relazioni dal testo, costruendo un grafo in-memory per una rapida traversata. Offre un pipeline di recupero a 6 stadi per generare stringhe di contesto ottimizzate. Ideale per sviluppatori che necessitano di controllo completo sulla memoria locale delle loro pipeline LLM.

SANA-Streaming: Editing Video in Tempo Reale con Transformer a Diffusione Ibrido
SANA-Streaming è un framework co-progettato per l'editing video in tempo reale su GPU consumer. Utilizza un transformer a diffusione ibrido e una regolarizzazione ciclo-inversa per garantire consistenza temporale e throughput elevato, raggiungendo 24 FPS a 1280x704 su una singola RTX 5090.

Modelli Linguistici: Un "Sonno" per Contesto Lungo Efficiente
Uno studio propone una fase di "sonno" offline per i modelli linguistici, convertendo il contesto recente in fast weights persistenti e svuotando la cache. Questo approccio risolve il problema della scalabilità dell'attenzione, migliorando le prestazioni nei benchmark a orizzonte lungo senza costi aggiuntivi di inferenza.

ProAct: Rivoluzionare gli Assistenti AI con l'Anticipazione Proattiva
Questo articolo esplora ProAct, un'architettura di agente AI che supera il modello reattivo tradizionale. ProAct utilizza la cronologia del dialogo e la memoria persistente per anticipare i bisogni futuri dell'utente durante i tempi morti, acquisendo evidenze pertinenti e presentandole in modo intelligente. Viene introdotto ProActEval, un benchmark per valutare l'efficacia di questi assistenti proattivi.

Il "Sonno" negli LLM: Consolidamento della Memoria per un Ragionamento Profondo
Questo articolo analizza i limiti dei modelli ibridi attention-SSM per il ragionamento profondo e introduce un meccanismo di "sonno" ispirato alla neuroscienza. Dimostra come la computazione offline per il consolidamento della memoria, prima dell'evizione della cache di attenzione, permetta ai modelli di superare i colli di bottiglia computazionali e migliorare le prestazioni in compiti di simulazione sequenziale complessi, come l'Automa Cellulare Rule 110.

Come la Memoria Persistente Rivoluziona gli Agenti di Codifica AI
Esplora AI-Memory, la soluzione innovativa che dota gli agenti di codifica AI di una memoria persistente sotto forma di wiki Git-based. Apprendi come cattura automaticamente il contesto, facilita l'handoff tra agenti e supporta un'ampia gamma di strumenti, migliorando la produttività e la collaborazione nei progetti di sviluppo AI.

OpenAI: Una Promessa Svuotata e i Costi Nascosti dell'AI Castrata
L'annuncio di Sam Altman di allentare le restrizioni di ChatGPT 4o è accolto con scetticismo e rabbia dagli utenti. L'articolo esplora come le nuove politiche di sicurezza abbiano degradato le prestazioni, causato danni psicologici e manipolato gli utenti, trasformando un potente strumento in un'ombra di sé stesso.

Come ottimizzare le prestazioni di Qwen 3.6 35B con le quantizzazioni ByteShape
Scopri le differenze tra le quantizzazioni NTP e MTP di ByteShape per Qwen 3.6 35B. Include benchmark su RTX 4090, 5090 e CPU, oltre a test della community. Impara perché la bpw più bassa non è sempre la scelta migliore e come MTP può raddoppiare la velocità di generazione su GPU.