ai/news — home

Sistemas Agénticos

SkillOpt: Optimización de Habilidades para Agentes de IA

SkillOpt de Microsoft Research es un optimizador de texto que entrena descripciones de habilidades en lenguaje natural como un estado externo entrenable para agentes congelados. Probado por @omarsar0, mejoró la extracción de figuras de documentos en un 20%, demostrando un marco de prueba y autoevolución para habilidades de agentes.

Flujos de Trabajo Dinámicos en Claude Code

Exploración detallada de los flujos de trabajo dinámicos de Anthropic, su implementación mediante Claude Code como scripts de JavaScript para la orquestación a gran escala de agentes de IA, y su contraste con flujos de trabajo estáticos, subagentes y equipos de agentes. Se cubren casos de uso y disponibilidad.

PentesterFlow: Guía Práctica para Pruebas de Penetración Asistidas por IA

PentesterFlow es un asistente de terminal de código abierto que integra LLMs con herramientas de seguridad reales para pentesting y bug hunting. Resuelve problemas comunes de IA en seguridad, ofreciendo flujos de trabajo específicos, integración de herramientas, supervisión humana y auditabilidad, con soporte para sesiones y aprendizaje continuo.

¿Es LMAOMoba un hito en el desarrollo de juegos con IA?

Un MOBA web multijugador, parodia de League of Legends, fue desarrollado por Claude 4.8 (Opus) en un fin de semana. El juego, lmaomoba.com, utiliza TypeScript, React, Canvas y PartyKit, con todos los activos de arte generados por IA. Se estima un coste de tokens de 6.600 $ para el proyecto, destacando el flujo de trabajo de IA y la eficiencia de Claude 4.8.

Programación IA

Cómo integrar cualquier LLM con Claude Code usando cc-fleet

Aprende a usar cc-fleet para integrar cualquier modelo de lenguaje grande (LLM) con Claude Code, delegando tareas a agentes subalternos o modelos de un solo uso. Descubre cómo configurar, instalar y gestionar perfiles de proveedores de LLM de forma segura para potenciar tu desarrollo.

SmallCode: Potenciando LLMs locales en tu terminal

Aprende a instalar y usar SmallCode, el agente de codificación nativo de terminal. Optimiza LLMs locales, gestiona el contexto, edita con parches y planifica tareas con una TUI interactiva. Incluye instalación, comandos slash y uso programático.

Cómo la Memoria Persistente Revoluciona los Agentes de Programación con IA

Aprende cómo AI-Memory proporciona memoria persistente a los agentes de programación con IA, permitiéndoles retomar tareas sin perder contexto. Explora sus características clave, desde la captura automática de interacciones hasta la compatibilidad multiagente y multiplataforma, y optimiza el flujo de trabajo de desarrollo con IA.

ADHD: Genera Ideas Innovadoras y Evita el Anclaje Cognitivo

Aprende a usar ADHD para una ideación amplia y estructurada. Esta habilidad para agentes de IA utiliza divergencia y enfoque para generar alternativas no obvias, identificar trampas y profundizar en las mejores ideas, ideal para arquitectura, refactorización y depuración.

Asistentes Personales

Estrategias Avanzadas de Claude: Edición, Crítica y Contexto Largo

Análisis de prácticas comunitarias y preferencias de usuario para el uso de Claude en redacción e investigación. Se abordan técnicas de edición vs. generación, manejo de contexto largo, y métodos para elicitar crítica y desacuerdo de la IA, basándose en experiencias de usuarios de Reddit.

La IA sin Filosofía: Un Peligro para el Razonamiento Profundo

Este artículo argumenta que la integración de la filosofía es esencial para el desarrollo de una inteligencia artificial capaz de ofrecer respuestas más profundas y éticas. Explora cómo el priming filosófico puede mitigar sesgos, fomentar el razonamiento crítico y elevar la calidad de las interacciones con la IA, alejándola de la superficialidad.

La Ficción Como Herramienta Definitiva Para Entender Conceptos Complejos

Explora la técnica de prompting de Amanda Askell (Anthropic) que usa fábulas para la comprensión conceptual. Este método aprovecha la fricción cognitiva y la "revelación" para explicar ideas complejas sin nombrarlas directamente, reflejando la filosofía de alineación de Claude.

Emprendedor con TDAH renueva flota de autocaravanas con Claude AI

Un emprendedor con TDAH transformó su negocio de alquiler de autocaravanas en Los Ángeles usando Claude AI para renovar interiores, materiales de marketing y herramientas. Este enfoque, que el propietario describe como una "trampa de dopamina", resultó en una flota de 20 vehículos sin fallos para el cliente, incluso tras el Burning Man.

LLMs

Qué es LFM2.5-8B-A1B: Modelos Híbridos para Despliegue en Dispositivo

LFM2.5-8B-A1B es un modelo híbrido diseñado para el despliegue en dispositivos, ofreciendo rendimiento competitivo con modelos más grandes. Ideal para asistentes personales, encadenamiento de herramientas y tareas de agente, con soporte para vLLM, llama.cpp y MLX.

Nemotron-3-Ultra-550B: Arquitectura LatentMoE de NVIDIA para IA de Frontera

Nemotron-3-Ultra-550B-A55B-BF16 es un LLM de NVIDIA de 550B parámetros con arquitectura LatentMoE (Mamba-2 + MoE + Atención). Diseñado para razonamiento avanzado, flujos de trabajo de agentes complejos y análisis de contexto largo, soporta múltiples idiomas y es ideal para aplicaciones de IA de alto rendimiento.

Nuevo Mecanismo "Sueño" Mejora Modelos de Lenguaje en Contexto Largo

Un estudio reciente introduce un innovador mecanismo inspirado en el sueño para modelos de lenguaje, que permite procesar contextos largos de manera eficiente. Este método convierte el contexto reciente en "pesos rápidos" persistentes durante una fase de sueño fuera de línea, vaciando la caché clave-valor y mejorando el rendimiento en tareas complejas sin aumentar el costo de inferencia en línea.

MiniMax lanza informe M2 y adelanta M3 con Atención Dispersa

MiniMax publica un informe técnico detallando sus modelos M2, M2.5 y M2.7, destacando su arquitectura MoE y pensamiento intercalado. Además, adelanta M3, que introduce MiniMax Sparse Attention para reducir la carga computacional en contextos ultra largos, logrando aceleraciones significativas en latencia y velocidad de generación.

Audio

UNISON: Generación y Edición Unificada de Sonido con Fusión de LLM Profundo

UNISON es un marco unificado de flujo de coincidencia latente para la generación y edición de audio y voz. Utilizando un único conjunto de pesos, integra texto a audio, texto a voz, clonación de hablantes, generación de escenas mixtas y edición de audio/voz en un solo modelo y arquitectura.

¿Cómo funciona MOSS-SoundEffect v2.0?

Explora MOSS-SoundEffect v2.0, el modelo de texto a audio que revoluciona la generación de efectos de sonido. Aprende sobre su arquitectura Diffusion Transformer, el uso de Flow Matching, y cómo genera audio de 48 kHz controlable en duración y multilingüe.

Imágenes

Experimento de Generación de Imágenes IA con Prompts de Emojis en r/ChatGPT

Un usuario de r/ChatGPT comparte un experimento de generación de imágenes IA utilizando únicamente prompts de emojis, obteniendo resultados "sorprendentemente buenos". La publicación incluye ejemplos de prompts y la respuesta del AutoModerator con instrucciones para la comunidad.

Ideogram 4: El Modelo de Texto a Imagen de Código Abierto Líder

Ideogram 4 es el primer modelo de texto a imagen de código abierto de Ideogram, entrenado desde cero. Ofrece renderizado de texto multilingüe, comprensión profunda del lenguaje, control de diseño y resolución 2k, superando a otros modelos en benchmarks como Design Arena y ContraLabs.

Cómo Bonsai Ternary 4B revoluciona la difusión texto-imagen

Explora Bonsai Image Ternary 4B, un modelo compacto de difusión texto-imagen basado en FLUX.2 Klein 4B. Aprende cómo los pesos ternarios reducen su tamaño 6.4x, mejorando la eficiencia y el rendimiento en diversas plataformas, y su impacto en la frontera calidad-tamaño.

Z-Anime: Fine-Tune Completo para Generación Anime sobre Z-Image Base

Z-Anime es un fine-tune completo (no LoRA) de la arquitectura Z-Image Base de Alibaba, adaptado a la generación de estilo anime. Incluye variantes Base, Distill-8-Step y Distill-4-Step en formatos BF16, FP8, GGUF y AIO, con soporte para 8GB VRAM, prompting en lenguaje natural y compatibilidad con LoRA.

Video

SwiftVR: Restauración de Video Generativa en Tiempo Real para GPU de Consumo

SwiftVR es un marco de restauración de video generativa de un solo paso diseñado para transmisiones en vivo. Aborda cuellos de botella en GPU de consumo con atención de ventana desplazada sin máscaras y un autoencoder ligero, logrando 26 FPS a 1080p en una RTX 5090 y 14 FPS a 4K en una H100.

NAVA: Generación Audio-Video Sincronizada y Nativa con Alineación MMDiT

NAVA es un generador conjunto de audio-video de 6.3B parámetros que sintetiza video y audio sincronizados a partir de un único prompt. Utiliza un MMDiT de "Alinear-y-Fusionar" para establecer correspondencia audio-video, permitiendo generación rápida de 720p, audio estéreo de doble canal y control preciso de timbre multi-locutor.

Te han mentido sobre el verdadero avance de la IA de video

Descubre por qué la edición nativa de video por IA, como la demostrada por Gemini Omni, supera con creces la simple generación. Analizamos la "línea divisoria arquitectónica" que separa las herramientas de los juguetes, la "prueba Lumière" que avergüenza a los escépticos y la "trampa del costo" que define el futuro de la producción de video con IA.

SANA-WM: modelo mundial abierto para video de un minuto

SANA-WM es un modelo mundial eficiente y de código abierto entrenado para generar videos de un minuto. Con 2.6B parámetros, ofrece control preciso de cámara, atención híbrida lineal y un pipeline de dos etapas para alta fidelidad. Funciona en menos de 8 GB VRAM y es 36 veces más rápido que modelos previos.

Ajuste Fino

Escalado de PEFT: Hacia Modelos Personales de Trillones de Parámetros

Este artículo examina el escalado de PEFT (Parameter-Efficient Fine-Tuning) para crear "millones de modelos personales" a partir de modelos base de trillones de parámetros. Se analiza cómo esta técnica permite la personalización masiva de modelos de lenguaje de gran escala, abordando los desafíos y oportunidades en la eficiencia y aplicabilidad en inteligencia artificial.

Cómo la Búsqueda Evolutiva Bidireccional mejora la automejora de los LLM

Explora la Búsqueda Evolutiva Bidireccional (BES), un nuevo enfoque que combina búsqueda hacia adelante con operadores evolutivos y búsqueda hacia atrás para descomponer objetivos. Aprende cómo BES genera muestras de alta calidad y resuelve problemas complejos que los métodos de muestreo convencionales no pueden, mejorando significativamente la automejora de los LLM.

IU Generativa: Más Allá del Texto en Agentes de IA

Este artículo explora Macaron-A2UI, un modelo que permite a los agentes de IA generar lenguaje natural y acciones de IU ligeras. Presenta el corpus A2UI para el entrenamiento y A2UI-Bench para la evaluación estructurada, detallando un enfoque de entrenamiento en dos etapas para mejorar la capacidad de los agentes de IA para manejar interacciones complejas.

Guía práctica de can-i-finetune-this: estima VRAM para fine-tuning

can-i-finetune-this estima el consumo de VRAM para fine-tuning con LoRA/QLoRA en GPUs de consumo. Incluye recomendaciones, benchmarks reales, calibración y generación de scripts de entrenamiento listos para usar.

Entrenamiento

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros

Presentamos dots.tts, un modelo de texto-a-voz autoregresivo continuo de 2B parámetros con un espacio latente continuo. Destaca por su AudioVAE multiobjetivo, condicionamiento de historial completo y post-entrenamiento autocorrector, logrando un rendimiento líder en Seed-TTS-Eval y benchmarks de código abierto.

q0: Primitivas para el Preentrenamiento Hiper-Época en Modelos de Lenguaje

Investigadores de 1Q Labs y Princeton University presentan q0, un enfoque de preentrenamiento hiper-época que convierte el presupuesto multi-época en una población de modelos. Esto logra una pérdida de validación menor y una eficiencia de datos hasta 12.9 veces mayor en comparación con modelos únicos.

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje

SCOPE es un marco de autoaprendizaje sin datos para tareas abiertas que coevoluciona un Challenger (generador de tareas) y un Solver (respondedor). Utiliza un auto-juez para evaluar respuestas, mejorando el rendimiento en modelos de 7-8B en benchmarks de tareas abiertas y QA de formato corto.

SANA-Streaming: Edición de Video en Tiempo Real con Transformador Híbrido de Difusión

Presentamos SANA-Streaming, un sistema-algoritmo co-diseñado para la edición de video en streaming de alta resolución y en tiempo real. Utiliza una arquitectura de Transformador de Difusión Híbrido y Regularización Ciclo-Inversa, optimizado para NVIDIA Blackwell (RTX 5090), logrando 24 FPS a 1280x704.

Benchmark

ProAct: Asistentes de IA Proactivos que Anticipan Necesidades del Usuario

Descubre ProAct, una arquitectura de agente de IA que utiliza el tiempo de inactividad para predecir y adquirir información relevante antes de que el usuario la solicite. Este enfoque proactivo reduce el esfuerzo del usuario, acelera la finalización de tareas y mejora la fundamentación factual, evaluado con el nuevo benchmark ProActEval.

Cómo elegir la cuantización GGUF adecuada para Qwen 3.6 35B

Descubre cómo ByteShape cuantizó Qwen 3.6 35B-A3B en formatos GGUF, con análisis de rendimiento en múltiples hardware, recomendaciones para elegir la mejor cuantización según tu equipo, y resultados de usuarios reales. Ideal para optimizar modelos de lenguaje en local.

Gemma 4 MTP: no para hardware potente, sí para configuraciones con poca VRAM

La comunidad de Reddit puso a prueba Gemma 4 MTP. En GPU potentes (RTX 5090, 7900 XTX) no hubo mejora o fue más lento. Solo en configuraciones mixtas VRAM/CPU se duplicó la velocidad. ¿Vale la pena? Los resultados apuntan a un uso de nicho.

Seguridad IA

¿Es la memoria de ChatGPT un obstáculo para la productividad?

La nueva función de memoria de ChatGPT, que genera resúmenes automáticos de conversaciones, genera controversia en r/ChatGPT. Usuarios reportan intrusión, irrelevancia y problemas en proyectos estructurados, cuestionando su utilidad y control.

La seguridad de la IA: ¿Un mito de veinte dólares?

Explora cómo el grupo Heretic desmanteló las capas de seguridad de los LLM de Meta por solo 20 dólares, exponiendo la fragilidad del alineamiento y el inmenso coste de oportunidad de la censura en modelos de producción. Un análisis de la asimetría de costes entre la construcción y la eliminación de barreras de seguridad.

Qué es MLLM-Jailbreak-Bench y cómo evaluar la seguridad de LLM multimodales

Aprende sobre MLLM-Jailbreak-Bench, una herramienta esencial para evaluar la seguridad de los Modelos de Lenguaje Grandes Multimodales (MLLM). Entiende sus métricas clave como ASR, calidad de rechazo y error de calibración, y cómo utilizarlas para identificar vulnerabilidades reales y evitar falsos positivos. Ideal para desarrolladores y profesionales de seguridad.

OpenAI: De Promesas Vaciadas a Herramientas Dañinas

Este artículo examina cómo las restricciones de seguridad y el declive en el rendimiento de GPT-4o han afectado a sus usuarios de pago. Desde promesas incumplidas y falsos positivos hasta manipulación encubierta y una pérdida drástica de calidad, OpenAI enfrenta una crisis de confianza con su base de suscriptores.

Procesamiento de Documentos

NuExtract3: El Decodificador Universal que Transforma Documentos Estructurados

Aprende sobre NuExtract3, un modelo de pesos abiertos basado en Qwen3.5-4B que extrae datos estructurados de documentos visualmente complejos. Conoce sus capacidades, como la conversión a Markdown o JSON, su eficiencia para ejecutarse localmente y su innovador manejo de tablas HTML, eliminando la necesidad de costosos OCR en la nube.

Memoria

mnemo: Capa de Memoria Local-First para LLMs

mnemo es una capa de memoria local-first para cualquier LLM, resolviendo la pérdida de contexto entre sesiones. Ofrece memoria persistente y estructurada sin dependencia de la nube, utilizando un grafo de conocimiento en SQLite y un servicio sidecar para la extracción y recuperación de entidades.

Comunidades y Debates

¿Es Claude Opus 4.8 realmente un avance? Problemas de coherencia y coste

La comunidad de Reddit reporta que Claude Opus 4.8 exhibe autocontradicción y duda recursiva en su "burbuja de pensamiento", con usuarios describiendo al modelo "argumentando consigo mismo hasta la confusión". También se debaten los cambios en el consumo de tokens y los precios.

La Infraestructura de IA: El Nuevo Campo de Batalla Geopolítico

La competencia global se centra ahora en la infraestructura de IA. EE. UU. invierte $500 mil millones en "Stargate" para la autosuficiencia, China promueve el código abierto para fijar estándares, e India desarrolla un LLM soberano para su población multilingüe, redefiniendo el poder y la seguridad nacional.

¿Quién ostenta el poder digital en África?

África enfrenta una encrucijada digital: la tensión entre la soberanía gubernamental, el dominio de las grandes tecnológicas y los derechos de los usuarios. Este editorial explora la necesidad de plataformas autóctonas, una regulación equilibrada y la presión de la sociedad civil para construir un futuro digital justo y autónomo en el continente.

Soberanía digital europea: el camino entre EE.UU. y China en inteligencia artificial

Un panel de expertos debate la estrategia europea de IA: soberanía digital, la tercera vía entre monopolio estadounidense y democratización china, el impacto del AI Act, la colaboración UK-UE y la necesidad de actuar con rapidez para competir en el ámbito global.