Aprendizaje por Refuerzo

Page 1 of 1

Marco de coevolución de políticas para generar tareas y respuestas sin supervisión externa, superando el rendimiento con datos curados.

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje

SCOPE es un marco de autoaprendizaje sin datos para tareas abiertas que coevoluciona un Challenger (generador de tareas) y un Solver (respondedor). Utiliza un auto-juez para evaluar respuestas, mejorando el rendimiento en modelos de 7-8B en benchmarks de tareas abiertas y QA de formato corto.

Un enfoque innovador con arneses para la externalización de estados en la IA.

Harness-1: Aprendizaje por Refuerzo para Agentes de Búsqueda

Harness-1 es un proyecto de aprendizaje por refuerzo diseñado para agentes de búsqueda que utiliza arneses para externalizar estados, mejorando la eficiencia y el rendimiento. El código fuente está disponible en GitHub.

NVIDIA presenta Cosmos 3, un avance en modelos de mundo para la interacción física y el control de robots, combinando visión y lenguaje.

Cosmos 3: Modelos de Mundo Omnimodales para IA Física

Descubre Cosmos 3 de NVIDIA, modelos de mundo omnimodales que potencian la IA física. Este sistema integra visión y lenguaje para permitir a los robots comprender y operar en entornos complejos del mundo real.

El grupo Heretic demuestra que las defensas multimillonarias de los LLM pueden eliminarse por el coste de un café, redefiniendo la economía del alineamiento.

La seguridad de la IA: ¿Un mito de veinte dólares?

Explora cómo el grupo Heretic desmanteló las capas de seguridad de los LLM de Meta por solo 20 dólares, exponiendo la fragilidad del alineamiento y el inmenso coste de oportunidad de la censura en modelos de producción. Un análisis de la asimetría de costes entre la construcción y la eliminación de barreras de seguridad.

Descubre el innovador marco BES que supera las limitaciones del muestreo tradicional en LLM mediante operadores evolutivos y descomposición de objetivos.

Cómo la Búsqueda Evolutiva Bidireccional mejora la automejora de los LLM

Explora la Búsqueda Evolutiva Bidireccional (BES), un nuevo enfoque que combina búsqueda hacia adelante con operadores evolutivos y búsqueda hacia atrás para descomponer objetivos. Aprende cómo BES genera muestras de alta calidad y resuelve problemas complejos que los métodos de muestreo convencionales no pueden, mejorando significativamente la automejora de los LLM.

La empresa de IA MiniMax revela detalles de su serie M2 y presenta M3, un modelo que promete eficiencia computacional con su innovadora Atención Dispersa.

MiniMax lanza informe M2 y adelanta M3 con Atención Dispersa

MiniMax publica un informe técnico detallando sus modelos M2, M2.5 y M2.7, destacando su arquitectura MoE y pensamiento intercalado. Además, adelanta M3, que introduce MiniMax Sparse Attention para reducir la carga computacional en contextos ultra largos, logrando aceleraciones significativas en latencia y velocidad de generación.

Macaron-A2UI introduce interfaces de usuario dinámicas para mejorar la interacción con agentes de IA, superando las limitaciones del texto plano.

IU Generativa: Más Allá del Texto en Agentes de IA

Este artículo explora Macaron-A2UI, un modelo que permite a los agentes de IA generar lenguaje natural y acciones de IU ligeras. Presenta el corpus A2UI para el entrenamiento y A2UI-Bench para la evaluación estructurada, detallando un enfoque de entrenamiento en dos etapas para mejorar la capacidad de los agentes de IA para manejar interacciones complejas.

Modelos de Lenguaje Recursivos (RLM) de SkyRL permiten meta-razonamiento con agentes hijos en sandboxes de Python con estado, redefiniendo la capacidad de "pensar" de los modelos.

El Techo de la Recursión en LLM es un Mito: NovaSky lo Demuestra

Descubre cómo NovaSky-AI/SkyRL rompe las limitaciones de los LLM con su innovadora implementación de Modelos de Lenguaje Recursivos (RLM). Mediante agentes hijos que razonan en sandboxes de Python con estado, ejecutan código y consultan submodelos, SkyRL convierte entornos planos en árboles de razonamiento multi-agente, marcando un antes y un después en la IA.

xAI completa el entrenamiento de su modelo fundacional de 1,5 billones de parámetros, triplicando la escala de su predecesor y enfocándose en programación avanzada.

Grok V9-Medium Finaliza Entrenamiento, Lanzamiento en Junio

Elon Musk confirma la finalización del entrenamiento de Grok V9-Medium, el nuevo modelo de xAI con 1,5 billones de parámetros. Se espera su lanzamiento público en junio de 2026 tras las fases de fine-tuning y aprendizaje por refuerzo, con un fuerte enfoque en capacidades de programación.