Aprendizaje por Refuerzo
Page 1 of 1

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje
SCOPE es un marco de autoaprendizaje sin datos para tareas abiertas que coevoluciona un Challenger (generador de tareas) y un Solver (respondedor). Utiliza un auto-juez para evaluar respuestas, mejorando el rendimiento en modelos de 7-8B en benchmarks de tareas abiertas y QA de formato corto.

Harness-1: Aprendizaje por Refuerzo para Agentes de Búsqueda
Harness-1 es un proyecto de aprendizaje por refuerzo diseñado para agentes de búsqueda que utiliza arneses para externalizar estados, mejorando la eficiencia y el rendimiento. El código fuente está disponible en GitHub.

Cosmos 3: Modelos de Mundo Omnimodales para IA FÃsica
Descubre Cosmos 3 de NVIDIA, modelos de mundo omnimodales que potencian la IA fÃsica. Este sistema integra visión y lenguaje para permitir a los robots comprender y operar en entornos complejos del mundo real.

La seguridad de la IA: ¿Un mito de veinte dólares?
Explora cómo el grupo Heretic desmanteló las capas de seguridad de los LLM de Meta por solo 20 dólares, exponiendo la fragilidad del alineamiento y el inmenso coste de oportunidad de la censura en modelos de producción. Un análisis de la asimetrÃa de costes entre la construcción y la eliminación de barreras de seguridad.

Cómo la Búsqueda Evolutiva Bidireccional mejora la automejora de los LLM
Explora la Búsqueda Evolutiva Bidireccional (BES), un nuevo enfoque que combina búsqueda hacia adelante con operadores evolutivos y búsqueda hacia atrás para descomponer objetivos. Aprende cómo BES genera muestras de alta calidad y resuelve problemas complejos que los métodos de muestreo convencionales no pueden, mejorando significativamente la automejora de los LLM.

MiniMax lanza informe M2 y adelanta M3 con Atención Dispersa
MiniMax publica un informe técnico detallando sus modelos M2, M2.5 y M2.7, destacando su arquitectura MoE y pensamiento intercalado. Además, adelanta M3, que introduce MiniMax Sparse Attention para reducir la carga computacional en contextos ultra largos, logrando aceleraciones significativas en latencia y velocidad de generación.

IU Generativa: Más Allá del Texto en Agentes de IA
Este artÃculo explora Macaron-A2UI, un modelo que permite a los agentes de IA generar lenguaje natural y acciones de IU ligeras. Presenta el corpus A2UI para el entrenamiento y A2UI-Bench para la evaluación estructurada, detallando un enfoque de entrenamiento en dos etapas para mejorar la capacidad de los agentes de IA para manejar interacciones complejas.

El Techo de la Recursión en LLM es un Mito: NovaSky lo Demuestra
Descubre cómo NovaSky-AI/SkyRL rompe las limitaciones de los LLM con su innovadora implementación de Modelos de Lenguaje Recursivos (RLM). Mediante agentes hijos que razonan en sandboxes de Python con estado, ejecutan código y consultan submodelos, SkyRL convierte entornos planos en árboles de razonamiento multi-agente, marcando un antes y un después en la IA.

Grok V9-Medium Finaliza Entrenamiento, Lanzamiento en Junio
Elon Musk confirma la finalización del entrenamiento de Grok V9-Medium, el nuevo modelo de xAI con 1,5 billones de parámetros. Se espera su lanzamiento público en junio de 2026 tras las fases de fine-tuning y aprendizaje por refuerzo, con un fuerte enfoque en capacidades de programación.