home›Ajuste Fino›

IU Generativa: Más Allá del Texto en Agentes de IA

Macaron-A2UI introduce interfaces de usuario dinámicas para mejorar la interacción con agentes de IA, superando las limitaciones del texto plano.

27 de mayo de 2026

#Académico #Agentes #Ajuste Fino #Aprendizaje por Refuerzo #LLM

Este artículo explora Macaron-A2UI, un modelo que permite a los agentes de IA generar lenguaje natural y acciones de IU ligeras. Presenta el corpus A2UI para el entrenamiento y A2UI-Bench para la evaluación estructurada, detallando un enfoque de entrenamiento en dos etapas para mejorar la capacidad de los agentes de IA para manejar interacciones complejas.

El cuello de botella de los agentes de texto plano

A medida que los agentes personales de IA se vuelven más capaces, las limitaciones de las interfaces estáticas basadas únicamente en chat de texto se hacen cada vez más evidentes. Cuando los usuarios necesitan proporcionar información estructurada, comparar opciones, confirmar decisiones o manejar varios objetivos en un solo turno, las respuestas largas en texto ralentizan la lectura y aumentan la carga cognitiva. La IU generativa —la capacidad de un agente para sintetizar dinámicamente controles interactivos, opciones y estado en tiempo real— surge como la siguiente capa de interfaz necesaria.

El artículo presenta Macaron-A2UI, un modelo que va más allá de la interacción solo texto al permitir que los agentes generen lenguaje natural junto con acciones de IU ligeras y ejecutables. En lugar de producir código arbitrario, el modelo emite mensajes estructurados en A2UI, un protocolo de IU declarativo que un renderizador cliente de confianza traduce en widgets interactivos. Esta separación hace que la generación sea más segura, más portable entre entornos de renderizado y más fácil de validar automáticamente. La pregunta central de investigación es si los modelos pueden interiorizar esta capacidad sin depender de largas instrucciones de esquema en el momento de la inferencia.

Figura 1: Muchos turnos de diálogo que resultan engorrosos en texto plano se vuelven más eficientes cuando el asistente puede renderizar interfaces estructuradas ligeras.

Construcción de un corpus de UI generativa

Entrenar un modelo para que produzca IU contextualmente apropiada y conforme al protocolo requiere datos de supervisión a gran escala. Los autores construyen un corpus a partir de cuatro fuentes de diálogo heterogéneas: asistencia orientada a tareas (MultiWOZ y Schema-Guided Dialogue), apoyo emocional (ESConv) y entrevista motivacional (AnnoMI). Estos se normalizan en un formato unificado de pares (contexto, respuesta), donde cada respuesta puede contener una carga útil A2UI opcional.

Un pipeline híbrido de reglas y LLM anota los datos. Para los conjuntos de datos orientados a tareas, donde las anotaciones de origen ya restringen la semántica de la interacción, un conversor determinista estilo máquina de estados genera superficies y widgets de IU. Para los datos de dominio abierto, se utiliza un proceso de LLM en dos etapas: un pase de Editor decide qué turnos deben contener IU, y un pase de Autor genera el contenido local del componente. Todas las salidas pasan por un posprocesamiento determinista y un pipeline de validación de cuatro niveles que verifica formato, estructura, vinculación de datos y consistencia semántica. El corpus final contiene 14,245 muestras de turnos de asistente, con una proporción de IU del 71.7% y un 99.2% de renderizabilidad tras la reparación.

Figura 2: Visión general del pipeline de construcción del corpus A2UI.

Un punto de referencia para la evaluación estructurada

Para complementar el corpus de entrenamiento, los autores presentan A2UI-Bench, un benchmark específico de 300 tareas diseñado para una evaluación controlada más que para la diversidad a escala de entrenamiento. Las tareas se organizan en tres familias estructurales:

Tareas atómicas: Evaluaciones de un solo turno que miden la capacidad fundamental a nivel de turno para decidir si se necesita IU y para generar una interfaz apropiada.
Tareas de profundidad: Episodios de múltiples turnos que ponen a prueba la consistencia entre turnos, el mantenimiento del estado y la gestión del ciclo de vida de las superficies.
Tareas de amplitud: De un solo turno pero compositivamente más amplias, que requieren que el modelo organice una respuesta unificada que aborde múltiples subobjetivos.

La evaluación opera en tres niveles. L1 mide la corrección del protocolo mediante comprobaciones automáticas de análisis JSON, conformidad con el esquema, integridad referencial y formato de valores. L2 evalúa la calidad de construcción de la tarea a través de jueces LLM sobre la adecuación del disparador, la alineación componente-intención, el anclaje texto-IU, la utilización del modelo de datos y la completitud de las acciones. L3 evalúa la calidad de la experiencia de usuario, incluyendo el valor añadido sobre el texto plano, la naturalidad conversacional y la carga cognitiva. Una capa complementaria de evaluación visual puntúa las capturas de pantalla renderizadas en cuanto a integridad, alineación con la tarea y claridad de las acciones.

Una receta de entrenamiento en dos etapas

El pipeline de entrenamiento combina fine-tuning supervisado (SFT) seguido de Group Relative Policy Optimization (GRPO), ambos utilizando adaptación LoRA eficiente en parámetros. El SFT enseña al modelo el formato básico de respuesta —producir conjuntamente texto fluido y acciones de IU conformes al protocolo— usando un objetivo estándar de verosimilitud logarítmica negativa autorregresiva:

$\mathcal{L}_{\mathrm{SFT}}=-\sum_{t=1}^{T}\log p_{\theta}(y_{t}\mid x,y_{<t})$

Luego, GRPO refina el comportamiento bajo una recompensa orientada a la interacción. Para cada prompt, el modelo muestrea un grupo de respuestas candidatas, las puntúa con una función de recompensa que combina calidad estructural, calidad de construcción de la tarea y utilidad a nivel de usuario, y calcula una ventaja relativa al grupo:

$A_{i,j}=R_{i,j}-\frac{1}{G}\sum_{k=1}^{G}R_{i,k}$

El diseño de la recompensa aplica barreras estructurales estrictas: JSON mal formado, salida requerida faltante o errores críticos de renderizado reciben recompensa cero. Las respuestas que superan estas comprobaciones se puntúan en corrección L1, calidad de tarea L2 y utilidad de usuario L3. Este enfoque en dos etapas se instancia sobre los backbones Qwen3-30B, Qwen3-235B y GLM-5.1.

Resultados: Interiorización de la competencia en UI

El régimen de evaluación principal es el entorno sin esquema (w/o schema), donde los modelos reciben solo instrucciones ligeras del protocolo y deben confiar en la competencia A2UI interiorizada. Los resultados demuestran la eficacia del pipeline a diferentes escalas.

Model	L1	L2	L3	V1	V2	V3	Avg.
GPT-5.4 w/ schema	4.02	3.59	3.27	3.46	3.73	3.17	3.54
Gemini-3.1-Pro w/ schema	4.25	3.20	2.96	3.53	3.55	3.04	3.42
Macaron-A2UI-Grande w/o schema	4.67	3.22	2.91	3.95	3.74	3.47	3.66
Macaron-A2UI-Venti w/o schema	4.47	3.36	3.28	3.95	3.76	3.52	3.72

Para Qwen-30B, el SFT mejora la puntuación global de 19.8 a 37.2, y el RL la impulsa aún más hasta 58.8. Qwen-235B mejora de 21.6 en el modelo base a 63.6 después del SFT, y luego alcanza 74.2 tras el RL. El mejor modelo, Macaron-A2UI-Venti entrenado a partir de GLM-5.1, logra una puntuación global de 75.6, superando la línea base de frontera más fuerte con esquema completo (GPT-5.4 con 74.1). Los modelos de frontera sin ajustar permanecen débiles sin indicaciones de esquema, lo que confirma que las instrucciones ligeras son insuficientes para que los modelos no entrenados adquieran una competencia A2UI estable.

Figura 4: Ablación del pipeline de entrenamiento bajo el régimen de prompt sin esquema.

Dinámica del RL y robustez entre dominios

Las trayectorias de recompensa durante el entrenamiento GRPO revelan un patrón consistente. En ambas escalas de modelo, la recompensa L1 aumenta primero y con mayor rapidez, lo que indica que la corrección del protocolo y la ejecutabilidad estructural son las propiedades más fáciles de mejorar mediante el aprendizaje por refuerzo. Las mejoras en la calidad de interacción de nivel superior ocurren de forma más gradual. El modelo de 235B muestra una mejora constante en las recompensas L2 y L3 a lo largo del entrenamiento, mientras que la recompensa L3 del modelo de 30B se mantiene más plana, lo que sugiere que la calidad de cara al usuario es más difícil de optimizar en escalas más pequeñas.

Los desgloses por conjunto de datos y por tarea muestran una fuerte robustez entre dominios. Macaron-A2UI-235B alcanza puntuaciones en un rango estrecho (3.82–3.84) en MultiWOZ, SGD, ESConv y AnnoMI. Es el mejor modelo en tareas atómicas (4.38) y tareas de amplitud (3.96), y se mantiene competitivo en tareas de profundidad (3.14). El RL fortalece principalmente la capacidad del modelo para traducir la intención del diálogo en decisiones de IU concisas, bien estructuradas y listas para la interacción, con ganancias especialmente grandes en las tareas de amplitud en los cuatro conjuntos de datos.

Figura 6: Trayectorias de recompensa durante el entrenamiento GRPO.

Por qué es importante

Este trabajo establece la IU Generativa para agentes personales como un problema de aprendizaje abordable y con progreso medible. Destacan tres contribuciones. Primero, el pipeline escalable para transformar corpus de diálogos heterogéneos en datos de IU Generativa multi-turno, que combina la anotación basada en LLM con reparación y validación basadas en reglas, proporciona un modelo para futuros esfuerzos de construcción de datos. Segundo, A2UI-Bench ofrece un marco de evaluación estandarizado que separa la validez del protocolo de la calidad de la interacción, lo que permite una comparación rigurosa entre modelos. Tercero, la receta de entrenamiento en dos etapas demuestra que la generación de IU ejecutable puede internalizarse sin largos prompts de esquema en el momento de la inferencia, haciendo el despliegue más práctico.

Los resultados conllevan una implicación importante: la competencia en IU Generativa no tiene por qué depender de un prompting de esquema pesado. Mediante un entrenamiento dirigido, los modelos pueden aprender cuándo producir IU, qué IU producir y cómo producir IU compatible con el protocolo bajo instrucciones ligeras. Esto cambia el paradigma de la ingeniería de prompts hacia el diseño de interacción aprendido, abriendo la puerta a interfaces de agente más fluidas, eficientes y personalizadas.

Project page ArXiv paper