Il collo di bottiglia degli agenti a testo semplice
Con l’aumentare delle capacità degli agenti personali basati su IA, i limiti delle interfacce statiche di sola chat testuale diventano sempre più evidenti. Quando gli utenti devono fornire informazioni strutturate, confrontare opzioni, confermare decisioni o gestire più obiettivi in un singolo turno, le lunghe risposte testuali rallentano la lettura e aumentano il carico cognitivo. La Generative UI — la capacità di un agente di sintetizzare dinamicamente controlli interattivi, opzioni e stato in tempo reale — emerge come il necessario strato di interfaccia successivo.
L’articolo presenta Macaron-A2UI, un modello che supera l’interazione puramente testuale consentendo agli agenti di generare linguaggio naturale insieme ad azioni UI leggere ed eseguibili. Invece di produrre codice arbitrario, il modello emette messaggi strutturati in A2UI, un protocollo dichiarativo per UI che un renderer client fidato traduce in widget interattivi. Questa separazione rende la generazione più sicura, più portabile tra ambienti di rendering e più facile da validare automaticamente. La domanda di ricerca centrale è se i modelli possano interiorizzare questa capacità senza dover ricorrere a lunghi prompt di schema al momento dell’inferenza.

Costruzione di un corpus per UI generative
Addestrare un modello a produrre UI conformi al protocollo e contestualmente appropriate richiede dati di supervisione su larga scala. Gli autori costruiscono un corpus a partire da quattro fonti di dialogo eterogenee: assistenza orientata al compito (MultiWOZ e Schema-Guided Dialogue), supporto emotivo (ESConv) e colloquio motivazionale (AnnoMI). Questi vengono normalizzati in un formato unificato di coppie (contesto, risposta), in cui ogni risposta può contenere un payload A2UI opzionale.
Una pipeline ibrida basata su regole e LLM annota i dati. Per i dataset orientati al compito, dove le annotazioni di origine già vincolano la semantica dell’interazione, un convertitore deterministico a macchina a stati genera automaticamente superfici e widget UI. Per i dati a dominio aperto si utilizza un processo LLM a due fasi: un passaggio Editor decide quali turni debbano contenere UI, e un passaggio Author genera il contenuto locale dei componenti. Tutti gli output passano attraverso una post-elaborazione deterministica e una pipeline di validazione a quattro livelli che controlla formato, struttura, data-binding e coerenza semantica. Il corpus finale contiene 14.245 campioni di turno assistente, con una percentuale di UI del 71,7% e una renderizzabilità del 99,2% dopo la riparazione.

Un benchmark per la valutazione strutturata
Per integrare il corpus di addestramento, gli autori introducono A2UI-Bench, un benchmark dedicato di 300 task progettato per una valutazione controllata piuttosto che per la diversità su scala di addestramento. I task sono organizzati in tre famiglie strutturali:
- Task atomici: valutazioni a turno singolo che misurano la capacità fondamentale a livello di turno di decidere se sia necessaria un’UI e di generare un’interfaccia appropriata.
- Task di profondità: episodi multi-turno che testano la coerenza tra turni, il mantenimento dello stato e la gestione del ciclo di vita delle superfici.
- Task di ampiezza: a turno singolo ma compositivamente più ampi, che richiedono al modello di organizzare una risposta unificata che affronti più sotto-obiettivi.
La valutazione opera su tre livelli. L1 misura la correttezza del protocollo tramite controlli automatici su parsing JSON, conformità allo schema, integrità dei riferimenti e formattazione dei valori. L2 valuta la qualità della costruzione del task tramite giudici LLM su appropriatezza dell’attivazione, allineamento componente-intento, ancoraggio testo-UI, utilizzo del modello dati e completezza delle azioni. L3 valuta la qualità dell’esperienza utente, inclusi il valore aggiunto rispetto al testo semplice, la naturalezza conversazionale e il carico cognitivo. Un livello di valutazione visiva complementare assegna punteggi agli screenshot renderizzati per integrità, allineamento al task e chiarezza delle azioni.
Una ricetta di addestramento a due fasi
La pipeline di addestramento combina supervised fine-tuning (SFT) seguito da Group Relative Policy Optimization (GRPO), entrambi con adattamento LoRA efficiente in termini di parametri. L’SFT insegna al modello il formato di risposta di base — producendo congiuntamente testo fluente e azioni UI conformi al protocollo — utilizzando un obiettivo autoregressivo standard di negative log-likelihood:
Il GRPO raffina poi il comportamento sotto una ricompensa orientata all’interazione. Per ogni prompt, il modello campiona un gruppo di risposte candidate, le valuta con una funzione di ricompensa che combina qualità strutturale, qualità della costruzione del task e utilità a livello utente, e calcola un vantaggio relativo al gruppo:
Il design della ricompensa applica barriere strutturali rigide: JSON malformato, output richiesto mancante o errori critici per il rendering ricevono ricompensa zero. Le risposte che superano questi controlli vengono valutate in base alla correttezza L1, alla qualità del task L2 e all’utilità utente L3. Questo approccio a due fasi è istanziato sui backbone Qwen3-30B, Qwen3-235B e GLM-5.1.
Risultati: interiorizzare la competenza UI
Il regime di valutazione principale è l’impostazione senza schema, in cui i modelli ricevono solo istruzioni leggere sul protocollo e devono fare affidamento sulla competenza A2UI interiorizzata. I risultati dimostrano l’efficacia della pipeline a diverse scale.
| Modello | L1 | L2 | L3 | V1 | V2 | V3 | Media |
|---|---|---|---|---|---|---|---|
| GPT-5.4 con schema | 4.02 | 3.59 | 3.27 | 3.46 | 3.73 | 3.17 | 3.54 |
| Gemini-3.1-Pro con schema | 4.25 | 3.20 | 2.96 | 3.53 | 3.55 | 3.04 | 3.42 |
| Macaron-A2UI-Grande senza schema | 4.67 | 3.22 | 2.91 | 3.95 | 3.74 | 3.47 | 3.66 |
| Macaron-A2UI-Venti senza schema | 4.47 | 3.36 | 3.28 | 3.95 | 3.76 | 3.52 | 3.72 |
Per Qwen-30B, l’SFT migliora il punteggio complessivo da 19,8 a 37,2, e l’RL lo spinge ulteriormente a 58,8. Qwen-235B passa da 21,6 di base a 63,6 dopo SFT, per poi raggiungere 74,2 dopo RL. Il modello migliore, Macaron-A2UI-Venti addestrato a partire da GLM-5.1, ottiene un punteggio complessivo di 75,6, superando il più forte baseline di frontiera con schema completo (GPT-5.4 a 74,1). I modelli di frontiera pronti all’uso rimangono deboli senza indicazioni di schema, confermando che istruzioni leggere sono insufficienti perché modelli non addestrati acquisiscano una competenza A2UI stabile.

Dinamiche del RL e robustezza cross-dominio
Le traiettorie della ricompensa durante l'addestramento GRPO rivelano uno schema coerente. Su entrambe le scale del modello, la ricompensa L1 aumenta per prima e più rapidamente, indicando che la correttezza del protocollo e l'eseguibilità strutturale sono le proprietà più facili da migliorare con l'apprendimento per rinforzo. I miglioramenti nella qualità dell'interazione di livello superiore avvengono più gradualmente. Il modello 235B mostra un miglioramento costante nelle ricompense L2 e L3 durante l'addestramento, mentre la ricompensa L3 del modello 30B rimane più piatta, suggerendo che la qualità rivolta all'utente è più difficile da ottimizzare su scale più piccole.
Le suddivisioni per dataset e per compito mostrano una forte robustezza cross-dominio. Macaron-A2UI-235B ottiene punteggi in un intervallo ristretto (3,82–3,84) su MultiWOZ, SGD, ESConv e AnnoMI. È il modello migliore nei compiti atomici (4,38) e nei compiti di ampiezza (3,96), pur rimanendo competitivo nei compiti di profondità (3,14). L'RL rafforza principalmente la capacità del modello di tradurre l'intento del dialogo in decisioni UI concise, ben strutturate e pronte per l'interazione, con guadagni particolarmente ampi nei compiti di ampiezza su tutti e quattro i dataset.

Perché è importante
Questo lavoro stabilisce la Generative UI per agenti personali come un problema di apprendimento trattabile con progressi misurabili. Tre contributi si distinguono. In primo luogo, la pipeline scalabile per trasformare corpora di dialoghi eterogenei in dati Generative UI multi-turno, combinando annotazione basata su LLM con riparazione e validazione basate su regole, fornisce un modello per futuri sforzi di costruzione dei dati. In secondo luogo, A2UI-Bench offre un framework di valutazione standardizzato che separa la validità del protocollo dalla qualità dell'interazione, consentendo un confronto rigoroso tra i modelli. In terzo luogo, la ricetta di addestramento a due fasi dimostra che la generazione di UI eseguibili può essere interiorizzata senza lunghi prompt di schema al momento dell'inferenza, rendendo il deployment più pratico.
I risultati portano un'implicazione importante: la competenza nella Generative UI non deve dipendere da un pesante prompting di schema. Attraverso un addestramento mirato, i modelli possono imparare quando produrre UI, quale UI produrre e come produrre UI conformi al protocollo con istruzioni leggere. Questo sposta il paradigma dall'ingegneria dei prompt verso un design dell'interazione appreso, aprendo la porta a interfacce agente più fluide, efficienti e personalizzate.



