El alto costo de los flujos de trabajo inteligentes
Los asistentes de IA modernos suelen seguir procedimientos de varios pasos: reservar un vuelo, solucionar problemas de software, gestionar una reclamación de seguro.
El enfoque dominante, llamado orquestación superficial, envuelve un modelo de lenguaje grande (LLM) en un controlador externo que inyecta instrucciones y redirige las decisiones en cada paso.
Esto funciona bien, pero resulta caro: cada paso invoca un modelo de frontera, y el orquestador añade latencia y complejidad.
Un equipo de la Universidad de Melbourne plantea una pregunta provocadora: ¿y si pudiéramos compilar el flujo completo directamente en los pesos de un modelo pequeño, eliminando el orquestador en tiempo de ejecución?
Dos arquitecturas: superficial frente a subterránea
La orquestación superficial es como un GPS que te dice constantemente hacia dónde girar.
Un programa externo se sitúa entre el usuario y el LLM, alimentando las instrucciones de cada nodo y decidiendo el siguiente paso a partir de la salida del modelo.
La compilación subterránea invierte la lógica.
El orquestador se utiliza únicamente durante el entrenamiento para generar diálogos de ejemplo.
En el despliegue, el usuario habla directamente con un modelo pequeño fine‑tuned —el agente subterráneo— que sigue el procedimiento desde sus propios pesos, guiado por un prompt de sistema mínimo.
La idea central del artículo: el conocimiento procedimental se puede cocer dentro de los parámetros, en lugar de reinyectarlo en cada llamada.

El pipeline de compilación: del diagrama de flujo a los pesos
El pipeline de compilación consta de cuatro etapas.
Primero, los expertos definen el flujo de trabajo como un grafo dirigido (diagrama de flujo) con nodos para los turnos del agente y del usuario, y aristas que codifican transiciones y condiciones.
Segundo, un modelo de frontera (Claude Sonnet 4.5) genera conversaciones sintéticas recorriendo todos los caminos acíclicos válidos del grafo.
Tercero, un LLM pequeño de código abierto se fine‑tuned sobre estos diálogos mediante actualizaciones de parámetros completos; se demostró que los métodos de bajo rango como LoRA fallan en tareas procedimentales.
Por último, el modelo se despliega sin ningún orquestador; solo recibe una instrucción breve como “Eres un asistente de reservas de viajes útil”.
Los datos de entrenamiento contienen únicamente diálogo natural, nunca las anotaciones subyacentes del diagrama de flujo.
El procedimiento como grafos dirigidos
Los flujos de trabajo se formalizan como grafos con nodos (turnos del agente/usuario), aristas (transiciones con condiciones opcionales), un nodo de inicio y nodos terminales para éxito, abandono o escalado.
Tres dominios ponen a prueba el alcance del enfoque:
- Reserva de viajes (14 nodos, 86 rutas únicas, entre 4 y 17 turnos)
- Soporte de Zoom (14 nodos, 60 rutas, codifica conocimiento específico del producto sobre la interfaz y códigos de error)
- Reclamaciones de seguros (55 nodos, 2 381 rutas, entre 9 y 39 turnos, con bucles anidados y dependencias entre fases)
La complejidad del grafo de seguros demuestra que la compilación puede manejar flujos empresariales reales, no solo guiones lineales sencillos.
Evaluación rigurosa con usuarios simulados
Todos los experimentos emplean 200 escenarios por condición, generados por un simulador de usuario dinámico (Claude Sonnet 4.5) que interpreta a clientes con personalidades, presupuestos y objetivos variados —sin ver el diagrama de flujo.
Cada conversación es puntuada por un LLM como juez en cinco criterios (escala de 1 a 5): Éxito de la tarea, Precisión de la información, Consistencia, Manejo con elegancia y Naturalidad.
La puntuación principal usa Claude Sonnet 4.5; una comprobación de robustez volvió a puntuar todas las conversaciones con GPT‑4.1 usando la misma rúbrica.
Las comparaciones estadísticas se basan en pruebas de rangos con signo de Wilcoxon o U de Mann‑Whitney con corrección de Holm‑Bonferroni, más la d de Cohen e intervalos de confianza bootstrap.
Reserva de viajes: un modelo de 3 B desafía a la frontera
El agente subterráneo de 3 B (Qwen 2.5 3B Instruct, fine‑tuned con 2 125 diálogos sintéticos) se enfrentó a tres líneas base.
| Comparación | Éxito de la tarea | Prec. de la info. | Consistencia | Manejo elegante | Naturalidad |
|---|---|---|---|---|---|
| vs. orquestador 3 B | +0.18*** | +0.05 (n.s.) | +0.22*** | +0.20*** | +0.17*** |
| vs. LangGraph (Claude 3.5) | comparable | 4.75 vs 4.21*** | comparable | 4.07 vs 4.62*** | 4.12 vs 4.84*** |
| vs. Claude 3.5 en contexto | ~102% de precisión | — | — | ~82% de manejo elegante | ~82% de naturalidad |
El modelo pequeño supera a su propia versión cuando está orquestada y sobrepasa al modelo de frontera 70 veces mayor en precisión de la información.
Se queda atrás en manejo elegante y naturalidad, pero la diferencia es moderada —y el costo es dos órdenes de magnitud inferior.
Soporte de Zoom y el camino por delante
Escalar a un modelo de 8 B (Qwen3‑8B) en el dominio de soporte de Zoom confirma la tendencia.
Con 8 ejecuciones de entrenamiento independientes y más datos, el agente subterráneo vuelve a igualar o superar al orquestador LangGraph en éxito de la tarea y precisión, funcionando a una fracción del costo.
El dominio de reclamaciones de seguros (55 nodos) exige aún más al método, mostrando que incluso los procedimientos profundamente anidados pueden internalizarse.
Estos resultados sugieren un futuro en el que flujos de trabajo agentivos complejos se despliegan en el dispositivo o a gran escala, sin pagar el impuesto de la orquestación en cada paso.





