Dentro de la Arquitectura TML-Interaction: Redefiniendo la Colaboración en IA

Un análisis profundo de cómo los modelos de interacción de TML-Interaction-Small superan los cuellos de botella actuales, logrando una IA verdaderamente conversacional y colaborativa.

26 de mayo de 2026

#Agentes #Contexto #LLM #STT #TTS

Descubre cómo la arquitectura de doble modelo de TML-Interaction, con su diseño de múltiples flujos y microturnos, permite una interacción fluida y en tiempo real con la IA. Exploramos la mecánica, los puntos de referencia y el futuro de la colaboración humano-IA.

El cuello de botella de la colaboración en los sistemas actuales de IA

La mayoría de los modelos de IA actuales están optimizados para el funcionamiento autónomo en lugar de la colaboración con humanos en el circuito. Una ficha de modelo de frontera citada por Thinking Machines Lab señaló que el uso interactivo y sincrónico producía beneficios menos claros que los agentes autónomos de larga duración. Esto revela una filosofía de diseño que, sin querer, deja de lado la participación humana en tiempo real.

El trabajo real rara vez se desarrolla en monólogos aislados. Implica enviar mensajes, hablar, escuchar, ver, mostrar e interrumpir. Sin embargo, los modelos actuales experimentan la realidad en un único hilo: esperan a que el usuario termine de introducir datos y luego congelan la percepción durante la generación. Esto crea un canal estrecho que limita la transferencia de conocimiento, intención y juicio. El cuello de botella del ancho de banda no es solo técnico, es conceptual, ya que trata la interacción como una idea tardía en lugar de una capacidad nativa.

Cómo funcionan mecánicamente los modelos de interacción

La solución propuesta hace que la interactividad forme parte del propio modelo. En el núcleo se encuentra un diseño de múltiples flujos y microturnos que procesa continuamente audio, video y texto en tiempo real. El modelo entrelaza fragmentos de 200 ms de procesamiento de entrada y generación de salida sin límites artificiales de turno. Los tokens de entrada y salida se tratan como flujos paralelos, lo que permite una concurrencia casi en tiempo real entre modalidades.

Arquitectónicamente, el sistema utiliza una fusión temprana sin codificador. Las señales de audio se procesan como dMel mediante una capa de embedding ligera. Las imágenes se dividen en parches de 40×40 codificados por un hMLP. La decodificación de audio emplea una cabeza de flujo. Todos los componentes se co-entrenan desde cero con el transformer, lo que convierte la interactividad en una propiedad fundamental que escala con la inteligencia del modelo, en lugar de un arnés añadido a posteriori.

A luminous, semi‑transparent sphere pulses with rapid micro‑flashes of electric blue and violet, each flash lasting only a heartbeat. Around it, a flowing lattice of intertwined ribbons—glassy sound waves, shimmering image patches, and delicate script—flickers in 200‑ms bursts, merging and separating in seamless, real‑time concurrency. Within the sphere, a deeper, slower‑moving vortex of amber and emerald light spirals gently, representing the background reasoning core, while the outer shell continuously streams and fuses, evoking an encoder‑free early fusion of audio, video, and text. The whole scene feels like a living, multi‑modal nervous system, with textures of liquid glass, soft neon, and metallic threads bathed in a high‑contrast glow that conveys fluid, uninterrupted interactivity.

La arquitectura de doble modelo: coordinación entre capacidad de respuesta y razonamiento

El sistema completo divide el trabajo entre dos modelos especializados. Un modelo de interacción mantiene un intercambio bidireccional constante con el usuario, operando en tiempo real en todas las modalidades. Un modelo de fondo se ejecuta de forma asíncrona para tareas de razonamiento sostenido, uso de herramientas y horizontes más largos.

Cuando el modelo de interacción delega trabajo, envía un paquete completo del contexto de la conversación. Los resultados del modelo de fondo se transmiten de vuelta y se intercalan en los momentos adecuados de la conversación en vivo. Esta arquitectura permite a los usuarios beneficiarse tanto de una capacidad de respuesta inmediata y fluida como de la inteligencia completa de los modelos de razonamiento sin sacrificar ninguna de las dos. El mecanismo de coordinación garantiza que la computación profunda nunca interrumpa el ritmo natural del diálogo.

Evaluación comparativa de la frontera de la interactividad

El modelo, TML-Interaction-Small, es una arquitectura de mezcla de expertos de 276 mil millones de parámetros con 12 mil millones de parámetros activos. Las evaluaciones comparativas revelan avances significativos en el rendimiento en tiempo real, manteniendo una inteligencia competitiva.

Benchmark	Metric	TML-Small (instant)	GPT-realtime-2.0 (xhigh)	Gemini-3.1-flash-live (high)
FD-bench V1 Latency (s)	Audio	0.40	1.63	0.94
FD-bench V1.5 Average	Audio	77.8	47.8	45.5
FD-bench V3 Pass@1 (%)	Audio+Tools	68.0	58.0	48.0
BigBench Audio Accuracy (%)	Audio	75.7 / 96.5*	96.6	96.6

La latencia de toma de turnos se reduce a 400 ms, sustancialmente más rápida que los sistemas en tiempo real de la competencia. En FD-bench V3, que evalúa la calidad de respuesta con uso simultáneo de herramientas, el modelo alcanza un 68% de Pass@1, superando a las alternativas. El asterisco denota los resultados calculados con el modelo de fondo activado, lo que muestra cómo la arquitectura dual mejora el rendimiento en tareas intensivas en conocimiento.

Ingeniería de inferencia: latencia y alineación a escala

Para cumplir con la restricción de latencia de 200 ms fue necesaria una optimización profunda de la inferencia. Cada fragmento se envía como una solicitud separada y se añade a una secuencia persistente en la memoria de la GPU, evitando costosas reasignaciones. Este diseño de sesión de streaming se incorporó a SGLang. Para los kernels de MoE, una estrategia de gather+gemv reemplazó al GEMM agrupado para reducir la latencia.

Se logró una alineación bit a bit entre el entrenador y el muestreador con menos de un 5% de sobrecarga de extremo a extremo. Destacan dos innovaciones en los kernels. Las operaciones all-reduce y reduce-scatter utilizan NVLS para una comunicación determinista en hardware Blackwell, lo que garantiza la alineación bit a bit entre el paralelismo de secuencia y el de tensor. Los kernels de atención mantienen un orden de acumulación consistente para Split-KV dividiendo los lotes de manera uniforme con fragmentos de 4096 tokens alineados a la izquierda. Estos detalles aseguran que el comportamiento de entrenamiento refleje fielmente la inferencia.

Diseño de seguridad y rechazo para voz en tiempo real

Los mecanismos de seguridad se reconstruyeron para la modalidad de voz. Los datos de entrenamiento para rechazos se generaron mediante síntesis de voz para producir rechazos coloquiales y firmes, en lugar de robóticos o evasivos. Se crearon ejemplos de rechazos en múltiples turnos mediante un sistema automatizado de red teaming, lo que garantiza que el modelo mantenga una paridad de comportamiento con los estándares de seguridad basados en texto cuando habla en voz alta.

Este enfoque aborda un modo de fallo sutil en la IA de voz: los rechazos que suenan poco naturales o vacilantes pueden socavar la confianza del usuario. Al entrenar directamente con patrones de rechazo hablados, el modelo aprende a declinar solicitudes de manera que resulten apropiadas para el contexto conversacional: breves, claras y tonalmente coherentes con el diálogo en curso.

Implicaciones prácticas y direcciones futuras

Los modelos de interacción desbloquean capacidades que antes requerían arneses de software independientes. La gestión fluida del diálogo rastrea si un hablante está pensando, cediendo la palabra o invitando a responder. Las interjecciones verbales y visuales se producen en función del contexto, no de límites rígidos de turno. El habla simultánea permite casos de uso como la traducción en directo. La percepción del tiempo otorga al modelo un sentido directo de los segundos transcurridos, y las llamadas a herramientas, la búsqueda y la IU generativa pueden ejecutarse al mismo tiempo que se habla y se escucha.

La división entre modelos de interacción y de fondo apunta hacia un futuro en el que los asistentes de IA se sientan menos como herramientas transaccionales y más como colaboradores. A medida que esta arquitectura escala, las mejoras en inteligencia e interactividad se refuerzan mutuamente. Quedan preguntas abiertas sobre cómo estos modelos manejan las interrupciones adversarias, el habla con acento o los entornos con múltiples hablantes. La vista previa de la investigación demuestra que la interactividad puede ser una propiedad de primera clase del modelo, no una capa de interfaz añadida a posteriori.