Il collo di bottiglia della collaborazione nei sistemi di IA attuali
La maggior parte dei modelli di IA oggi sono ottimizzati per il funzionamento autonomo piuttosto che per la collaborazione con l’umano nel ciclo. Una model card di frontiera citata da Thinking Machines Lab ha osservato che l’uso interattivo e sincrono produceva benefici meno evidenti rispetto agli agenti autonomi a lunga esecuzione. Ciò rivela una filosofia progettuale che inavvertitamente marginalizza la partecipazione umana in tempo reale.
Il lavoro reale si svolge raramente in monologhi isolati. Comprende messaggistica, parlare, ascoltare, vedere, mostrare e intervenire. Eppure i modelli attuali vivono la realtà in un unico flusso: aspettano che l’utente finisca l’input, poi congelano la percezione durante la generazione. Questo crea un canale ristretto che limita il trasferimento di conoscenza, intenzione e giudizio. Il collo di bottiglia della larghezza di banda non è solo tecnico: è concettuale, e tratta l’interazione come un ripensamento anziché una capacità nativa.
Come funzionano meccanicamente i modelli di interazione
La soluzione proposta rende l’interattività parte integrante del modello stesso. Alla base c’è un design multi-stream, micro-turn che elabora continuamente audio, video e testo in tempo reale. Il modello alterna blocchi da 200 ms di elaborazione dell’input e generazione dell’output senza confini di turno artificiali. I token di input e output sono trattati come flussi paralleli, consentendo una concorrenza quasi in tempo reale tra le modalità .
Dal punto di vista architetturale, il sistema utilizza una fusione precoce senza encoder. I segnali audio vengono elaborati come dMel tramite un layer di embedding leggero. Le immagini vengono suddivise in patch 40×40 codificate da un hMLP. La decodifica audio impiega un flow head. Tutti i componenti vengono co-addestrati da zero con il transformer, rendendo l’interattività una proprietà fondamentale che scala con l’intelligenza del modello, anziché un’aggiunta posticcia.

L’architettura a doppio modello: coordinamento tra reattività e ragionamento
Il sistema completo divide il lavoro tra due modelli specializzati. Un modello di interazione mantiene uno scambio bidirezionale costante con l’utente, operando in tempo reale su tutte le modalità . Un modello in background viene eseguito in modo asincrono per ragionamento prolungato, uso di strumenti e attività su orizzonti temporali più lunghi.
Quando il modello di interazione delega un lavoro, invia un pacchetto completo del contesto della conversazione. I risultati del modello in background vengono trasmessi in streaming e intercalati nei momenti opportuni della conversazione in diretta. Questa architettura consente agli utenti di beneficiare sia della reattività immediata e fluida, sia della piena intelligenza dei modelli di ragionamento, senza sacrificare nessuna delle due. Il meccanismo di coordinamento fa sì che il calcolo profondo non interrompa mai il ritmo naturale del dialogo.
La frontiera dell’interattività nei benchmark
Il modello, TML-Interaction-Small, è un’architettura mixture-of-experts da 276 miliardi di parametri con 12 miliardi di parametri attivi. I benchmark mostrano progressi significativi nelle prestazioni in tempo reale, mantenendo al contempo un’intelligenza competitiva.
| Benchmark | Metric | TML-Small (instant) | GPT-realtime-2.0 (xhigh) | Gemini-3.1-flash-live (high) |
|---|---|---|---|---|
| FD-bench V1 Latency (s) | Audio | 0.40 | 1.63 | 0.94 |
| FD-bench V1.5 Average | Audio | 77.8 | 47.8 | 45.5 |
| FD-bench V3 Pass@1 (%) | Audio+Tools | 68.0 | 58.0 | 48.0 |
| BigBench Audio Accuracy (%) | Audio | 75.7 / 96.5* | 96.6 | 96.6 |
La latenza di presa del turno scende a 400 ms, notevolmente più veloce rispetto ai sistemi concorrenti in tempo reale. Su FD-bench V3, che testa la qualità delle risposte con uso simultaneo di strumenti, il modello raggiunge un Pass@1 del 68%, superando le alternative. Un asterisco indica risultati calcolati con il modello in background attivo, mostrando come l’architettura doppia migliori le prestazioni nei compiti ad alta intensità di conoscenza.
Ingegneria dell’inferenza: latenza e allineamento su larga scala
Rispettare il vincolo di latenza di 200 ms ha richiesto un’ottimizzazione profonda dell’inferenza. Ogni blocco viene inviato come richiesta separata e accodato a una sequenza persistente nella memoria GPU, evitando costose riallocazioni. Questo design di sessione in streaming è stato integrato a monte in SGLang. Per i kernel MoE, una strategia gather+gemv ha sostituito la GEMM raggruppata per ridurre la latenza.
L’allineamento bitwise tra trainer e campionatore è stato ottenuto con un sovraccarico end-to-end inferiore al 5%. Due innovazioni nei kernel spiccano. Le operazioni all-reduce e reduce-scatter utilizzano NVLS per una comunicazione deterministica su hardware Blackwell, garantendo l’allineamento bitwise tra Sequence e Tensor Parallelism. I kernel di attenzione mantengono un ordine di accumulo coerente per Split-KV, suddividendo i batch in modo uniforme con chunk da 4096 token allineati a sinistra. Questi dettagli assicurano che il comportamento in addestramento rispecchi fedelmente quello in inferenza.
Progettazione della sicurezza e dei rifiuti per il parlato in tempo reale
I meccanismi di sicurezza sono stati ricostruiti per la modalità vocale. I dati di addestramento per i rifiuti sono stati generati tramite text-to-speech per produrre rifiuti colloquiali e decisi, anziché robotici o evasivi. Esempi di rifiuto multi-turno sono stati creati attraverso un harness di red-teaming automatizzato, garantendo che il modello mantenga una parità comportamentale con gli standard di sicurezza testuali quando parla ad alta voce.
Questo approccio affronta una modalità di fallimento sottile nell’IA vocale: rifiuti che suonano innaturali o esitanti possono minare la fiducia dell’utente. Addestrando direttamente su modelli di rifiuto parlato, il modello impara a declinare le richieste in modi che risultano appropriati al contesto conversazionale: brevi, chiari e tonalmente coerenti con il dialogo in corso.
Implicazioni pratiche e direzioni future
I modelli di interazione sbloccano capacità che prima richiedevano harness software separati. La gestione del dialogo senza soluzione di continuità tiene traccia se un interlocutore sta pensando, cedendo la parola o invitando una risposta. Le interiezioni verbali e visive avvengono in base al contesto, non a rigidi confini di turno. La comunicazione simultanea abilita casi d’uso come la traduzione in diretta. La consapevolezza temporale fornisce al modello un senso diretto dei secondi trascorsi, e le chiamate a strumenti, la ricerca e l’interfaccia utente generativa possono essere eseguite in contemporanea con il parlato e l’ascolto.
La separazione tra modello di interazione e modello in background indica un futuro in cui gli assistenti IA sembreranno meno strumenti transazionali e più collaboratori. Man mano che questa architettura scala, i miglioramenti in intelligenza e interattività si sommano. Rimangono domande aperte su come questi modelli gestiscano interruzioni avversarie, parole accentate o ambienti con più interlocutori. L’anteprima della ricerca dimostra che l’interattività può essere una proprietà di primo piano del modello, non uno strato di interfaccia aggiunto a posteriori.



