TTS

Page 1 of 1

Scopri Align-then-Fuse MMDiT di Baidu, un generatore audio-video da 6.3B parametri per contenuti multimodali di alta qualità.

Come NAVA genera video e audio sincronizzati da un singolo prompt

NAVA è un generatore audio-video con 6.3B parametri che sintetizza video e audio sincronizzati da un singolo prompt, inclusi discorsi multilingue con controllo del timbro di riferimento. Utilizza un'architettura Align-then-Fuse MMDiT per una corrispondenza audio-video nativa.

Scopri il framework che integra text-to-audio, text-to-speech e clonazione vocale zero-shot in un unico modello a pesi unificati.

Come UNISON Unifica Generazione ed Editing Audio con Deep LLM

UNISON è un framework unificato di flow-matching latente per la generazione e l'editing di audio e parlato. Utilizzando un singolo set di pesi, integra text-to-audio, text-to-speech, clonazione vocale zero-shot e editing di scene audio/vocali in un unico modello, architettura e passaggio in avanti.

Come l'architettura multi-stream e il doppio modello rivoluzionano l'interazione IA in tempo reale

Dentro l'IA interattiva: architettura a doppio flusso e tempo reale

Un'analisi approfondita del nuovo paradigma di modelli IA interattivi: design multi-stream, fusione precoce, architettura a doppio modello per reattività e ragionamento profondo, con risultati benchmark da TML-Interaction-Small.

Modelli linguistici, generazione di immagini e video, e agenti di ricerca per il mercato ellenico

Suite LLM greca di Sophia AI per la sovranità digitale

Sophia AI presenta una suite completa di modelli AI in lingua greca, focalizzata su sovranità tecnologica, linguistica e dei dati. Include modelli di testo, immagini, video, voce e un agente di ricerca. I modelli superano i benchmark aperti greci del 50%, con garanzie di conformità GDPR e AI Act.