TTS
Page 1 of 1

Come NAVA genera video e audio sincronizzati da un singolo prompt
NAVA è un generatore audio-video con 6.3B parametri che sintetizza video e audio sincronizzati da un singolo prompt, inclusi discorsi multilingue con controllo del timbro di riferimento. Utilizza un'architettura Align-then-Fuse MMDiT per una corrispondenza audio-video nativa.

Come UNISON Unifica Generazione ed Editing Audio con Deep LLM
UNISON è un framework unificato di flow-matching latente per la generazione e l'editing di audio e parlato. Utilizzando un singolo set di pesi, integra text-to-audio, text-to-speech, clonazione vocale zero-shot e editing di scene audio/vocali in un unico modello, architettura e passaggio in avanti.

Dentro l'IA interattiva: architettura a doppio flusso e tempo reale
Un'analisi approfondita del nuovo paradigma di modelli IA interattivi: design multi-stream, fusione precoce, architettura a doppio modello per reattività e ragionamento profondo, con risultati benchmark da TML-Interaction-Small.

Suite LLM greca di Sophia AI per la sovranità digitale
Sophia AI presenta una suite completa di modelli AI in lingua greca, focalizzata su sovranità tecnologica, linguistica e dei dati. Include modelli di testo, immagini, video, voce e un agente di ricerca. I modelli superano i benchmark aperti greci del 50%, con garanzie di conformità GDPR e AI Act.