Entrenamiento

Innovaciones en espacio latente continuo, condicionamiento de historial completo y post-entrenamiento autocorrector para una calidad de voz superior y eficiencia.

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros

Presentamos dots.tts, un modelo de texto-a-voz autoregresivo continuo de 2B parámetros con un espacio latente continuo. Destaca por su AudioVAE multiobjetivo, condicionamiento de historial completo y post-entrenamiento autocorrector, logrando un rendimiento líder en Seed-TTS-Eval y benchmarks de código abierto.

Un cambio conceptual hacia la exploración de poblaciones de modelos para optimizar el uso del cómputo en regímenes de datos limitados.

q0: Primitivas para el Preentrenamiento Hiper-Época en Modelos de Lenguaje

Investigadores de 1Q Labs y Princeton University presentan q0, un enfoque de preentrenamiento hiper-época que convierte el presupuesto multi-época en una población de modelos. Esto logra una pérdida de validación menor y una eficiencia de datos hasta 12.9 veces mayor en comparación con modelos únicos.

Marco de coevolución de políticas para generar tareas y respuestas sin supervisión externa, superando el rendimiento con datos curados.

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje

SCOPE es un marco de autoaprendizaje sin datos para tareas abiertas que coevoluciona un Challenger (generador de tareas) y un Solver (respondedor). Utiliza un auto-juez para evaluar respuestas, mejorando el rendimiento en modelos de 7-8B en benchmarks de tareas abiertas y QA de formato corto.

Un marco co-diseñado de sistema-algoritmo para edición de video de alta resolución y streaming en GPUs de consumo, optimizado para Blackwell.

SANA-Streaming: Edición de Video en Tiempo Real con Transformador Híbrido de Difusión

Presentamos SANA-Streaming, un sistema-algoritmo co-diseñado para la edición de video en streaming de alta resolución y en tiempo real. Utiliza una arquitectura de Transformador de Difusión Híbrido y Regularización Ciclo-Inversa, optimizado para NVIDIA Blackwell (RTX 5090), logrando 24 FPS a 1280x704.

Un enfoque innovador con arneses para la externalización de estados en la IA.

Harness-1: Aprendizaje por Refuerzo para Agentes de Búsqueda

Harness-1 es un proyecto de aprendizaje por refuerzo diseñado para agentes de búsqueda que utiliza arneses para externalizar estados, mejorando la eficiencia y el rendimiento. El código fuente está disponible en GitHub.

NVIDIA presenta Cosmos 3, un avance en modelos de mundo para la interacción física y el control de robots, combinando visión y lenguaje.

Cosmos 3: Modelos de Mundo Omnimodales para IA Física

Descubre Cosmos 3 de NVIDIA, modelos de mundo omnimodales que potencian la IA física. Este sistema integra visión y lenguaje para permitir a los robots comprender y operar en entornos complejos del mundo real.

Descubre cómo el nuevo marco DiffusionBlocks permite entrenar modelos de IA generativa más grandes y profundos, superando las limitaciones de memoria.

Cómo superar el muro de la memoria en el aprendizaje profundo con DiffusionBlocks

Explora cómo DiffusionBlocks revoluciona el entrenamiento de redes neuronales profundas, especialmente Transformers, al reinterpretar las conexiones residuales como un proceso de difusión. Aprende sobre esta técnica innovadora que reduce drásticamente el consumo de memoria sin sacrificar el rendimiento, abriendo la puerta a modelos más grandes y accesibles.

Descubre cómo la elección del objetivo de predicción impacta el rendimiento de los Transformers de difusión en el espacio latente, superando la equivalencia algebraica.

¿Por qué la predicción "clean" es clave en modelos de difusión latente?

Este artículo explora la importancia de la predicción directa de datos "clean" en modelos de difusión latente, como JLT, comparándola con la predicción de velocidad. A través de un estudio controlado, se demuestra que la parametrización del objetivo es una elección geométrica crucial, no meramente algebraica, influyendo significativamente en la calidad de los resultados.

Descubre cómo LeJEPA logra la identificabilidad lineal en modelos de mundo y por qué la distribución gaussiana es su secreto inquebrantable.

¿Por qué la gaussianidad es clave para los "world models" identificables?

Explora el innovador enfoque de LeJEPA para construir "world models" identificables. Analizamos cómo el alineamiento temporal y una restricción de gaussianidad permiten la recuperación lineal de estados latentes, y por qué cualquier desviación de esta distribución rompe la garantía.

Un nuevo paradigma para adaptar Grandes Modelos de Lenguaje mediante la optimización de documentos de habilidades en espacio textual, sin modificar los pesos del modelo.

SkillOpt: Optimización de Habilidades para LLMs con un Enfoque de Aprendizaje Profundo

SkillOpt introduce un enfoque novedoso para la adaptación de LLMs, tratando los documentos de habilidades como estados entrenables. Utilizando un optimizador en espacio textual con controles de aprendizaje profundo, el sistema destila la experiencia de ejecución en texto reutilizable, permitiendo la adaptación de modelos cerrados y congelados a nuevos dominios.

Una nueva fase de consolidación fuera de línea permite a los modelos de lenguaje híbridos superar las limitaciones de razonamiento secuencial profundo.

El "Sueño" de los LLM: Consolidación de Memoria para Razonamiento Profundo

Exploramos cómo la consolidación de memoria inspirada en el sueño biológico mejora la capacidad de razonamiento de los modelos de lenguaje grandes. Este enfoque permite que los LLM conviertan el contexto transitorio en pesos persistentes, superando los límites de los modelos híbridos tradicionales en tareas de cómputo secuencial profundo.

Análisis de la imposibilidad de generar un resumen preciso sin el texto completo de un artículo científico o editorial.

Falta de Contenido en Artículo: Implicaciones para la Síntesis Editorial

Este documento aborda la necesidad crítica de disponer del contenido completo de un artículo (resumen, método, resultados, figuras) para poder elaborar una síntesis editorial precisa y basada en evidencia. Se destaca que la ausencia de estos elementos imposibilita una comprensión adecuada del trabajo.