Entrenamiento
Contenido de marcador para Entrenamiento.

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros
Presentamos dots.tts, un modelo de texto-a-voz autoregresivo continuo de 2B parámetros con un espacio latente continuo. Destaca por su AudioVAE multiobjetivo, condicionamiento de historial completo y post-entrenamiento autocorrector, logrando un rendimiento líder en Seed-TTS-Eval y benchmarks de código abierto.

q0: Primitivas para el Preentrenamiento Hiper-Época en Modelos de Lenguaje
Investigadores de 1Q Labs y Princeton University presentan q0, un enfoque de preentrenamiento hiper-época que convierte el presupuesto multi-época en una población de modelos. Esto logra una pérdida de validación menor y una eficiencia de datos hasta 12.9 veces mayor en comparación con modelos únicos.

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje
SCOPE es un marco de autoaprendizaje sin datos para tareas abiertas que coevoluciona un Challenger (generador de tareas) y un Solver (respondedor). Utiliza un auto-juez para evaluar respuestas, mejorando el rendimiento en modelos de 7-8B en benchmarks de tareas abiertas y QA de formato corto.

SANA-Streaming: Edición de Video en Tiempo Real con Transformador Híbrido de Difusión
Presentamos SANA-Streaming, un sistema-algoritmo co-diseñado para la edición de video en streaming de alta resolución y en tiempo real. Utiliza una arquitectura de Transformador de Difusión Híbrido y Regularización Ciclo-Inversa, optimizado para NVIDIA Blackwell (RTX 5090), logrando 24 FPS a 1280x704.

Harness-1: Aprendizaje por Refuerzo para Agentes de Búsqueda
Harness-1 es un proyecto de aprendizaje por refuerzo diseñado para agentes de búsqueda que utiliza arneses para externalizar estados, mejorando la eficiencia y el rendimiento. El código fuente está disponible en GitHub.

Cosmos 3: Modelos de Mundo Omnimodales para IA Física
Descubre Cosmos 3 de NVIDIA, modelos de mundo omnimodales que potencian la IA física. Este sistema integra visión y lenguaje para permitir a los robots comprender y operar en entornos complejos del mundo real.

Cómo superar el muro de la memoria en el aprendizaje profundo con DiffusionBlocks
Explora cómo DiffusionBlocks revoluciona el entrenamiento de redes neuronales profundas, especialmente Transformers, al reinterpretar las conexiones residuales como un proceso de difusión. Aprende sobre esta técnica innovadora que reduce drásticamente el consumo de memoria sin sacrificar el rendimiento, abriendo la puerta a modelos más grandes y accesibles.

¿Por qué la predicción "clean" es clave en modelos de difusión latente?
Este artículo explora la importancia de la predicción directa de datos "clean" en modelos de difusión latente, como JLT, comparándola con la predicción de velocidad. A través de un estudio controlado, se demuestra que la parametrización del objetivo es una elección geométrica crucial, no meramente algebraica, influyendo significativamente en la calidad de los resultados.

¿Por qué la gaussianidad es clave para los "world models" identificables?
Explora el innovador enfoque de LeJEPA para construir "world models" identificables. Analizamos cómo el alineamiento temporal y una restricción de gaussianidad permiten la recuperación lineal de estados latentes, y por qué cualquier desviación de esta distribución rompe la garantía.

SkillOpt: Optimización de Habilidades para LLMs con un Enfoque de Aprendizaje Profundo
SkillOpt introduce un enfoque novedoso para la adaptación de LLMs, tratando los documentos de habilidades como estados entrenables. Utilizando un optimizador en espacio textual con controles de aprendizaje profundo, el sistema destila la experiencia de ejecución en texto reutilizable, permitiendo la adaptación de modelos cerrados y congelados a nuevos dominios.

El "Sueño" de los LLM: Consolidación de Memoria para Razonamiento Profundo
Exploramos cómo la consolidación de memoria inspirada en el sueño biológico mejora la capacidad de razonamiento de los modelos de lenguaje grandes. Este enfoque permite que los LLM conviertan el contexto transitorio en pesos persistentes, superando los límites de los modelos híbridos tradicionales en tareas de cómputo secuencial profundo.

Falta de Contenido en Artículo: Implicaciones para la Síntesis Editorial
Este documento aborda la necesidad crítica de disponer del contenido completo de un artículo (resumen, método, resultados, figuras) para poder elaborar una síntesis editorial precisa y basada en evidencia. Se destaca que la ausencia de estos elementos imposibilita una comprensión adecuada del trabajo.