Entrenamiento
Page 1 of 3

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros
Presentamos dots.tts, un modelo de texto-a-voz autoregresivo continuo de 2B parámetros con un espacio latente continuo. Destaca por su AudioVAE multiobjetivo, condicionamiento de historial completo y post-entrenamiento autocorrector, logrando un rendimiento líder en Seed-TTS-Eval y benchmarks de código abierto.

q0: Primitivas para el Preentrenamiento Hiper-Época en Modelos de Lenguaje
Investigadores de 1Q Labs y Princeton University presentan q0, un enfoque de preentrenamiento hiper-época que convierte el presupuesto multi-época en una población de modelos. Esto logra una pérdida de validación menor y una eficiencia de datos hasta 12.9 veces mayor en comparación con modelos únicos.

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje
SCOPE es un marco de autoaprendizaje sin datos para tareas abiertas que coevoluciona un Challenger (generador de tareas) y un Solver (respondedor). Utiliza un auto-juez para evaluar respuestas, mejorando el rendimiento en modelos de 7-8B en benchmarks de tareas abiertas y QA de formato corto.

Escalado de PEFT: Hacia Modelos Personales de Trillones de Parámetros
Este artículo examina el escalado de PEFT (Parameter-Efficient Fine-Tuning) para crear "millones de modelos personales" a partir de modelos base de trillones de parámetros. Se analiza cómo esta técnica permite la personalización masiva de modelos de lenguaje de gran escala, abordando los desafíos y oportunidades en la eficiencia y aplicabilidad en inteligencia artificial.

SANA-Streaming: Edición de Video en Tiempo Real con Transformador Híbrido de Difusión
Presentamos SANA-Streaming, un sistema-algoritmo co-diseñado para la edición de video en streaming de alta resolución y en tiempo real. Utiliza una arquitectura de Transformador de Difusión Híbrido y Regularización Ciclo-Inversa, optimizado para NVIDIA Blackwell (RTX 5090), logrando 24 FPS a 1280x704.

Harness-1: Aprendizaje por Refuerzo para Agentes de Búsqueda
Harness-1 es un proyecto de aprendizaje por refuerzo diseñado para agentes de búsqueda que utiliza arneses para externalizar estados, mejorando la eficiencia y el rendimiento. El código fuente está disponible en GitHub.

Cosmos 3: Modelos de Mundo Omnimodales para IA Física
Descubre Cosmos 3 de NVIDIA, modelos de mundo omnimodales que potencian la IA física. Este sistema integra visión y lenguaje para permitir a los robots comprender y operar en entornos complejos del mundo real.

Ideogram 4: El Modelo de Texto a Imagen de Código Abierto Líder
Ideogram 4 es el primer modelo de texto a imagen de código abierto de Ideogram, entrenado desde cero. Ofrece renderizado de texto multilingüe, comprensión profunda del lenguaje, control de diseño y resolución 2k, superando a otros modelos en benchmarks como Design Arena y ContraLabs.

Nemotron-3-Ultra-550B: Arquitectura LatentMoE de NVIDIA para IA de Frontera
Nemotron-3-Ultra-550B-A55B-BF16 es un LLM de NVIDIA de 550B parámetros con arquitectura LatentMoE (Mamba-2 + MoE + Atención). Diseñado para razonamiento avanzado, flujos de trabajo de agentes complejos y análisis de contexto largo, soporta múltiples idiomas y es ideal para aplicaciones de IA de alto rendimiento.

Cómo superar el muro de la memoria en el aprendizaje profundo con DiffusionBlocks
Explora cómo DiffusionBlocks revoluciona el entrenamiento de redes neuronales profundas, especialmente Transformers, al reinterpretar las conexiones residuales como un proceso de difusión. Aprende sobre esta técnica innovadora que reduce drásticamente el consumo de memoria sin sacrificar el rendimiento, abriendo la puerta a modelos más grandes y accesibles.

Cómo la Búsqueda Evolutiva Bidireccional mejora la automejora de los LLM
Explora la Búsqueda Evolutiva Bidireccional (BES), un nuevo enfoque que combina búsqueda hacia adelante con operadores evolutivos y búsqueda hacia atrás para descomponer objetivos. Aprende cómo BES genera muestras de alta calidad y resuelve problemas complejos que los métodos de muestreo convencionales no pueden, mejorando significativamente la automejora de los LLM.

¿Por qué la predicción "clean" es clave en modelos de difusión latente?
Este artículo explora la importancia de la predicción directa de datos "clean" en modelos de difusión latente, como JLT, comparándola con la predicción de velocidad. A través de un estudio controlado, se demuestra que la parametrización del objetivo es una elección geométrica crucial, no meramente algebraica, influyendo significativamente en la calidad de los resultados.