Tailored news hub

Entrenamiento

Page 1 of 3

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros
Innovaciones en espacio latente continuo, condicionamiento de historial completo y post-entrenamiento autocorrector para una calidad de voz superior y eficiencia.

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros

Presentamos dots.tts, un modelo de texto-a-voz autoregresivo continuo de 2B parámetros con un espacio latente continuo. Destaca por su AudioVAE multiobjetivo, condicionamiento de historial completo y post-entrenamiento autocorrector, logrando un rendimiento líder en Seed-TTS-Eval y benchmarks de código abierto.

q0: Primitivas para el Preentrenamiento Hiper-Época en Modelos de Lenguaje
Un cambio conceptual hacia la exploración de poblaciones de modelos para optimizar el uso del cómputo en regímenes de datos limitados.

q0: Primitivas para el Preentrenamiento Hiper-Época en Modelos de Lenguaje

Investigadores de 1Q Labs y Princeton University presentan q0, un enfoque de preentrenamiento hiper-época que convierte el presupuesto multi-época en una población de modelos. Esto logra una pérdida de validación menor y una eficiencia de datos hasta 12.9 veces mayor en comparación con modelos únicos.

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje
Marco de coevolución de políticas para generar tareas y respuestas sin supervisión externa, superando el rendimiento con datos curados.

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje

SCOPE es un marco de autoaprendizaje sin datos para tareas abiertas que coevoluciona un Challenger (generador de tareas) y un Solver (respondedor). Utiliza un auto-juez para evaluar respuestas, mejorando el rendimiento en modelos de 7-8B en benchmarks de tareas abiertas y QA de formato corto.

Escalado de PEFT: Hacia Modelos Personales de Trillones de Parámetros
Explorando la personalización masiva de modelos de lenguaje con la eficiencia de PEFT

Escalado de PEFT: Hacia Modelos Personales de Trillones de Parámetros

Este artículo examina el escalado de PEFT (Parameter-Efficient Fine-Tuning) para crear "millones de modelos personales" a partir de modelos base de trillones de parámetros. Se analiza cómo esta técnica permite la personalización masiva de modelos de lenguaje de gran escala, abordando los desafíos y oportunidades en la eficiencia y aplicabilidad en inteligencia artificial.

SANA-Streaming: Edición de Video en Tiempo Real con Transformador Híbrido de Difusión
Un marco co-diseñado de sistema-algoritmo para edición de video de alta resolución y streaming en GPUs de consumo, optimizado para Blackwell.

SANA-Streaming: Edición de Video en Tiempo Real con Transformador Híbrido de Difusión

Presentamos SANA-Streaming, un sistema-algoritmo co-diseñado para la edición de video en streaming de alta resolución y en tiempo real. Utiliza una arquitectura de Transformador de Difusión Híbrido y Regularización Ciclo-Inversa, optimizado para NVIDIA Blackwell (RTX 5090), logrando 24 FPS a 1280x704.

Harness-1: Aprendizaje por Refuerzo para Agentes de Búsqueda
Un enfoque innovador con arneses para la externalización de estados en la IA.

Harness-1: Aprendizaje por Refuerzo para Agentes de Búsqueda

Harness-1 es un proyecto de aprendizaje por refuerzo diseñado para agentes de búsqueda que utiliza arneses para externalizar estados, mejorando la eficiencia y el rendimiento. El código fuente está disponible en GitHub.

Cosmos 3: Modelos de Mundo Omnimodales para IA Física
NVIDIA presenta Cosmos 3, un avance en modelos de mundo para la interacción física y el control de robots, combinando visión y lenguaje.

Cosmos 3: Modelos de Mundo Omnimodales para IA Física

Descubre Cosmos 3 de NVIDIA, modelos de mundo omnimodales que potencian la IA física. Este sistema integra visión y lenguaje para permitir a los robots comprender y operar en entornos complejos del mundo real.

Ideogram 4: El Modelo de Texto a Imagen de Código Abierto Líder
Descubre cómo Ideogram 4 redefine la generación de imágenes con su nueva interfaz JSON, renderizado multilingüe y controles avanzados.

Ideogram 4: El Modelo de Texto a Imagen de Código Abierto Líder

Ideogram 4 es el primer modelo de texto a imagen de código abierto de Ideogram, entrenado desde cero. Ofrece renderizado de texto multilingüe, comprensión profunda del lenguaje, control de diseño y resolución 2k, superando a otros modelos en benchmarks como Design Arena y ContraLabs.

Nemotron-3-Ultra-550B: Arquitectura LatentMoE de NVIDIA para IA de Frontera
Descubre el LLM de 550B parámetros con Mamba-2 y MoE, optimizado para razonamiento, agentes y análisis de contexto largo.

Nemotron-3-Ultra-550B: Arquitectura LatentMoE de NVIDIA para IA de Frontera

Nemotron-3-Ultra-550B-A55B-BF16 es un LLM de NVIDIA de 550B parámetros con arquitectura LatentMoE (Mamba-2 + MoE + Atención). Diseñado para razonamiento avanzado, flujos de trabajo de agentes complejos y análisis de contexto largo, soporta múltiples idiomas y es ideal para aplicaciones de IA de alto rendimiento.

Cómo superar el muro de la memoria en el aprendizaje profundo con DiffusionBlocks
Descubre cómo el nuevo marco DiffusionBlocks permite entrenar modelos de IA generativa más grandes y profundos, superando las limitaciones de memoria.

Cómo superar el muro de la memoria en el aprendizaje profundo con DiffusionBlocks

Explora cómo DiffusionBlocks revoluciona el entrenamiento de redes neuronales profundas, especialmente Transformers, al reinterpretar las conexiones residuales como un proceso de difusión. Aprende sobre esta técnica innovadora que reduce drásticamente el consumo de memoria sin sacrificar el rendimiento, abriendo la puerta a modelos más grandes y accesibles.

Cómo la Búsqueda Evolutiva Bidireccional mejora la automejora de los LLM
Descubre el innovador marco BES que supera las limitaciones del muestreo tradicional en LLM mediante operadores evolutivos y descomposición de objetivos.

Cómo la Búsqueda Evolutiva Bidireccional mejora la automejora de los LLM

Explora la Búsqueda Evolutiva Bidireccional (BES), un nuevo enfoque que combina búsqueda hacia adelante con operadores evolutivos y búsqueda hacia atrás para descomponer objetivos. Aprende cómo BES genera muestras de alta calidad y resuelve problemas complejos que los métodos de muestreo convencionales no pueden, mejorando significativamente la automejora de los LLM.

¿Por qué la predicción "clean" es clave en modelos de difusión latente?
Descubre cómo la elección del objetivo de predicción impacta el rendimiento de los Transformers de difusión en el espacio latente, superando la equivalencia algebraica.

¿Por qué la predicción "clean" es clave en modelos de difusión latente?

Este artículo explora la importancia de la predicción directa de datos "clean" en modelos de difusión latente, como JLT, comparándola con la predicción de velocidad. A través de un estudio controlado, se demuestra que la parametrización del objetivo es una elección geométrica crucial, no meramente algebraica, influyendo significativamente en la calidad de los resultados.