Académico

Page 1 of 3

Marco de coevolución de políticas para generar tareas y respuestas sin supervisión externa, superando el rendimiento con datos curados.

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje

SCOPE es un marco de autoaprendizaje sin datos para tareas abiertas que coevoluciona un Challenger (generador de tareas) y un Solver (respondedor). Utiliza un auto-juez para evaluar respuestas, mejorando el rendimiento en modelos de 7-8B en benchmarks de tareas abiertas y QA de formato corto.

Explorando la personalización masiva de modelos de lenguaje con la eficiencia de PEFT

Escalado de PEFT: Hacia Modelos Personales de Trillones de Parámetros

Este artículo examina el escalado de PEFT (Parameter-Efficient Fine-Tuning) para crear "millones de modelos personales" a partir de modelos base de trillones de parámetros. Se analiza cómo esta técnica permite la personalización masiva de modelos de lenguaje de gran escala, abordando los desafíos y oportunidades en la eficiencia y aplicabilidad en inteligencia artificial.

Descubre LFM2.5, la nueva familia de modelos híbridos optimizados para asistentes personales en tiempo real y rendimiento de inferencia sin precedentes.

Qué es LFM2.5-8B-A1B: Modelos Híbridos para Despliegue en Dispositivo

LFM2.5-8B-A1B es un modelo híbrido diseñado para el despliegue en dispositivos, ofreciendo rendimiento competitivo con modelos más grandes. Ideal para asistentes personales, encadenamiento de herramientas y tareas de agente, con soporte para vLLM, llama.cpp y MLX.

Guía práctica para implementar un flujo de trabajo riguroso y pre-registrado en la investigación computacional, evitando sesgos y garantizando la reproducibilidad.

Science Superpowers: Cómo un agente de IA se convierte en un colaborador científico disciplinado

Science Superpowers transforma agentes de IA en colaboradores científicos disciplinados mediante un flujo de trabajo riguroso y pre-registrado. Evita el p-hacking y HARKing, asegura la reproducibilidad y verifica los resultados, reimplementando la metodología Superpowers para la investigación computacional.

Un marco co-diseñado de sistema-algoritmo para edición de video de alta resolución y streaming en GPUs de consumo, optimizado para Blackwell.

SANA-Streaming: Edición de Video en Tiempo Real con Transformador Híbrido de Difusión

Presentamos SANA-Streaming, un sistema-algoritmo co-diseñado para la edición de video en streaming de alta resolución y en tiempo real. Utiliza una arquitectura de Transformador de Difusión Híbrido y Regularización Ciclo-Inversa, optimizado para NVIDIA Blackwell (RTX 5090), logrando 24 FPS a 1280x704.

Un marco latente de flujo de coincidencia para audio y voz, integrando múltiples tareas en un solo modelo.

UNISON: Generación y Edición Unificada de Sonido con Fusión de LLM Profundo

UNISON es un marco unificado de flujo de coincidencia latente para la generación y edición de audio y voz. Utilizando un único conjunto de pesos, integra texto a audio, texto a voz, clonación de hablantes, generación de escenas mixtas y edición de audio/voz en un solo modelo y arquitectura.

NVIDIA presenta Cosmos 3, un avance en modelos de mundo para la interacción física y el control de robots, combinando visión y lenguaje.

Cosmos 3: Modelos de Mundo Omnimodales para IA Física

Descubre Cosmos 3 de NVIDIA, modelos de mundo omnimodales que potencian la IA física. Este sistema integra visión y lenguaje para permitir a los robots comprender y operar en entornos complejos del mundo real.

Descubre cómo Ideogram 4 redefine la generación de imágenes con su nueva interfaz JSON, renderizado multilingüe y controles avanzados.

Ideogram 4: El Modelo de Texto a Imagen de Código Abierto Líder

Ideogram 4 es el primer modelo de texto a imagen de código abierto de Ideogram, entrenado desde cero. Ofrece renderizado de texto multilingüe, comprensión profunda del lenguaje, control de diseño y resolución 2k, superando a otros modelos en benchmarks como Design Arena y ContraLabs.

Descubre cómo el nuevo marco DiffusionBlocks permite entrenar modelos de IA generativa más grandes y profundos, superando las limitaciones de memoria.

Cómo superar el muro de la memoria en el aprendizaje profundo con DiffusionBlocks

Explora cómo DiffusionBlocks revoluciona el entrenamiento de redes neuronales profundas, especialmente Transformers, al reinterpretar las conexiones residuales como un proceso de difusión. Aprende sobre esta técnica innovadora que reduce drásticamente el consumo de memoria sin sacrificar el rendimiento, abriendo la puerta a modelos más grandes y accesibles.

Descubre cómo la elección del objetivo de predicción impacta el rendimiento de los Transformers de difusión en el espacio latente, superando la equivalencia algebraica.

¿Por qué la predicción "clean" es clave en modelos de difusión latente?

Este artículo explora la importancia de la predicción directa de datos "clean" en modelos de difusión latente, como JLT, comparándola con la predicción de velocidad. A través de un estudio controlado, se demuestra que la parametrización del objetivo es una elección geométrica crucial, no meramente algebraica, influyendo significativamente en la calidad de los resultados.

Investigadores proponen una fase de "sueño" fuera de línea para que los transformers superen las limitaciones de la atención en tareas de largo alcance, manteniendo la latencia de predicción.

Nuevo Mecanismo "Sueño" Mejora Modelos de Lenguaje en Contexto Largo

Un estudio reciente introduce un innovador mecanismo inspirado en el sueño para modelos de lenguaje, que permite procesar contextos largos de manera eficiente. Este método convierte el contexto reciente en "pesos rápidos" persistentes durante una fase de sueño fuera de línea, vaciando la caché clave-valor y mejorando el rendimiento en tareas complejas sin aumentar el costo de inferencia en línea.

Descubre cómo LeJEPA logra la identificabilidad lineal en modelos de mundo y por qué la distribución gaussiana es su secreto inquebrantable.

¿Por qué la gaussianidad es clave para los "world models" identificables?

Explora el innovador enfoque de LeJEPA para construir "world models" identificables. Analizamos cómo el alineamiento temporal y una restricción de gaussianidad permiten la recuperación lineal de estados latentes, y por qué cualquier desviación de esta distribución rompe la garantía.