Académico
Page 1 of 3

SCOPE: Autoaprendizaje para Tareas Abiertas en Modelos de Lenguaje
SCOPE es un marco de autoaprendizaje sin datos para tareas abiertas que coevoluciona un Challenger (generador de tareas) y un Solver (respondedor). Utiliza un auto-juez para evaluar respuestas, mejorando el rendimiento en modelos de 7-8B en benchmarks de tareas abiertas y QA de formato corto.

Escalado de PEFT: Hacia Modelos Personales de Trillones de Parámetros
Este artículo examina el escalado de PEFT (Parameter-Efficient Fine-Tuning) para crear "millones de modelos personales" a partir de modelos base de trillones de parámetros. Se analiza cómo esta técnica permite la personalización masiva de modelos de lenguaje de gran escala, abordando los desafíos y oportunidades en la eficiencia y aplicabilidad en inteligencia artificial.

Qué es LFM2.5-8B-A1B: Modelos Híbridos para Despliegue en Dispositivo
LFM2.5-8B-A1B es un modelo híbrido diseñado para el despliegue en dispositivos, ofreciendo rendimiento competitivo con modelos más grandes. Ideal para asistentes personales, encadenamiento de herramientas y tareas de agente, con soporte para vLLM, llama.cpp y MLX.

Science Superpowers: Cómo un agente de IA se convierte en un colaborador científico disciplinado
Science Superpowers transforma agentes de IA en colaboradores científicos disciplinados mediante un flujo de trabajo riguroso y pre-registrado. Evita el p-hacking y HARKing, asegura la reproducibilidad y verifica los resultados, reimplementando la metodología Superpowers para la investigación computacional.

SANA-Streaming: Edición de Video en Tiempo Real con Transformador Híbrido de Difusión
Presentamos SANA-Streaming, un sistema-algoritmo co-diseñado para la edición de video en streaming de alta resolución y en tiempo real. Utiliza una arquitectura de Transformador de Difusión Híbrido y Regularización Ciclo-Inversa, optimizado para NVIDIA Blackwell (RTX 5090), logrando 24 FPS a 1280x704.

UNISON: Generación y Edición Unificada de Sonido con Fusión de LLM Profundo
UNISON es un marco unificado de flujo de coincidencia latente para la generación y edición de audio y voz. Utilizando un único conjunto de pesos, integra texto a audio, texto a voz, clonación de hablantes, generación de escenas mixtas y edición de audio/voz en un solo modelo y arquitectura.

Cosmos 3: Modelos de Mundo Omnimodales para IA Física
Descubre Cosmos 3 de NVIDIA, modelos de mundo omnimodales que potencian la IA física. Este sistema integra visión y lenguaje para permitir a los robots comprender y operar en entornos complejos del mundo real.

Ideogram 4: El Modelo de Texto a Imagen de Código Abierto Líder
Ideogram 4 es el primer modelo de texto a imagen de código abierto de Ideogram, entrenado desde cero. Ofrece renderizado de texto multilingüe, comprensión profunda del lenguaje, control de diseño y resolución 2k, superando a otros modelos en benchmarks como Design Arena y ContraLabs.

Cómo superar el muro de la memoria en el aprendizaje profundo con DiffusionBlocks
Explora cómo DiffusionBlocks revoluciona el entrenamiento de redes neuronales profundas, especialmente Transformers, al reinterpretar las conexiones residuales como un proceso de difusión. Aprende sobre esta técnica innovadora que reduce drásticamente el consumo de memoria sin sacrificar el rendimiento, abriendo la puerta a modelos más grandes y accesibles.

¿Por qué la predicción "clean" es clave en modelos de difusión latente?
Este artículo explora la importancia de la predicción directa de datos "clean" en modelos de difusión latente, como JLT, comparándola con la predicción de velocidad. A través de un estudio controlado, se demuestra que la parametrización del objetivo es una elección geométrica crucial, no meramente algebraica, influyendo significativamente en la calidad de los resultados.

Nuevo Mecanismo "Sueño" Mejora Modelos de Lenguaje en Contexto Largo
Un estudio reciente introduce un innovador mecanismo inspirado en el sueño para modelos de lenguaje, que permite procesar contextos largos de manera eficiente. Este método convierte el contexto reciente en "pesos rápidos" persistentes durante una fase de sueño fuera de línea, vaciando la caché clave-valor y mejorando el rendimiento en tareas complejas sin aumentar el costo de inferencia en línea.

¿Por qué la gaussianidad es clave para los "world models" identificables?
Explora el innovador enfoque de LeJEPA para construir "world models" identificables. Analizamos cómo el alineamiento temporal y una restricción de gaussianidad permiten la recuperación lineal de estados latentes, y por qué cualquier desviación de esta distribución rompe la garantía.