Entrenamiento

Page 2 of 3

Descubre cómo LeJEPA logra la identificabilidad lineal en modelos de mundo y por qué la distribución gaussiana es su secreto inquebrantable.

¿Por qué la gaussianidad es clave para los "world models" identificables?

Explora el innovador enfoque de LeJEPA para construir "world models" identificables. Analizamos cómo el alineamiento temporal y una restricción de gaussianidad permiten la recuperación lineal de estados latentes, y por qué cualquier desviación de esta distribución rompe la garantía.

La empresa de IA MiniMax revela detalles de su serie M2 y presenta M3, un modelo que promete eficiencia computacional con su innovadora Atención Dispersa.

MiniMax lanza informe M2 y adelanta M3 con Atención Dispersa

MiniMax publica un informe técnico detallando sus modelos M2, M2.5 y M2.7, destacando su arquitectura MoE y pensamiento intercalado. Además, adelanta M3, que introduce MiniMax Sparse Attention para reducir la carga computacional en contextos ultra largos, logrando aceleraciones significativas en latencia y velocidad de generación.

Descubre la nueva generación de síntesis de efectos de sonido con Diffusion Transformer y Flow Matching para audio de alta fidelidad.

¿Cómo funciona MOSS-SoundEffect v2.0?

Explora MOSS-SoundEffect v2.0, el modelo de texto a audio que revoluciona la generación de efectos de sonido. Aprende sobre su arquitectura Diffusion Transformer, el uso de Flow Matching, y cómo genera audio de 48 kHz controlable en duración y multilingüe.

Un nuevo paradigma para adaptar Grandes Modelos de Lenguaje mediante la optimización de documentos de habilidades en espacio textual, sin modificar los pesos del modelo.

SkillOpt: Optimización de Habilidades para LLMs con un Enfoque de Aprendizaje Profundo

SkillOpt introduce un enfoque novedoso para la adaptación de LLMs, tratando los documentos de habilidades como estados entrenables. Utilizando un optimizador en espacio textual con controles de aprendizaje profundo, el sistema destila la experiencia de ejecución en texto reutilizable, permitiendo la adaptación de modelos cerrados y congelados a nuevos dominios.

Una nueva fase de consolidación fuera de línea permite a los modelos de lenguaje híbridos superar las limitaciones de razonamiento secuencial profundo.

El "Sueño" de los LLM: Consolidación de Memoria para Razonamiento Profundo

Exploramos cómo la consolidación de memoria inspirada en el sueño biológico mejora la capacidad de razonamiento de los modelos de lenguaje grandes. Este enfoque permite que los LLM conviertan el contexto transitorio en pesos persistentes, superando los límites de los modelos híbridos tradicionales en tareas de cómputo secuencial profundo.

Modelos de Lenguaje Recursivos (RLM) de SkyRL permiten meta-razonamiento con agentes hijos en sandboxes de Python con estado, redefiniendo la capacidad de "pensar" de los modelos.

El Techo de la Recursión en LLM es un Mito: NovaSky lo Demuestra

Descubre cómo NovaSky-AI/SkyRL rompe las limitaciones de los LLM con su innovadora implementación de Modelos de Lenguaje Recursivos (RLM). Mediante agentes hijos que razonan en sandboxes de Python con estado, ejecutan código y consultan submodelos, SkyRL convierte entornos planos en árboles de razonamiento multi-agente, marcando un antes y un después en la IA.

xAI completa el entrenamiento de su modelo fundacional de 1,5 billones de parámetros, triplicando la escala de su predecesor y enfocándose en programación avanzada.

Grok V9-Medium Finaliza Entrenamiento, Lanzamiento en Junio

Elon Musk confirma la finalización del entrenamiento de Grok V9-Medium, el nuevo modelo de xAI con 1,5 billones de parámetros. Se espera su lanzamiento público en junio de 2026 tras las fases de fine-tuning y aprendizaje por refuerzo, con un fuerte enfoque en capacidades de programación.

Descubra cómo la compilación subterránea entrena un modelo pequeño para seguir procedimientos complejos sin orquestador, reduciendo costos y latencia.

Compilación subterránea: cómo incrustar flujos de trabajo en modelos pequeños

Aprenda a compilar flujos de trabajo en modelos de lenguaje pequeños para eliminar la orquestación superficial y reducir costos. Descubra el pipeline de compilación subterránea y cómo aplicarlo en dominios empresariales reales.

Familia de modelos basada en S3-DiT con variantes optimizadas para calidad, velocidad y bajo consumo de VRAM

Z-Anime: Fine-Tune Completo para Generación Anime sobre Z-Image Base

Z-Anime es un fine-tune completo (no LoRA) de la arquitectura Z-Image Base de Alibaba, adaptado a la generación de estilo anime. Incluye variantes Base, Distill-8-Step y Distill-4-Step en formatos BF16, FP8, GGUF y AIO, con soporte para 8GB VRAM, prompting en lenguaje natural y compatibilidad con LoRA.

Una versión afinada por RunDiffusion para iluminación dramática, textura natural y retratos mejorados

Juggernaut Z: Ajuste cinematográfico de Z-Image Base

Juggernaut Z es un ajuste fino de Z-Image Base, entrenado por KandooAI y publicado por RunDiffusion. Ofrece iluminación más cinematográfica, enfoque nítido, textura de piel refinada y mejor representación étnica. Incluye pesos completos, FP16, FP8 y cuantizaciones GGUF.

Un transformador de difusión bidireccional de 2.6B parámetros genera video 720p con control de cámara 6-DoF

SANA-WM: modelo mundial abierto para video de un minuto

SANA-WM es un modelo mundial eficiente y de código abierto entrenado para generar videos de un minuto. Con 2.6B parámetros, ofrece control preciso de cámara, atención híbrida lineal y un pipeline de dos etapas para alta fidelidad. Funciona en menos de 8 GB VRAM y es 36 veces más rápido que modelos previos.

Optimizaciones de entrenamiento e inferencia con cuantización NVFP4 y paralelismo de secuencia para generación de video de alta calidad y tiempo real

LongLive-2.0: Infraestructura paralela NVFP4 para video largo

LongLive-2.0 presenta un sistema de infraestructura paralela basada en NVFP4 para la generación de video largo, con entrenamiento AR paralelo, cuantización W4A4 y KV cache, y decodificación asíncrona, logrando hasta 2.1× de aceleración en entrenamiento y 45.7 FPS en inferencia, manteniendo alta calidad.