Entrenamiento
Page 2 of 3

¿Por qué la gaussianidad es clave para los "world models" identificables?
Explora el innovador enfoque de LeJEPA para construir "world models" identificables. Analizamos cómo el alineamiento temporal y una restricción de gaussianidad permiten la recuperación lineal de estados latentes, y por qué cualquier desviación de esta distribución rompe la garantía.

MiniMax lanza informe M2 y adelanta M3 con Atención Dispersa
MiniMax publica un informe técnico detallando sus modelos M2, M2.5 y M2.7, destacando su arquitectura MoE y pensamiento intercalado. Además, adelanta M3, que introduce MiniMax Sparse Attention para reducir la carga computacional en contextos ultra largos, logrando aceleraciones significativas en latencia y velocidad de generación.

¿Cómo funciona MOSS-SoundEffect v2.0?
Explora MOSS-SoundEffect v2.0, el modelo de texto a audio que revoluciona la generación de efectos de sonido. Aprende sobre su arquitectura Diffusion Transformer, el uso de Flow Matching, y cómo genera audio de 48 kHz controlable en duración y multilingüe.

SkillOpt: Optimización de Habilidades para LLMs con un Enfoque de Aprendizaje Profundo
SkillOpt introduce un enfoque novedoso para la adaptación de LLMs, tratando los documentos de habilidades como estados entrenables. Utilizando un optimizador en espacio textual con controles de aprendizaje profundo, el sistema destila la experiencia de ejecución en texto reutilizable, permitiendo la adaptación de modelos cerrados y congelados a nuevos dominios.

El "Sueño" de los LLM: Consolidación de Memoria para Razonamiento Profundo
Exploramos cómo la consolidación de memoria inspirada en el sueño biológico mejora la capacidad de razonamiento de los modelos de lenguaje grandes. Este enfoque permite que los LLM conviertan el contexto transitorio en pesos persistentes, superando los límites de los modelos híbridos tradicionales en tareas de cómputo secuencial profundo.

El Techo de la Recursión en LLM es un Mito: NovaSky lo Demuestra
Descubre cómo NovaSky-AI/SkyRL rompe las limitaciones de los LLM con su innovadora implementación de Modelos de Lenguaje Recursivos (RLM). Mediante agentes hijos que razonan en sandboxes de Python con estado, ejecutan código y consultan submodelos, SkyRL convierte entornos planos en árboles de razonamiento multi-agente, marcando un antes y un después en la IA.

Grok V9-Medium Finaliza Entrenamiento, Lanzamiento en Junio
Elon Musk confirma la finalización del entrenamiento de Grok V9-Medium, el nuevo modelo de xAI con 1,5 billones de parámetros. Se espera su lanzamiento público en junio de 2026 tras las fases de fine-tuning y aprendizaje por refuerzo, con un fuerte enfoque en capacidades de programación.

Compilación subterránea: cómo incrustar flujos de trabajo en modelos pequeños
Aprenda a compilar flujos de trabajo en modelos de lenguaje pequeños para eliminar la orquestación superficial y reducir costos. Descubra el pipeline de compilación subterránea y cómo aplicarlo en dominios empresariales reales.

Z-Anime: Fine-Tune Completo para Generación Anime sobre Z-Image Base
Z-Anime es un fine-tune completo (no LoRA) de la arquitectura Z-Image Base de Alibaba, adaptado a la generación de estilo anime. Incluye variantes Base, Distill-8-Step y Distill-4-Step en formatos BF16, FP8, GGUF y AIO, con soporte para 8GB VRAM, prompting en lenguaje natural y compatibilidad con LoRA.

Juggernaut Z: Ajuste cinematográfico de Z-Image Base
Juggernaut Z es un ajuste fino de Z-Image Base, entrenado por KandooAI y publicado por RunDiffusion. Ofrece iluminación más cinematográfica, enfoque nítido, textura de piel refinada y mejor representación étnica. Incluye pesos completos, FP16, FP8 y cuantizaciones GGUF.

SANA-WM: modelo mundial abierto para video de un minuto
SANA-WM es un modelo mundial eficiente y de código abierto entrenado para generar videos de un minuto. Con 2.6B parámetros, ofrece control preciso de cámara, atención híbrida lineal y un pipeline de dos etapas para alta fidelidad. Funciona en menos de 8 GB VRAM y es 36 veces más rápido que modelos previos.

LongLive-2.0: Infraestructura paralela NVFP4 para video largo
LongLive-2.0 presenta un sistema de infraestructura paralela basada en NVFP4 para la generación de video largo, con entrenamiento AR paralelo, cuantización W4A4 y KV cache, y decodificación asíncrona, logrando hasta 2.1× de aceleración en entrenamiento y 45.7 FPS en inferencia, manteniendo alta calidad.