home›Entrenamiento›

q0: Primitivas para el Preentrenamiento Hiper-Época en Modelos de Lenguaje

Un cambio conceptual hacia la exploración de poblaciones de modelos para optimizar el uso del cómputo en regímenes de datos limitados.

10 de junio de 2026

#Agentes #Ajuste Fino #Código Abierto #Entrenamiento #LLM

Investigadores de 1Q Labs y Princeton University presentan q0, un enfoque de preentrenamiento hiper-época que convierte el presupuesto multi-época en una población de modelos. Esto logra una pérdida de validación menor y una eficiencia de datos hasta 12.9 veces mayor en comparación con modelos únicos.

El dilema del presupuesto de Ã©pocas

Â¿Y si cada Ã©poca extra de entrenamiento que ejecutas ya te estÃ¡ dando casi nada?

Los mejores modelos de lenguaje actuales estÃ¡n chocando contra un muro: simplemente no queda suficiente texto de alta calidad para entrenarlos.

Sin embargo, la capacidad de cÃ³mputo sigue creciendo.

La soluciÃ³n por defecto es el entrenamiento multiâÃ©poca: pasar una y otra vez por los mismos datos.

Pero las pasadas repetidas sobre un corpus estÃ¡tico producen rendimientos rÃ¡pidamente decrecientes.

Tras apenas un puÃ±ado de Ã©pocas, la pÃ©rdida deja de bajar y el modelo deja de aprender.

El artÃculo âq0: Primitives for Hyper-Epoch Pretrainingâ propone un replanteamiento radical.

En lugar de refinar un Ãºnico modelo mucho mÃ¡s allÃ¡ del punto sin retorno, divide el mismo presupuesto de Ã©pocas entre una poblaciÃ³n de modelos diversos.

Luego utiliza agregaciÃ³n de modelos en el momento de la inferencia para combinar sus predicciones.

Â¿El resultado?

En un modelo de 1.800 millones de parÃ¡metros entrenado con solo 100 millones de tokens de FineWeb, q0 iguala a un ensamble de referencia de 256 Ã©pocas usando Ãºnicamente ~56 Ã©pocas, una reducciÃ³n de 4,6Ã.

La lente de Solomonoff y por quÃ© los ensambles se quedan cortos

Entrena un solo modelo hasta que se satura y estarÃ¡s dejando sin explorar la mayor parte de tu espacio de hipÃ³tesis.

Los autores fundamentan su trabajo en la inducciÃ³n de Solomonoff: la idea de que el mejor predictor es un promedio sobre todas las explicaciones computables, ponderado por simplicidad.

MÃ¡s cÃ³mputo deberÃa permitirte buscar mÃ¡s ampliamente, no solo mÃ¡s profundamente.

El ensamblado ingenuo es la implementaciÃ³n mÃ¡s directa de esto.

Pero falla en tres aspectos.

Primero, el coste de exploraciÃ³n: cada miembro del ensamble debe entrenarse desde cero, consumiendo tu presupuesto de cÃ³mputo antes de que puedas permitirte mÃ¡s que un puÃ±ado de modelos.

Segundo, la acumulaciÃ³n de capacidades: los modelos entrenados de forma independiente alcanzan todos aproximadamente la misma calidad; aÃ±adir mÃ¡s no eleva el rendimiento individual.

Tercero, la ponderaciÃ³n: promediar uniformemente ignora que algunos modelos generalizan mucho mejor que otros.

q0 aborda los tres simultÃ¡neamente con tres primitivas.

A single luminous beam of light bends into an oscillating sine wave across a dark, abstract landscape of deep blue and violet. At each trough of the wave, a bright crystalline snapshot freezes midair—small glowing gems suspended in space. From just two or three parallel trajectories, faint golden threads branch outward like roots, each ending in a distinct radiant form. The background suggests an infinite, unexplored field of dim stars and hazy nebulae. The mood is exploratory, elegant, and computational—motion captured in stillness, diversity born from a single path. Soft gradients, refractive highlights, and a sense of depth without any labels or arrows.

Primitiva 1: Cosechar diversidad de trayectorias cÃclicas

En lugar de entrenar docenas de modelos independientes, q0 reutiliza una Ãºnica trayectoria de entrenamiento.

Adopta un programa cÃclico inspirado en Fast Geometric Ensembling.

La tasa de aprendizaje oscila y el decaimiento de pesos estÃ¡ anticorrelacionado con ella, de modo que el optimizador visita muchas cuencas distintas en rÃ¡pida sucesiÃ³n.

Se toma una instantÃ¡nea breve en el fondo de cada ciclo.

Solo un pequeÃ±o nÃºmero de trayectorias paralelas se inician desde diferentes semillas aleatorias, aÃ±adiendo una dosis controlada de diversidad.

El resultado es una rica poblaciÃ³n de modelos recolectada a partir de solo unas pocas ejecuciones completas de entrenamiento.

Esto reduce drÃ¡sticamente el coste de exploraciÃ³n: casi todo el cÃ³mputo se destina a una cobertura productiva del espacio de pesos, no a reinicios redundantes.

Primitiva 2: Acumular calidad de modelo con destilaciÃ³n en cadena

Incluso cuando recolectas muchos modelos, simplemente entrenarlos de forma independiente produce un estancamiento.

El descenso de gradiente estÃ¡ndar bajo los mismos datos y cÃ³mputo genera modelos de calidad casi idÃ©ntica.

q0 rompe esta simetrÃa introduciendo la destilaciÃ³n en cadena.

Cada nueva instantÃ¡nea se entrena no solo en la tarea de predicciÃ³n del siguiente token, sino tambiÃ©n contra la distribuciÃ³n de salida de la instantÃ¡nea anterior.

El predecesor actÃºa como maestro, dando a cada modelo sucesivo un punto de partida mÃ¡s fuerte y un objetivo mÃ¡s alto.

Por lo tanto, la capacidad se acumula a lo largo de la poblaciÃ³n: las instantÃ¡neas posteriores son genuinamente mejores, no solo diferentes.

Esto asegura que combinar sus predicciones aÃ±ada nueva competencia, no meramente varianza.

La tÃ©cnica es sencilla de implementar y solo requiere un tÃ©rmino adicional de divergencia KL entre los logits del estudiante y del maestro.

Primitiva 3: Dejar que los datos elijan los pesos

El promedio uniforme trata a cada modelo por igual, sin importar cuÃ¡n preciso o ruidoso sea.

Los autores lo reemplazan con un prior aprendido.

Reservan un pequeÃ±o conjunto de aptitud y entrenan un conjunto de pesos escalares que maximizan el rendimiento de la predicciÃ³n agregada en ese conjunto.

Este proxy empÃrico elude la intratabilidad del posterior completo de Solomonoff o del promedio de modelos bayesiano.

El resultado es un mecanismo ligero que ajusta automÃ¡ticamente quÃ© instantÃ¡neas importan mÃ¡s para un presupuesto de inferencia dado.

Usadas en conjunto, las tres primitivas transforman un presupuesto fijo de Ã©pocas en una colecciÃ³n de modelos cuyas predicciones combinadas superan consistentemente a una Ãºnica contraparte intensamente refinada.

Los nÃºmeros traducen las primitivas en una ventaja concreta.

En un modelo de 1.800 millones de parÃ¡metros y 100 millones de tokens de FineWeb, un ensamble de referencia sÃ³lido de 256 Ã©pocas entrenadas independientemente sirve como referencia.

Cuando se permite que el tamaÃ±o del ensamble de referencia iguale el nÃºmero de poblaciÃ³n de q0, el mÃ©todo aÃºn necesita solo ~67 Ã©pocas, o 3,8Ã menos.

Bajo la configuraciÃ³n Slowrun, la eficiencia acumulada de datos alcanza un extraordinario ~12,9Ã.

Crucialmente, las ganancias se mantienen no solo en perplejidad de validaciÃ³n, sino tambiÃ©n en benchmarks de tareas posteriores.

Esto desplaza la conversaciÃ³n de âcuÃ¡ntas Ã©pocas podemos permitirnosâ a âcÃ³mo deberÃamos asignar un presupuesto finito de Ã©pocas para una mÃ¡xima generalizaciÃ³nâ.

El fin de la era del modelo Ãºnico

Cada presupuesto de Ã©pocas, desde una sola pasada hasta cientos de pasadas, tiene una asignaciÃ³n Ã³ptima en trayectorias cÃclicas, instantÃ¡neas destiladas en cadena y ponderaciÃ³n aprendida.

Los autores proporcionan recetas prescriptivas que permiten a los profesionales ajustar la combinaciÃ³n adecuada.

El consejo intuitivo es profundo: deja de pensar en un modelo como un Ãºnico artefacto y empieza a tratarlo como una poblaciÃ³n cuya inteligencia colectiva puede superar a cualquier individuo.

A medida que el suministro mundial de texto prÃstino se agota, mÃ©todos como q0 separarÃ¡n a quienes siguen escalando de quienes se estancan.

El dilema del presupuesto de Ã©pocas

La lente de Solomonoff y por quÃ© los ensambles se quedan cortos

Primitiva 1: Cosechar diversidad de trayectorias cÃ­clicas

Primitiva 2: Acumular calidad de modelo con destilaciÃ³n en cadena

Primitiva 3: Dejar que los datos elijan los pesos

Eficiencia en el mundo real: casi 5Ã menos Ã©pocas

El fin de la era del modelo Ãºnico

SkillOpt: Optimización de Habilidades para LLMs con un Enfoque de Aprendizaje Profundo

SkillOpt: Optimización de Habilidades para LLMs con un Enfoque de Aprendizaje Profundo

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros

Cómo superar el muro de la memoria en el aprendizaje profundo con DiffusionBlocks

Primitiva 1: Cosechar diversidad de trayectorias cÃclicas

Eficiencia en el mundo real: casi 5Ã menos Ã©pocas