El dilema del presupuesto de épocas
¿Y si cada época extra de entrenamiento que ejecutas ya te está dando casi nada?
Los mejores modelos de lenguaje actuales están chocando contra un muro: simplemente no queda suficiente texto de alta calidad para entrenarlos.
Sin embargo, la capacidad de cómputo sigue creciendo.
La solución por defecto es el entrenamiento multiâépoca: pasar una y otra vez por los mismos datos.
Pero las pasadas repetidas sobre un corpus estático producen rendimientos rápidamente decrecientes.
Tras apenas un puñado de épocas, la pérdida deja de bajar y el modelo deja de aprender.
El artÃculo âq0: Primitives for Hyper-Epoch Pretrainingâ propone un replanteamiento radical.
En lugar de refinar un único modelo mucho más allá del punto sin retorno, divide el mismo presupuesto de épocas entre una población de modelos diversos.
Luego utiliza agregación de modelos en el momento de la inferencia para combinar sus predicciones.
¿El resultado?
En un modelo de 1.800 millones de parámetros entrenado con solo 100 millones de tokens de FineWeb, q0 iguala a un ensamble de referencia de 256 épocas usando únicamente ~56 épocas, una reducción de 4,6Ã.
La lente de Solomonoff y por qué los ensambles se quedan cortos
Entrena un solo modelo hasta que se satura y estarás dejando sin explorar la mayor parte de tu espacio de hipótesis.
Los autores fundamentan su trabajo en la inducción de Solomonoff: la idea de que el mejor predictor es un promedio sobre todas las explicaciones computables, ponderado por simplicidad.
Más cómputo deberÃa permitirte buscar más ampliamente, no solo más profundamente.
El ensamblado ingenuo es la implementación más directa de esto.
Pero falla en tres aspectos.
Primero, el coste de exploración: cada miembro del ensamble debe entrenarse desde cero, consumiendo tu presupuesto de cómputo antes de que puedas permitirte más que un puñado de modelos.
Segundo, la acumulación de capacidades: los modelos entrenados de forma independiente alcanzan todos aproximadamente la misma calidad; añadir más no eleva el rendimiento individual.
Tercero, la ponderación: promediar uniformemente ignora que algunos modelos generalizan mucho mejor que otros.
q0 aborda los tres simultáneamente con tres primitivas.

Primitiva 1: Cosechar diversidad de trayectorias cÃclicas
En lugar de entrenar docenas de modelos independientes, q0 reutiliza una única trayectoria de entrenamiento.
Adopta un programa cÃclico inspirado en Fast Geometric Ensembling.
La tasa de aprendizaje oscila y el decaimiento de pesos está anticorrelacionado con ella, de modo que el optimizador visita muchas cuencas distintas en rápida sucesión.
Se toma una instantánea breve en el fondo de cada ciclo.
Solo un pequeño número de trayectorias paralelas se inician desde diferentes semillas aleatorias, añadiendo una dosis controlada de diversidad.
El resultado es una rica población de modelos recolectada a partir de solo unas pocas ejecuciones completas de entrenamiento.
Esto reduce drásticamente el coste de exploración: casi todo el cómputo se destina a una cobertura productiva del espacio de pesos, no a reinicios redundantes.
Primitiva 2: Acumular calidad de modelo con destilación en cadena
Incluso cuando recolectas muchos modelos, simplemente entrenarlos de forma independiente produce un estancamiento.
El descenso de gradiente estándar bajo los mismos datos y cómputo genera modelos de calidad casi idéntica.
q0 rompe esta simetrÃa introduciendo la destilación en cadena.
Cada nueva instantánea se entrena no solo en la tarea de predicción del siguiente token, sino también contra la distribución de salida de la instantánea anterior.
El predecesor actúa como maestro, dando a cada modelo sucesivo un punto de partida más fuerte y un objetivo más alto.
Por lo tanto, la capacidad se acumula a lo largo de la población: las instantáneas posteriores son genuinamente mejores, no solo diferentes.
Esto asegura que combinar sus predicciones añada nueva competencia, no meramente varianza.
La técnica es sencilla de implementar y solo requiere un término adicional de divergencia KL entre los logits del estudiante y del maestro.
Primitiva 3: Dejar que los datos elijan los pesos
El promedio uniforme trata a cada modelo por igual, sin importar cuán preciso o ruidoso sea.
Los autores lo reemplazan con un prior aprendido.
Reservan un pequeño conjunto de aptitud y entrenan un conjunto de pesos escalares que maximizan el rendimiento de la predicción agregada en ese conjunto.
Este proxy empÃrico elude la intratabilidad del posterior completo de Solomonoff o del promedio de modelos bayesiano.
El resultado es un mecanismo ligero que ajusta automáticamente qué instantáneas importan más para un presupuesto de inferencia dado.
Usadas en conjunto, las tres primitivas transforman un presupuesto fijo de épocas en una colección de modelos cuyas predicciones combinadas superan consistentemente a una única contraparte intensamente refinada.
Eficiencia en el mundo real: casi 5à menos épocas
Los números traducen las primitivas en una ventaja concreta.
En un modelo de 1.800 millones de parámetros y 100 millones de tokens de FineWeb, un ensamble de referencia sólido de 256 épocas entrenadas independientemente sirve como referencia.
q0 alcanza la misma pérdida de validación usando solo ~56 épocas, una reducción de 4,6Ã.
Cuando se permite que el tamaño del ensamble de referencia iguale el número de población de q0, el método aún necesita solo ~67 épocas, o 3,8à menos.
Bajo la configuración Slowrun, la eficiencia acumulada de datos alcanza un extraordinario ~12,9Ã.
Crucialmente, las ganancias se mantienen no solo en perplejidad de validación, sino también en benchmarks de tareas posteriores.
Esto desplaza la conversación de âcuántas épocas podemos permitirnosâ a âcómo deberÃamos asignar un presupuesto finito de épocas para una máxima generalizaciónâ.
El fin de la era del modelo único
El artÃculo no solo aboga por una nueva técnica: redefine lo que significa entrenar con un conjunto de datos fijo.
Cada presupuesto de épocas, desde una sola pasada hasta cientos de pasadas, tiene una asignación óptima en trayectorias cÃclicas, instantáneas destiladas en cadena y ponderación aprendida.
Los autores proporcionan recetas prescriptivas que permiten a los profesionales ajustar la combinación adecuada.
El consejo intuitivo es profundo: deja de pensar en un modelo como un único artefacto y empieza a tratarlo como una población cuya inteligencia colectiva puede superar a cualquier individuo.
A medida que el suministro mundial de texto prÃstino se agota, métodos como q0 separarán a quienes siguen escalando de quienes se estancan.
La hiperâépoca no es una maldición de rendimientos decrecientes, es una invitación a explorar.



