Il dilemma del budget di epoche
E se ogni epoca di addestramento extra che esegui ti stesse già dando quasi nulla?
I migliori modelli linguistici di oggi stanno sbattendo contro un muro: semplicemente non c’è abbastanza testo di alta qualità per addestrarli.
Eppure la potenza di calcolo continua a crescere.
La soluzione predefinita è l’addestramento multi‑epoca — passare più e più volte sugli stessi dati.
Ma il passaggio ripetuto su un corpus statico produce rendimenti rapidamente decrescenti.
Dopo solo una manciata di epoche, la perdita smette di scendere e il modello smette di imparare.
Il paper “q0: Primitives for Hyper‑Epoch Pretraining” propone un radicale cambio di prospettiva.
Invece di raffinare un singolo modello ben oltre il punto di non ritorno, lo stesso budget di epoche viene suddiviso su una popolazione di modelli diversi.
Poi si usa l’aggregazione dei modelli al momento dell’inferenza per combinare le loro previsioni.
Il risultato?
Su un modello da 1,8 miliardi di parametri addestrato su appena 100 milioni di token di FineWeb, q0 eguaglia una baseline di ensemble a 256 epoche utilizzando solo circa 56 epoche — una riduzione di 4,6×.
La lente di Solomonoff e perché gli ensemble non bastano
Addestrare un unico modello finché non si satura significa lasciare inesplorata la maggior parte dello spazio delle ipotesi.
Gli autori fondano il loro lavoro sull’induzione di Solomonoff — l’idea che il miglior predittore sia una media su tutte le spiegazioni computabili, pesata per semplicità.
Più potenza di calcolo dovrebbe permettere di cercare più in largo, non solo più in profondità.
L’ensembling ingenuo è l’implementazione più diretta di questa idea.
Ma fallisce su tre fronti.
Primo, il costo dell’esplorazione: ogni membro dell’ensemble deve essere addestrato da zero, bruciando il budget di calcolo prima di potersi permettere più di pochi modelli.
Secondo, l’accumulo di capacità: modelli addestrati in modo indipendente raggiungono tutti più o meno la stessa qualità; aggiungerne altri non alza le prestazioni individuali.
Terzo, la ponderazione: una media uniforme ignora che alcuni modelli generalizzano molto meglio di altri.
q0 affronta tutti e tre simultaneamente con tre primitive.

Primitiva 1: Raccogliere diversità da traiettorie cicliche
Invece di addestrare decine di modelli indipendenti, q0 riutilizza una singola traiettoria di addestramento.
Adotta uno schema ciclico ispirato al Fast Geometric Ensembling.
Il tasso di apprendimento oscilla, e il decadimento dei pesi è anti‑correlato ad esso, così che l’ottimizzatore visiti molti bacini distinti in rapida successione.
Viene catturato uno snapshot breve sul fondo di ogni ciclo.
Solo un piccolo numero di traiettorie parallele viene avviato da semi casuali diversi, aggiungendo una dose controllata di diversità.
Il risultato è una ricca popolazione di modelli raccolta da poche esecuzioni complete.
Questo riduce drasticamente il costo dell’esplorazione: quasi tutto il calcolo va nella copertura produttiva dello spazio dei pesi, non in riavvii ridondanti.
Primitiva 2: Accumulare la qualità del modello con la distillazione a catena
Anche quando si raccolgono molti modelli, addestrarli semplicemente in modo indipendente porta a un plateau.
La discesa del gradiente standard su stessi dati e calcolo produce modelli di qualità quasi identica.
q0 rompe questa simmetria introducendo la distillazione a catena.
Ogni nuovo snapshot viene addestrato non solo sul compito di previsione del prossimo token, ma anche rispetto alla distribuzione di output dello snapshot precedente.
Il predecessore funge da insegnante, dando a ogni modello successivo un punto di partenza più forte e un obiettivo più alto.
La capacità quindi si accumula lungo la popolazione — gli snapshot successivi sono genuinamente migliori, non solo diversi.
Questo garantisce che combinare le loro previsioni aggiunga nuova competenza, non semplice varianza.
La tecnica è semplice da implementare, richiedendo solo un termine aggiuntivo di divergenza KL tra i logit dello studente e dell’insegnante.
Primitiva 3: Lasciare che i dati scelgano i pesi
La media uniforme tratta ogni modello allo stesso modo, indipendentemente da quanto sia preciso o rumoroso.
Gli autori la sostituiscono con una prior appresa.
Tengono da parte un piccolo insieme di fitness e addestrano un insieme di pesi scalari che massimizzano le prestazioni della predizione aggregata su quell’insieme.
Questa approssimazione empirica aggira l’intrattabilità dell’intera distribuzione a posteriori di Solomonoff o della media sui modelli bayesiana.
Il risultato è un meccanismo leggero che regola automaticamente quali snapshot contano di più per un dato budget di inferenza.
Utilizzate insieme, le tre primitive trasformano un budget fisso di epoche in una collezione di modelli le cui previsioni combinate superano costantemente un singolo modello fortemente raffinato.
Efficienza nel mondo reale: quasi 5× meno epoche
I numeri traducono le primitive in un vantaggio concreto.
Su un modello da 1,8 miliardi di parametri e 100 milioni di token di FineWeb, un forte ensemble di baseline composto da 256 epoche addestrate in modo indipendente funge da riferimento.
q0 raggiunge la stessa perdita di validazione usando solo circa 56 epoche — una riduzione di 4,6×.
Quando alla baseline viene concesso di avere lo stesso numero di modelli della popolazione di q0, il metodo richiede comunque solo circa 67 epoche, ovvero 3,8× in meno.
Nello scenario Slowrun, l’efficienza cumulativa sui dati raggiunge un valore straordinario di circa 12,9×.
Fondamentale, i guadagni si mantengono non solo sulla perplessità di validazione, ma anche sui benchmark a valle.
Questo sposta la discussione da “quante epoche possiamo permetterci” a “come dovremmo allocare un budget finito di epoche per massimizzare la generalizzazione”.
La fine dell’era del modello singolo
Il paper non si limita a sostenere una nuova tecnica: ridefinisce cosa significhi addestrarsi su un dataset fisso.
Ogni budget di epoche, da un singolo passaggio a centinaia di passaggi, ha un’allocazione ottimale in traiettorie cicliche, snapshot distillati a catena e pesatura appresa.
Gli autori forniscono ricette prescrittive che permettono ai professionisti di dosare il giusto mix.
Il consiglio intuitivo è profondo: smetti di pensare al modello come a un singolo artefatto e inizia a trattarlo come una popolazione la cui intelligenza collettiva può superare qualsiasi individuo.
Man mano che la riserva mondiale di testo incontaminato si esaurisce, metodi come q0 separeranno chi continua a scalare da chi rimane bloccato.
L’iper‑epoca non è una maledizione di rendimenti decrescenti, ma un invito a esplorare.



