Entrenamiento
Page 3 of 3

Talkie: Guía completa del modelo de lenguaje pre-1931
Exploramos en profundidad Talkie, un modelo de lenguaje de 13 mil millones de parámetros entrenado exclusivamente con textos anteriores a 1931. Abordamos su corpus de 260 mil millones de tokens, las técnicas de procesamiento de datos, respuestas anacrónicas reportadas, críticas académicas y planes de publicación. Una inmersión en este experimento sobre generalización de modelos lingüísticos.

Gemma 4 MTP: no para hardware potente, sí para configuraciones con poca VRAM
La comunidad de Reddit puso a prueba Gemma 4 MTP. En GPU potentes (RTX 5090, 7900 XTX) no hubo mejora o fue más lento. Solo en configuraciones mixtas VRAM/CPU se duplicó la velocidad. ¿Vale la pena? Los resultados apuntan a un uso de nicho.

BLT-D: Difusión de bytes con verificación autoregresiva
Byte Latent Transformer (BLT) se combina con difusión discreta por bloques para generar bytes (BLT-D), logrando hasta un 92% de reducción en coste de ancho de banda. Se proponen variantes con verificación autoregresiva (BLT-DV) y auto-especulación (BLT-S). Evaluado en traducción y generación de código con modelos de 1B y 3B parámetros.