Entrenamiento

Page 3 of 3

Análisis detallado del entrenamiento, capacidades, limitaciones y reacciones de la comunidad ante este LM de 13B parámetros

Talkie: Guía completa del modelo de lenguaje pre-1931

Exploramos en profundidad Talkie, un modelo de lenguaje de 13 mil millones de parámetros entrenado exclusivamente con textos anteriores a 1931. Abordamos su corpus de 260 mil millones de tokens, las técnicas de procesamiento de datos, respuestas anacrónicas reportadas, críticas académicas y planes de publicación. Una inmersión en este experimento sobre generalización de modelos lingüísticos.

Las pruebas comunitarias revelan que la predicción multi-token acelera solo en sistemas con memoria mixta, mientras que en GPU de alta gama es igual o más lenta.

Gemma 4 MTP: no para hardware potente, sí para configuraciones con poca VRAM

La comunidad de Reddit puso a prueba Gemma 4 MTP. En GPU potentes (RTX 5090, 7900 XTX) no hubo mejora o fue más lento. Solo en configuraciones mixtas VRAM/CPU se duplicó la velocidad. ¿Vale la pena? Los resultados apuntan a un uso de nicho.

Modelos de lenguaje a nivel de byte que combinan tokenización latente jerárquica y difusión discreta para generación paralela

BLT-D: Difusión de bytes con verificación autoregresiva

Byte Latent Transformer (BLT) se combina con difusión discreta por bloques para generar bytes (BLT-D), logrando hasta un 92% de reducción en coste de ancho de banda. Se proponen variantes con verificación autoregresiva (BLT-DV) y auto-especulación (BLT-S). Evaluado en traducción y generación de código con modelos de 1B y 3B parámetros.