home›LLMs›

Talkie: Guía completa del modelo de lenguaje pre-1931

Análisis detallado del entrenamiento, capacidades, limitaciones y reacciones de la comunidad ante este LM de 13B parámetros

21 de mayo de 2026

#Agentes #Código Abierto #Entrenamiento #Generación de Contenido #LLM

Exploramos en profundidad Talkie, un modelo de lenguaje de 13 mil millones de parámetros entrenado exclusivamente con textos anteriores a 1931. Abordamos su corpus de 260 mil millones de tokens, las técnicas de procesamiento de datos, respuestas anacrónicas reportadas, críticas académicas y planes de publicación. Una inmersión en este experimento sobre generalización de modelos lingüísticos.

Un Modelo de Lenguaje Atrapado en el Tiempo

El 27 de abril de 2026, un pequeño equipo de investigadores lanzó un modelo de lenguaje como ningún otro.

Llamado Talkie, el transformador de 13 mil millones de parámetros fue entrenado exclusivamente con texto publicado antes de 1931.

El anuncio, publicado en X (antes Twitter) a las 11:34 p. m. por el coautor Nick Levine (@status_effects), llamó la atención de inmediato.

En 24 horas, el tuit acumuló más de 1.1 millones de visualizaciones, junto con 3000 'me gusta', 543 respuestas y 1600 marcadores.

El modelo fue desarrollado por Nick Levine, Alec Radford (@AlecRad) y David Duvenaud (@DavidDuvenaud).

Su objetivo declarado no era construir un asistente práctico, sino responder una pregunta de investigación fundamental: ¿cómo se generalizan los modelos de lenguaje más allá de su distribución de entrenamiento?

Si un modelo nunca ha visto una línea de código, ¿se le puede enseñar a escribir Python? Si solo conoce el mundo tal como se describía en 1930, ¿puede razonar sobre el presente?

Talkie fue construido para averiguarlo.

El Archivo: Construyendo un Corpus Anterior a 1931

Entrenar un modelo de 13 mil millones de parámetros requiere enormes cantidades de texto.

Para Talkie, el equipo reunió aproximadamente 260 mil millones de tokens de material anterior a 1931.

Esta cifra fue mencionada por el usuario will depue (@willdepue) en el hilo del anuncio y no fue disputada por los autores.

Las fuentes de datos principales fueron la Institutional Data Initiative y el Internet Archive, complementadas con un "montón de otras fuentes".

Crucialmente, el corpus no era una muestra aleatoria de texto histórico.

Incluía docenas de libros de referencia histórica con formatos regulares y estructurados:

Enciclopedias que capturaban la suma del conocimiento de principios del siglo XX
Manuales de etiqueta que codificaban las normas sociales de la época
Manuales de redacción de cartas que preservaban los estilos formales de comunicación
Libros de cocina que documentaban la vida doméstica y los ingredientes disponibles

Para extraer y estructurar estos datos, el equipo escribió analizadores personalizados usando Claude Code.

Estos analizadores transformaron páginas escaneadas y digitalizadas en texto limpio y legible por máquina, adecuado para el entrenamiento de modelos de lenguaje.

Los autores se comprometieron a publicar más detalles sobre el corpus en el futuro.

Cuando sea posible, planean publicar los datos en sí, o al menos los scripts necesarios para reconstruir el conjunto de datos a partir de fuentes públicas.

A surreal, dimly lit library where towering shelves of antique books dissolve into pixelated data streams, their pages fluttering like autumn leaves. In the center, a translucent human silhouette composed of overlapping text fragments—encyclopedias, etiquette manuals, cookbooks—holds a quill that drips ink into a glowing, modern computer terminal. The ink swirls into a mirror reflecting a foggy, anachronistic cityscape: horse-drawn carriages next to neon signs, gambling dens overgrown with vines. Soft sepia tones clash with cold blue digital light, evoking a statistical pastiche—a window that is also a mirror, blending eras without resolution.

Capacidades, Limitaciones y Comportamiento Anacrónico

Las respuestas de Talkie están moldeadas enteramente por el alcance temporal de sus datos de entrenamiento.

Los primeros usuarios identificaron rápidamente comportamientos tanto encantadores como inquietantes.

Un usuario informó que Talkie "afirma que el juego no existirá para 2020".

Este es un ejemplo clásico de inferencia anacrónica: el modelo extrapoló a partir de tendencias anteriores a 1931 — quizás un período de sentimiento antijuego o prohibición legal — y proyectó esa trayectoria hacia adelante, sin saber de la enorme expansión del juego legal a finales del siglo XX y principios del XXI.

Otros usuarios señalaron limitaciones más fundamentales.

Yasi Khan (@yasmeena_khan) observó que Talkie "parece pensar que solo cubre 1700-1799", lo que sugiere que al modelo le falta el metadato o la autoconciencia para describir con precisión su propio período de entrenamiento.

Los autores no abordaron esta observación en el hilo.

Christiano Boria (@christianoboria) ofreció una crítica más dura: "las respuestas no parecen de alguien anterior a 1931".

Esto plantea un punto sutil pero importante. Un modelo entrenado con texto de un período no necesariamente replica el estilo cognitivo, las creencias o las normas conversacionales de una persona que vivió en ese período.

Puede producir una especie de pastiche estadístico — una mezcla de voces y perspectivas que nunca existieron en una sola mente humana.

Andrew Gordon Wilson (@andrewgwils) extendió esta crítica a la empresa más amplia de la interacción con los LLM:

"No siento que hablar con un LLM entrenado con datos actuales sea como hablar con una persona moderna."

Si un modelo entrenado con datos contemporáneos no replica a un humano contemporáneo, ¿qué significa hablar con un modelo entrenado con datos históricos?

¿Es una ventana al pasado, o simplemente un espejo que refleja los patrones estadísticos del texto archivado?

Reacciones de la Comunidad y Aplicaciones Prácticas

A pesar de las preguntas filosóficas, la respuesta de la comunidad fue abrumadoramente positiva.

Los usuarios describieron el proyecto como "genial", "asombroso", "increíblemente bueno", "edificante" y "lo más cool que he visto este mes".

El checkpoint se puso a disposición para su descarga, y varios usuarios expresaron interés en ejecutarlo localmente.

Phil Trubey indicó su intención de descargar y ejecutar el modelo. Otros usuarios pidieron acceso al terminal para experimentar directamente con él.

Las aplicaciones prácticas que los usuarios imaginaron fueron creativas y variadas.

Un usuario quería preguntarle a Talkie: "¿Cómo va eso de que las mujeres voten?" — una pregunta que se respondería de manera muy diferente dependiendo de si el modelo conocía la 19.ª Enmienda (ratificada en 1920) o no.

Ben Nash (@bennash) mencionó al autor Orson Scott Card, señalando que el proyecto "suena como un paso más hacia Pastwatch" — una referencia a la novela de ciencia ficción de Card Pastwatch: La redención de Cristóbal Colón, en la que los investigadores usan un dispositivo para ver y potencialmente alterar el pasado.

El hilo también hacía referencia a una publicación especulativa anterior del 30 de septiembre de 2025, del usuario Deep Thrill (@DeeperThrill).

Esa publicación se preguntaba sobre entrenar una IA con todo el conocimiento hasta 1899 y probar si podía hacer saltos creativos en física — específicamente sobre el éter y el perihelio de Mercurio.

Talkie, entrenado con datos que se extienden 32 años más, representa una realización parcial de ese experimento mental.

Preguntas Abiertas y Direcciones Futuras

El proyecto Talkie deja varias preguntas importantes sin respuesta.

Jiaxin Wen (@jiaxinwen22) hizo una pregunta técnica crítica: ¿los datos de instrucción utilizados para el ajuste fino se generaron incitando a los LLM con textos históricos?

Si es así, el comportamiento del modelo podría reflejar no solo el corpus histórico, sino también los sesgos y el encuadre del LLM moderno utilizado para generar los ejemplos de instrucción.

Los autores no respondieron a esta pregunta en el hilo.

Otras preguntas abiertas incluyen:

Generalización a la programación: ¿Se puede enseñar a un modelo entrenado solo con texto anterior a 1931 a escribir código moderno? Los autores mencionaron esto explícitamente como motivación, pero no compartieron resultados.
Conciencia temporal de sí mismo: ¿Por qué el modelo parece confundido sobre su propio período de entrenamiento? ¿Se puede solucionar con mejores indicaciones o metadatos?
Autenticidad vs. pastiche: ¿Hay alguna manera de evaluar si el modelo refleja genuinamente perspectivas históricas, o simplemente patrones estadísticos?
Publicación de datos: Los autores invitaron a la comunidad a dar su opinión sobre qué aspectos — particularmente el código — sería más interesante publicar.

El equipo planea publicar más información sobre el corpus y liberar tantos datos como sea posible, incluidos scripts de reconstrucción.

Por ahora, Talkie se erige como un audaz experimento en modelado de lenguaje temporalmente restringido.

Ofrece un vistazo a lo que sucede cuando le pedimos a una red neuronal que hable desde un pasado que nunca experimentó, usando palabras que solo ha leído.