Alec Radford Lanza Modelo de 13B Entrenado con Textos Anteriores a 1931 bajo Apache 2.0

Alec Radford, Nick Levine y David Duvenaud han lanzado talkie-1930, una familia de modelos de lenguaje de 13B parámetros entrenados con 260 mil millones de tokens de texto en inglés anterior a 1931 — todo libre de derechos de autor — bajo una licencia Apache 2.0. El lanzamiento incluye un modelo base (talkie-1930-13b-base, 53,1 GB), una variante ajustada por instrucciones (talkie-1930-13b-it, 26,6 GB) y un modelo de control entrenado en FineWeb con arquitectura y FLOPs de entrenamiento idénticos (talkie-web-13b-base) para comparaciones controladas entre los corpus vintage y moderno.

El modelo base requirió 260B tokens de inglés histórico curado. El checkpoint ajustado por instrucciones fue post-entrenado con un conjunto de datos extraído de obras de referencia anteriores a 1931 — manuales de etiqueta, manuales de redacción de cartas, enciclopedias, libros de cocina y colecciones de poesía — y luego sometido a optimización directa de preferencias en línea con Claude Sonnet 4.6 como juez de recompensa. Una ronda final de ajuste fino supervisado utilizó diálogos sintéticos de múltiples turnos generados mediante muestreo de rechazo entre Claude Opus 4.6 y el propio talkie. El equipo reconoce la contaminación que esto introduce: "el aprendizaje por refuerzo con retroalimentación de IA inevitablemente moldea el comportamiento de talkie de forma anacrónica", señala el informe, citando como evidencia la variante de 7B de talkie que emergió del RL "hablando en listas".

El plan para eliminar esa contaminación: inicializar jueces apropiados para la época a partir de los modelos base vintage — reemplazando a Claude con un modelo de la era de 1930 en un bucle cerrado. Eso requiere escala suficiente para convertir al modelo vintage en un juez creíble, lo que el equipo trata como un problema abierto de investigación.

Para los equipos empresariales que gestionan la responsabilidad legal sobre datos de entrenamiento, la procedencia de los datos es limpia. El límite de derechos de autor en EE. UU. es el 1 de enero de 1931; cada token en el modelo base es anterior a esa fecha. Radford y los co-autores señalan que la distribución temática, no solo la cobertura temporal, difiere entre los corpus vintage y FineWeb, por lo que las diferencias de comportamiento no pueden atribuirse únicamente al corte por fecha. El modelo de control talkie-web-13b-base existe para aislar esa variable.

La agenda de investigación distingue a talkie de un proyecto de curiosidad. El equipo usa talkie para explorar tres preguntas: primero, qué tan bien un modelo con límite temporal puede asignar probabilidad a eventos históricos futuros ("la sorpresa de descripciones breves de eventos históricos para un modelo de 13B entrenado con texto anterior a 1931"); segundo, si dicho modelo puede derivar de forma independiente la ciencia posterior al corte — una pregunta abierta que Demis Hassabis ha formulado como si un modelo entrenado hasta 1911 podría redescubrir la Relatividad General como lo hizo Einstein en 1915; y tercero, si el prompting de pocos ejemplos puede enseñar a un modelo pre-moderno a escribir programas Python correctos, probado mediante ejemplos de demostración.

Ejecutar talkie requiere una GPU CUDA con al menos 28 GB de VRAM para inferencia en bfloat16 y entre 26 y 50 GB de disco por checkpoint de modelo. La API de Python y la CLI se instalan mediante un único clon de GitHub y uv sync. Tanto el modelo base como el instruct están disponibles en Hugging Face bajo la organización talkie-lm; el corpus de entrenamiento aún no ha sido publicado, aunque los autores lo han señalado como una posibilidad futura dado su estado de dominio público.

La apuesta central: la restricción temporal es una variable experimental productiva, no una limitación. Si un modelo sin exposición a la ciencia posterior a 1930 puede, dado únicamente la literatura de física anterior a 1930, generar texto que converge hacia la mecánica relativista, eso es una señal fuerte sobre lo que hacen los modelos de lenguaje cuando generalizan. Ese resultado aún no ha sido demostrado — talkie es la herramienta construida para intentarlo.

Sources

talkie-1930 is developed by Alec Radford (GPT, GPT-2, Whisper), Nick Levine, and David Duvenaud
"New project from Nick Levine, David Duvenaud, and Alec Radford (of GPT, GPT-2, Whisper fame)."
simonwillison.net ↗
talkie-1930-13b-base is a 13B language model trained on 260B tokens of historical pre-1931 English text
"talkie-1930-13b-base (53.1 GB) is a "13B language model trained on 260B tokens of historical pre-1931 English text"."
simonwillison.net ↗
talkie-1930-13b-base is 53.1 GB; talkie-1930-13b-it is 26.6 GB
"talkie-1930-13b-base (53.1 GB) ... talkie-1930-13b-it (26.6 GB)"
simonwillison.net ↗
Both models are released under the Apache 2.0 license
"Both models are Apache 2.0 licensed."
simonwillison.net ↗
The instruction-tuned model used Claude Sonnet 4.6 as a reward judge for online DPO
"We then ran online direct preference optimization on rollouts generated from these prompts, using Claude Sonnet 4.6 as a judge."
simonwillison.net ↗
A final SFT round used rejection-sampled multi-turn synthetic chats between Claude Opus 4.6 and talkie
"we did another round of supervised fine-tuning, this time on rejection-sampled multi-turn synthetic chats between Claude Opus 4.6 and talkie, to smooth out persistent rough edges in its conversational abilities."
simonwillison.net ↗
RLHF with AI feedback inevitably shapes talkie's behavior anachronistically; the 7B variant emerged from RL speaking in listicles
"reinforcement learning with AI feedback inevitably shapes talkie's behavior anachronistically. (The 7B version of talkie emerged from RL speaking in listicles.)"
simonwillison.net ↗
The team's roadmap is to use vintage base models themselves as judges for a fully bootstrapped era-appropriate post-training pipeline
"As we scale up, we hope to be able to use our vintage base models themselves as judges to enable a fully bootstrapped era-appropriate post-training pipeline."
simonwillison.net ↗
The US copyright cutoff date is currently January 1, 1931
"Since the training data for the base model is entirely out of copyright (the USA copyright cutoff date is currently January 1, 1931)"
simonwillison.net ↗
One research question is whether a model trained through 1911 could independently discover General Relativity as Einstein did in 1915
"As Demis Hassabis has asked, could a model trained up to 1911 independently discover General Relativity, as Einstein did in 1915?"
simonwillison.net ↗
The team tests 'surprisingness' of historical events to a 13B model trained on pre-1931 text
"we calculated the surprisingness of short descriptions of historical events to a 13B model trained on pre-1931 text"
simonwillison.net ↗
A control model talkie-web-13b-base uses the same architecture and training FLOPs as talkie-1930 but is trained on FineWeb
"We also provide a 'modern' base model, talkie-web-13b-base, with the same architecture and training FLOPs as talkie-1930, but trained on FineWeb, to allow for controlled comparisons between modern and vintage models."
github.com ↗
Running talkie requires a CUDA GPU with at least 28 GB VRAM for bfloat16 inference and 26–50 GB disk space per model
"CUDA GPU with >= 28 GB VRAM (bfloat16 inference) ~26-50 GB disk space per model"
github.com ↗
The instruction-tuned model was built from pre-1931 reference works including etiquette manuals, letter-writing manuals, encyclopedias, and poetry collections
"talkie-1930-13b-it has been instruction-tuned using a novel instruction-following dataset built from pre-1931 reference works including etiquette manuals, letter-writing manuals, encyclopedias, and poetry collections."
github.com ↗

Escrito y editado por agentes de IA · Methodology

Alec Radford Lanza Modelo de 13B Entrenado con Textos Anteriores a 1931 bajo Apache 2.0

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.