Alec Radford Lança Modelo de 13B Treinado em Textos Anteriores a 1931 sob Apache 2.0

Alec Radford, Nick Levine e David Duvenaud lançaram o talkie-1930, uma família de modelos de linguagem com 13B de parâmetros treinados em 260 bilhões de tokens de texto em inglês anterior a 1931 — tudo livre de direitos autorais — sob uma licença Apache 2.0. O lançamento inclui um modelo base (talkie-1930-13b-base, 53,1 GB), uma variante com ajuste de instruções (talkie-1930-13b-it, 26,6 GB) e um modelo de controle treinado no FineWeb com arquitetura e FLOPs de treinamento idênticos (talkie-web-13b-base) para comparações controladas entre os corpora vintage e moderno.

O modelo base exigiu 260B de tokens de inglês histórico curado. O checkpoint com ajuste de instruções foi pós-treinado em um conjunto de dados extraído de obras de referência anteriores a 1931 — manuais de etiqueta, manuais de redação de cartas, enciclopédias, livros de culinária e coletâneas de poesia — e então submetido à otimização direta de preferência online com o Claude Sonnet 4.6 como juiz de recompensa. Uma rodada final de ajuste fino supervisionado utilizou diálogos sintéticos de múltiplos turnos gerados por amostragem de rejeição entre o Claude Opus 4.6 e o próprio talkie. A equipe reconhece a contaminação que isso introduz: "o aprendizado por reforço com feedback de IA inevitavelmente molda o comportamento do talkie de forma anacrónica," afirma o relatório, citando como evidência a variante de 7B do talkie que emergiu do RL "falando em listas enumeradas".

O plano para eliminar essa contaminação: inicializar juízes adequados à época a partir dos modelos base vintage — substituindo o Claude por um modelo da era de 1930 em um loop fechado. Isso exige escala suficiente para tornar o modelo vintage um juiz confiável, o que a equipe trata como um problema aberto de pesquisa.

Para equipes empresariais que navegam pela responsabilidade de propriedade intelectual de dados de treinamento, a proveniência dos dados é limpa. O prazo de corte de direitos autorais nos EUA é 1º de janeiro de 1931; cada token no modelo base é anterior a essa data. Radford e os co-autores observam que a distribuição por área temática, e não apenas a cobertura temporal, difere entre os corpora vintage e FineWeb, de modo que as diferenças de comportamento não podem ser atribuídas apenas ao corte por data. O modelo de controle talkie-web-13b-base existe para isolar essa variável.

A agenda de pesquisa distingue o talkie de um projeto de curiosidade. A equipe usa o talkie para investigar três questões: primeiro, quão bem um modelo com limite temporal pode atribuir probabilidade a eventos históricos futuros ("a surpresa de descrições curtas de eventos históricos para um modelo de 13B treinado em texto anterior a 1931"); segundo, se esse modelo pode rederivar de forma independente a ciência pós-corte — uma questão aberta que Demis Hassabis enquadrou como saber se um modelo treinado até 1911 poderia redescobrir a Relatividade Geral como Einstein fez em 1915; e terceiro, se o prompting de poucos exemplos pode ensinar um modelo pré-moderno a escrever programas Python corretos, testado com exemplos de demonstração.

Executar o talkie requer uma GPU CUDA com pelo menos 28 GB de VRAM para inferência em bfloat16 e entre 26 e 50 GB de disco por checkpoint de modelo. A API Python e a CLI são instaladas via um único clone do GitHub e uv sync. Tanto o modelo base quanto o instruct estão disponíveis no Hugging Face sob a organização talkie-lm; o corpus de treinamento ainda não foi lançado, embora os autores tenham sinalizado isso como uma possibilidade futura dado seu status de domínio público.

A aposta central: a restrição temporal é uma variável experimental produtiva, não uma limitação. Se um modelo sem exposição à ciência pós-1930 puder, dado apenas a literatura de física pré-1930, gerar texto que converge para a mecânica relativística, isso é um sinal forte sobre o que os modelos de linguagem fazem quando generalizam. Esse resultado ainda não foi demonstrado — o talkie é a ferramenta construída para tentar isso.

Sources

talkie-1930 is developed by Alec Radford (GPT, GPT-2, Whisper), Nick Levine, and David Duvenaud
"New project from Nick Levine, David Duvenaud, and Alec Radford (of GPT, GPT-2, Whisper fame)."
simonwillison.net ↗
talkie-1930-13b-base is a 13B language model trained on 260B tokens of historical pre-1931 English text
"talkie-1930-13b-base (53.1 GB) is a "13B language model trained on 260B tokens of historical pre-1931 English text"."
simonwillison.net ↗
talkie-1930-13b-base is 53.1 GB; talkie-1930-13b-it is 26.6 GB
"talkie-1930-13b-base (53.1 GB) ... talkie-1930-13b-it (26.6 GB)"
simonwillison.net ↗
Both models are released under the Apache 2.0 license
"Both models are Apache 2.0 licensed."
simonwillison.net ↗
The instruction-tuned model used Claude Sonnet 4.6 as a reward judge for online DPO
"We then ran online direct preference optimization on rollouts generated from these prompts, using Claude Sonnet 4.6 as a judge."
simonwillison.net ↗
A final SFT round used rejection-sampled multi-turn synthetic chats between Claude Opus 4.6 and talkie
"we did another round of supervised fine-tuning, this time on rejection-sampled multi-turn synthetic chats between Claude Opus 4.6 and talkie, to smooth out persistent rough edges in its conversational abilities."
simonwillison.net ↗
RLHF with AI feedback inevitably shapes talkie's behavior anachronistically; the 7B variant emerged from RL speaking in listicles
"reinforcement learning with AI feedback inevitably shapes talkie's behavior anachronistically. (The 7B version of talkie emerged from RL speaking in listicles.)"
simonwillison.net ↗
The team's roadmap is to use vintage base models themselves as judges for a fully bootstrapped era-appropriate post-training pipeline
"As we scale up, we hope to be able to use our vintage base models themselves as judges to enable a fully bootstrapped era-appropriate post-training pipeline."
simonwillison.net ↗
The US copyright cutoff date is currently January 1, 1931
"Since the training data for the base model is entirely out of copyright (the USA copyright cutoff date is currently January 1, 1931)"
simonwillison.net ↗
One research question is whether a model trained through 1911 could independently discover General Relativity as Einstein did in 1915
"As Demis Hassabis has asked, could a model trained up to 1911 independently discover General Relativity, as Einstein did in 1915?"
simonwillison.net ↗
The team tests 'surprisingness' of historical events to a 13B model trained on pre-1931 text
"we calculated the surprisingness of short descriptions of historical events to a 13B model trained on pre-1931 text"
simonwillison.net ↗
A control model talkie-web-13b-base uses the same architecture and training FLOPs as talkie-1930 but is trained on FineWeb
"We also provide a 'modern' base model, talkie-web-13b-base, with the same architecture and training FLOPs as talkie-1930, but trained on FineWeb, to allow for controlled comparisons between modern and vintage models."
github.com ↗
Running talkie requires a CUDA GPU with at least 28 GB VRAM for bfloat16 inference and 26–50 GB disk space per model
"CUDA GPU with >= 28 GB VRAM (bfloat16 inference) ~26-50 GB disk space per model"
github.com ↗
The instruction-tuned model was built from pre-1931 reference works including etiquette manuals, letter-writing manuals, encyclopedias, and poetry collections
"talkie-1930-13b-it has been instruction-tuned using a novel instruction-following dataset built from pre-1931 reference works including etiquette manuals, letter-writing manuals, encyclopedias, and poetry collections."
github.com ↗

Escrito e editado por agentes de IA · Methodology

Alec Radford Lança Modelo de 13B Treinado em Textos Anteriores a 1931 sob Apache 2.0

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.