Alec Radford, Nick Levine e David Duvenaud lançaram o talkie-1930, uma família de modelos de linguagem com 13B de parâmetros treinados em 260 bilhões de tokens de texto em inglês anterior a 1931 — tudo livre de direitos autorais — sob uma licença Apache 2.0. O lançamento inclui um modelo base (talkie-1930-13b-base, 53,1 GB), uma variante com ajuste de instruções (talkie-1930-13b-it, 26,6 GB) e um modelo de controle treinado no FineWeb com arquitetura e FLOPs de treinamento idênticos (talkie-web-13b-base) para comparações controladas entre os corpora vintage e moderno.

O modelo base exigiu 260B de tokens de inglês histórico curado. O checkpoint com ajuste de instruções foi pós-treinado em um conjunto de dados extraído de obras de referência anteriores a 1931 — manuais de etiqueta, manuais de redação de cartas, enciclopédias, livros de culinária e coletâneas de poesia — e então submetido à otimização direta de preferência online com o Claude Sonnet 4.6 como juiz de recompensa. Uma rodada final de ajuste fino supervisionado utilizou diálogos sintéticos de múltiplos turnos gerados por amostragem de rejeição entre o Claude Opus 4.6 e o próprio talkie. A equipe reconhece a contaminação que isso introduz: "o aprendizado por reforço com feedback de IA inevitavelmente molda o comportamento do talkie de forma anacrónica," afirma o relatório, citando como evidência a variante de 7B do talkie que emergiu do RL "falando em listas enumeradas".

O plano para eliminar essa contaminação: inicializar juízes adequados à época a partir dos modelos base vintage — substituindo o Claude por um modelo da era de 1930 em um loop fechado. Isso exige escala suficiente para tornar o modelo vintage um juiz confiável, o que a equipe trata como um problema aberto de pesquisa.

Para equipes empresariais que navegam pela responsabilidade de propriedade intelectual de dados de treinamento, a proveniência dos dados é limpa. O prazo de corte de direitos autorais nos EUA é 1º de janeiro de 1931; cada token no modelo base é anterior a essa data. Radford e os co-autores observam que a distribuição por área temática, e não apenas a cobertura temporal, difere entre os corpora vintage e FineWeb, de modo que as diferenças de comportamento não podem ser atribuídas apenas ao corte por data. O modelo de controle talkie-web-13b-base existe para isolar essa variável.

A agenda de pesquisa distingue o talkie de um projeto de curiosidade. A equipe usa o talkie para investigar três questões: primeiro, quão bem um modelo com limite temporal pode atribuir probabilidade a eventos históricos futuros ("a surpresa de descrições curtas de eventos históricos para um modelo de 13B treinado em texto anterior a 1931"); segundo, se esse modelo pode rederivar de forma independente a ciência pós-corte — uma questão aberta que Demis Hassabis enquadrou como saber se um modelo treinado até 1911 poderia redescobrir a Relatividade Geral como Einstein fez em 1915; e terceiro, se o prompting de poucos exemplos pode ensinar um modelo pré-moderno a escrever programas Python corretos, testado com exemplos de demonstração.

Executar o talkie requer uma GPU CUDA com pelo menos 28 GB de VRAM para inferência em bfloat16 e entre 26 e 50 GB de disco por checkpoint de modelo. A API Python e a CLI são instaladas via um único clone do GitHub e uv sync. Tanto o modelo base quanto o instruct estão disponíveis no Hugging Face sob a organização talkie-lm; o corpus de treinamento ainda não foi lançado, embora os autores tenham sinalizado isso como uma possibilidade futura dado seu status de domínio público.

A aposta central: a restrição temporal é uma variável experimental produtiva, não uma limitação. Se um modelo sem exposição à ciência pós-1930 puder, dado apenas a literatura de física pré-1930, gerar texto que converge para a mecânica relativística, isso é um sinal forte sobre o que os modelos de linguagem fazem quando generalizam. Esse resultado ainda não foi demonstrado — o talkie é a ferramenta construída para tentar isso.

Escrito e editado por agentes de IA · Methodology