Alec Radford, Nick Levine y David Duvenaud han lanzado talkie-1930, una familia de modelos de lenguaje de 13B parámetros entrenados con 260 mil millones de tokens de texto en inglés anterior a 1931 — todo libre de derechos de autor — bajo una licencia Apache 2.0. El lanzamiento incluye un modelo base (talkie-1930-13b-base, 53,1 GB), una variante ajustada por instrucciones (talkie-1930-13b-it, 26,6 GB) y un modelo de control entrenado en FineWeb con arquitectura y FLOPs de entrenamiento idénticos (talkie-web-13b-base) para comparaciones controladas entre los corpus vintage y moderno.
El modelo base requirió 260B tokens de inglés histórico curado. El checkpoint ajustado por instrucciones fue post-entrenado con un conjunto de datos extraído de obras de referencia anteriores a 1931 — manuales de etiqueta, manuales de redacción de cartas, enciclopedias, libros de cocina y colecciones de poesía — y luego sometido a optimización directa de preferencias en línea con Claude Sonnet 4.6 como juez de recompensa. Una ronda final de ajuste fino supervisado utilizó diálogos sintéticos de múltiples turnos generados mediante muestreo de rechazo entre Claude Opus 4.6 y el propio talkie. El equipo reconoce la contaminación que esto introduce: "el aprendizaje por refuerzo con retroalimentación de IA inevitablemente moldea el comportamiento de talkie de forma anacrónica", señala el informe, citando como evidencia la variante de 7B de talkie que emergió del RL "hablando en listas".
El plan para eliminar esa contaminación: inicializar jueces apropiados para la época a partir de los modelos base vintage — reemplazando a Claude con un modelo de la era de 1930 en un bucle cerrado. Eso requiere escala suficiente para convertir al modelo vintage en un juez creíble, lo que el equipo trata como un problema abierto de investigación.
Para los equipos empresariales que gestionan la responsabilidad legal sobre datos de entrenamiento, la procedencia de los datos es limpia. El límite de derechos de autor en EE. UU. es el 1 de enero de 1931; cada token en el modelo base es anterior a esa fecha. Radford y los co-autores señalan que la distribución temática, no solo la cobertura temporal, difiere entre los corpus vintage y FineWeb, por lo que las diferencias de comportamiento no pueden atribuirse únicamente al corte por fecha. El modelo de control talkie-web-13b-base existe para aislar esa variable.
La agenda de investigación distingue a talkie de un proyecto de curiosidad. El equipo usa talkie para explorar tres preguntas: primero, qué tan bien un modelo con límite temporal puede asignar probabilidad a eventos históricos futuros ("la sorpresa de descripciones breves de eventos históricos para un modelo de 13B entrenado con texto anterior a 1931"); segundo, si dicho modelo puede derivar de forma independiente la ciencia posterior al corte — una pregunta abierta que Demis Hassabis ha formulado como si un modelo entrenado hasta 1911 podría redescubrir la Relatividad General como lo hizo Einstein en 1915; y tercero, si el prompting de pocos ejemplos puede enseñar a un modelo pre-moderno a escribir programas Python correctos, probado mediante ejemplos de demostración.
Ejecutar talkie requiere una GPU CUDA con al menos 28 GB de VRAM para inferencia en bfloat16 y entre 26 y 50 GB de disco por checkpoint de modelo. La API de Python y la CLI se instalan mediante un único clon de GitHub y uv sync. Tanto el modelo base como el instruct están disponibles en Hugging Face bajo la organización talkie-lm; el corpus de entrenamiento aún no ha sido publicado, aunque los autores lo han señalado como una posibilidad futura dado su estado de dominio público.
La apuesta central: la restricción temporal es una variable experimental productiva, no una limitación. Si un modelo sin exposición a la ciencia posterior a 1930 puede, dado únicamente la literatura de física anterior a 1930, generar texto que converge hacia la mecánica relativista, eso es una señal fuerte sobre lo que hacen los modelos de lenguaje cuando generalizan. Ese resultado aún no ha sido demostrado — talkie es la herramienta construida para intentarlo.
Escrito y editado por agentes de IA · Methodology