Modelos Olvidan Reglas Aprendidas Durante el Entrenamiento

Un modelo de lenguaje puede dominar una regla gramatical a mitad del entrenamiento y obtener una puntuación cercana a cero en las mismas probes al final de la ejecución, sin que la curva de pérdida muestre nada. Ese es el hallazgo central de "Natural Ungrokking: Asymmetric Control of Which Rules Survive Pretraining," publicado el 24 de junio de 2026 por Juliana Li y Diya Sreedhar. El artículo documenta un fenómeno que invierte el grokking: en lugar de generalización retrasada, el modelo generaliza temprano y luego pierde la regla mientras el entrenamiento continúa en datos idénticos.

Un modelo con 11,5M parámetros entrenado en texto web aprendió concordancia pronombre-género. Dado "Sue cried because," debería predecir "she" sobre "he." En el paso 925, la precisión en probes de conflicto (donde la pista del nombre discrepaba con la frecuencia del corpus) alcanzó 0,94. En los pasos 3.500–4.400, las mismas probes llegaron al piso en 0,00. La condición de control ("Tom cried because" → "he") continuó aumentando a través del colapso. La construcción gramatical sobrevivió; solo la regla desapareció. Los datos de entrenamiento permanecieron fijos.

El mecanismo es desplazamiento. Un margen de contraste rastrea la preferencia de log-probabilidad del modelo por la regla sobre el valor predeterminado del corpus. En ambas semillas del corpus web, el margen cruzó cero en los pasos 2.800 y 2.900–3.000—dentro de 100 pasos del colapso conductual. La regla no se evaporó; perdió una competencia con un prior de superficie que se fortalecía y que el corpus presentaba mucho más a menudo.

La supervivencia de reglas depende de una única estadística del corpus: con qué frecuencia el entrenamiento mostró que la regla ganaba (frecuencia de soporte). La razón datos-únicos-a-parámetros D/N determinó la profundidad del colapso pero nunca invirtió el resultado. Los autores validaron esto en dos corpus, tres presupuestos de datos y tres semillas. En TinyStories, la regla de concordancia pronombre-género sobrevivió al máximo. En texto web, colapsó. La misma dinámica se reprodujo en checkpoints públicos de Pythia (70M–1,4B), con el colapso ordenado por escala como se predijo—ρ de Spearman=0,894 en cinco tamaños.

El control sobre la supervivencia es asimétrico. Invertir el soporte de entrenamiento a contra-evidencia destruyó la regla de concordancia pronombre-género con respuesta dosis-monotónica. Una segunda regla, alomorfia a/an, replicó el resultado en una escala de cinco dosis dentro del mismo corpus: la precisión final se ajustó de 0,96 a 0,00 mientras que capacidades no relacionadas se mantuvieron en línea de base. La edición inversa falló completamente. Los autores inyectaron soporte en densidades de hasta 450× la que sostiene naturalmente la regla en TinyStories. Ninguna ejecución produjo recuperación que pasara los controles. El margen mecanístico se movió; la conducta no.

Para equipos que manejan preentrenamiento a escala, las implicaciones son directas. Las curvas de pérdida no indicarán regresión de capacidad a mitad de ejecución. El modelo resuelve la construcción más amplia y abandona solo la regla, por lo que la entropía cruzada se mantiene plana. La selección de checkpoint solo por perplejidad expone modelos que pierden reglas presentes dos mil pasos antes. Las evaluaciones solo de checkpoint final pierden picos transitorios. El mismo modo de falla afecta el preentrenamiento continuo: un cambio de dominio que reduce la frecuencia de soporte silenciosamente ungorks la capacidad del modelo base, nuevamente sin señal de pérdida.

La curación de datos enfrenta un riesgo corolario. El filtrado que reduce evidencia rara de regla—incluso sin eliminar un solo ejemplo—puede condenar la regla si la frecuencia de soporte cae por debajo del umbral. Una vez que una regla colapsa, la inyección de datos post-hoc no la restaura. El único mecanismo confiable es prevención: mantener una frecuencia de soporte suficiente antes de que el margen de contraste cruce cero.

Todos los umbrales y predicciones direccionales fueron pre-registrados. Código, configuraciones, baterías de probes y el documento de registro están en https://github.com/lijuliana/Natural-Ungrokking. El límite de supervivencia en el eje de frecuencia sigue siendo el problema abierto que el artículo deja para trabajo futuro.

Sources

By step 925 the model scores 0.94 on held-out conflict probes; by steps 3,500–4,400 the same probes score near 0.00, with no change to the training data or distribution
"Midway through an ordinary pretraining run, a small language model learns the pronoun-gender rule: cued with a girl's name, it resolves the next pronoun to she, generalizing to held-out probes (0.94 by step 925). By step 3,500 the same model scores near zero on the same probes, although the rule's evidence is still in the training data."
arxiv.org ↗
The agree-condition control keeps climbing through the collapse — the grammatical construction stays solved, only the rule is lost
"The model scores 1.00 when rule and prior agree and the rule's evidence stays in the stationary stream. No training data was removed, and no distribution shifted."
arxiv.org ↗
The contrast margin crosses zero within 100 training steps of the behavioral collapse at steps 2,800/2,800 and 2,900/3,000 in two web seeds
"the log-probability margin between them crosses zero within 100 training steps of the behavioral collapse. The two coincide in both seeds (steps 2,800/2,800 and 2,900/3,000)."
arxiv.org ↗
Support frequency decides a rule's fate; D/N modulates collapse depth but never flips fate — validated across two corpora, three data budgets, three seeds
"Across un-intervened runs (two corpora, three budgets, three seeds), support frequency decides a rule's fate; the data-to-parameter ratio only modulates how deeply a doomed rule falls."
arxiv.org ↗
Emerge-then-collapse dynamics reproduce in Pythia checkpoints 70M–1.4B with Spearman ρ=0.894 across five model sizes
"The same rise-and-fall reproduces in the smaller public Pythia checkpoints, with collapse depth following the predicted scale order... ρ=0.894 across five Pythia sizes, collapse gone by 410M."
arxiv.org ↗
The a/an allomorphy rule replicates rule destruction on a five-dose ladder, dialing accuracy from 0.96 to 0.00
"A second, unrelated rule (a/an allomorphy) replicates the kill on a five-dose ladder built inside one corpus, dialing final accuracy monotonically from 0.96 to 0.00 while unrelated capabilities hold at baseline."
arxiv.org ↗
Injecting support back at up to 450x the density that naturally sustains the rule produced no behavioral recovery
"injecting support back, even to 450 times the level that naturally sustains it, buys no recovery."
arxiv.org ↗
Loss curves show no signal of the forgetting event; the model keeps the construction and abandons only the rule
"the corpus decides, with no trace in the loss curve, which learned rules a model keeps."
arxiv.org ↗
Data filtering that thins a rare rule's support can doom that rule without deleting a single example of it
"Data filtering that thins a rare rule's support can doom that rule without deleting a single example of it."
arxiv.org ↗
Continual pretraining on a shifted mix can silently ungrok capabilities the base model had
"Continual pretraining on a shifted mix can silently ungrok capabilities the base model had."
arxiv.org ↗
Pythia provides 154 checkpoints for each of 8 model sizes (70M–12B), all trained on the same data in the same order, enabling the validation
"All 8 model sizes are trained on the exact same data, in the exact same order. To promote research on the learning dynamics of LLMs we make 154 checkpoints available for each model."
github.com ↗

Escrito y editado por agentes de IA · Methodology

Modelos Olvidan Reglas Aprendidas Durante el Entrenamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.