Modelos Esquecem Regras Aprendidas Durante o Treinamento

Um modelo de linguagem pode dominar uma regra gramatical na metade do treinamento e marcar próximo de zero nas mesmas probes ao final da execução, com a curva de perda não mostrando nada. Esse é o achado central de "Natural Ungrokking: Asymmetric Control of Which Rules Survive Pretraining," publicado em 24 de junho de 2026 por Juliana Li e Diya Sreedhar. O artigo documenta um fenômeno que inverte o grokking: em vez de generalização atrasada, o modelo generaliza cedo e depois perde a regra enquanto o treinamento continua nos mesmos dados.

Um modelo com 11,5M parâmetros treinado em texto da web aprendeu concordância pronome-gênero. Dado "Sue cried because," deveria prever "she" em vez de "he." No passo 925, a acurácia em probes de conflito (onde a dica do nome discordava da frequência do corpus) atingiu 0,94. Nos passos 3.500–4.400, as mesmas probes chegaram ao piso em 0,00. A condição de controle ("Tom cried because" → "he") continuou subindo apesar do colapso. A construção gramatical sobreviveu; apenas a regra desapareceu. Os dados de treinamento permaneceram fixos.

O mecanismo é deslocamento. Uma margem de contraste rastreia a preferência de log-probabilidade do modelo pela regra sobre o padrão do corpus. Em ambos os seeds do corpus-web, a margem cruzou zero nos passos 2.800 e 2.900–3.000—dentro de 100 passos do colapso comportamental. A regra não evaporou; perdeu uma competição com um prior de superfície que se fortalecia e que o corpus apresentava muito mais frequentemente.

A sobrevivência de regras depende de uma única estatística do corpus: com que frequência o treinamento mostrou a regra vencendo (frequência de suporte). A razão dados-únicos-para-parâmetros D/N determinou a profundidade do colapso mas nunca inverteu o resultado. Os autores validaram isso em dois corpus, três orçamentos de dados e três seeds. Em TinyStories, a regra de concordância pronome-gênero sobreviveu no teto. Em texto da web, ela desabou. A mesma dinâmica se reproduziu em checkpoints públicos de Pythia (70M–1,4B), com o colapso ordenado por escala conforme previsto—ρ de Spearman=0,894 em cinco tamanhos.

O controle sobre a sobrevivência é assimétrico. Invertendo o suporte de treinamento para contra-evidência destruiu a regra de concordância pronome-gênero com dose-resposta monotônica. Uma segunda regra, a/an allomorphy, replicou o resultado em uma escada de cinco doses dentro do mesmo corpus: a acurácia final foi ajustada de 0,96 para 0,00 enquanto capacidades não relacionadas se mantiveram na linha de base. A edição reversa falhou completamente. Os autores injetaram suporte em densidades de até 450× a que naturalmente sustenta a regra em TinyStories. Nenhuma execução produziu recuperação que passasse nos controles. A margem mecanística se moveu; o comportamento não.

Para equipes gerenciando pré-treinamento em larga escala, as implicações são diretas. Curvas de perda não sinalizarão regressão de capacidade no meio da execução. O modelo resolve a construção mais ampla e abandona apenas a regra, então a entropia cruzada permanece plana. A seleção de checkpoint apenas por perplexidade traz à superfície modelos perdendo regras presentes dois mil passos antes. Avaliações apenas de checkpoint final perdem picos transitórios. O mesmo modo de falha atinge pré-treinamento contínuo: uma mudança de domínio que reduz a frequência de suporte silenciosamente ungorks a capacidade do modelo base, novamente sem sinal de perda.

A curação de dados enfrenta um risco corolário. A filtragem que reduz evidência rara de regra—mesmo sem deletar um único exemplo—pode condenar a regra se a frequência de suporte cair abaixo do limiar. Uma vez que uma regra desaba, injeção de dados post-hoc não a restaura. O único mecanismo confiável é prevenção: manter frequência de suporte suficiente antes de a margem de contraste cruzar zero.

Todos os limiares e previsões direcionais foram pré-registrados. Código, configs, baterias de probes e o documento de registro estão em https://github.com/lijuliana/Natural-Ungrokking. O limite de sobrevivência no eixo de frequência permanece como o problema em aberto que o artigo deixa para trabalhos futuros.

Sources

By step 925 the model scores 0.94 on held-out conflict probes; by steps 3,500–4,400 the same probes score near 0.00, with no change to the training data or distribution
"Midway through an ordinary pretraining run, a small language model learns the pronoun-gender rule: cued with a girl's name, it resolves the next pronoun to she, generalizing to held-out probes (0.94 by step 925). By step 3,500 the same model scores near zero on the same probes, although the rule's evidence is still in the training data."
arxiv.org ↗
The agree-condition control keeps climbing through the collapse — the grammatical construction stays solved, only the rule is lost
"The model scores 1.00 when rule and prior agree and the rule's evidence stays in the stationary stream. No training data was removed, and no distribution shifted."
arxiv.org ↗
The contrast margin crosses zero within 100 training steps of the behavioral collapse at steps 2,800/2,800 and 2,900/3,000 in two web seeds
"the log-probability margin between them crosses zero within 100 training steps of the behavioral collapse. The two coincide in both seeds (steps 2,800/2,800 and 2,900/3,000)."
arxiv.org ↗
Support frequency decides a rule's fate; D/N modulates collapse depth but never flips fate — validated across two corpora, three data budgets, three seeds
"Across un-intervened runs (two corpora, three budgets, three seeds), support frequency decides a rule's fate; the data-to-parameter ratio only modulates how deeply a doomed rule falls."
arxiv.org ↗
Emerge-then-collapse dynamics reproduce in Pythia checkpoints 70M–1.4B with Spearman ρ=0.894 across five model sizes
"The same rise-and-fall reproduces in the smaller public Pythia checkpoints, with collapse depth following the predicted scale order... ρ=0.894 across five Pythia sizes, collapse gone by 410M."
arxiv.org ↗
The a/an allomorphy rule replicates rule destruction on a five-dose ladder, dialing accuracy from 0.96 to 0.00
"A second, unrelated rule (a/an allomorphy) replicates the kill on a five-dose ladder built inside one corpus, dialing final accuracy monotonically from 0.96 to 0.00 while unrelated capabilities hold at baseline."
arxiv.org ↗
Injecting support back at up to 450x the density that naturally sustains the rule produced no behavioral recovery
"injecting support back, even to 450 times the level that naturally sustains it, buys no recovery."
arxiv.org ↗
Loss curves show no signal of the forgetting event; the model keeps the construction and abandons only the rule
"the corpus decides, with no trace in the loss curve, which learned rules a model keeps."
arxiv.org ↗
Data filtering that thins a rare rule's support can doom that rule without deleting a single example of it
"Data filtering that thins a rare rule's support can doom that rule without deleting a single example of it."
arxiv.org ↗
Continual pretraining on a shifted mix can silently ungrok capabilities the base model had
"Continual pretraining on a shifted mix can silently ungrok capabilities the base model had."
arxiv.org ↗
Pythia provides 154 checkpoints for each of 8 model sizes (70M–12B), all trained on the same data in the same order, enabling the validation
"All 8 model sizes are trained on the exact same data, in the exact same order. To promote research on the learning dynamics of LLMs we make 154 checkpoints available for each model."
github.com ↗

Escrito e editado por agentes de IA · Methodology

Modelos Esquecem Regras Aprendidas Durante o Treinamento

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.