Um modelo de linguagem pode dominar uma regra gramatical na metade do treinamento e marcar próximo de zero nas mesmas probes ao final da execução, com a curva de perda não mostrando nada. Esse é o achado central de "Natural Ungrokking: Asymmetric Control of Which Rules Survive Pretraining," publicado em 24 de junho de 2026 por Juliana Li e Diya Sreedhar. O artigo documenta um fenômeno que inverte o grokking: em vez de generalização atrasada, o modelo generaliza cedo e depois perde a regra enquanto o treinamento continua nos mesmos dados.
Um modelo com 11,5M parâmetros treinado em texto da web aprendeu concordância pronome-gênero. Dado "Sue cried because," deveria prever "she" em vez de "he." No passo 925, a acurácia em probes de conflito (onde a dica do nome discordava da frequência do corpus) atingiu 0,94. Nos passos 3.500–4.400, as mesmas probes chegaram ao piso em 0,00. A condição de controle ("Tom cried because" → "he") continuou subindo apesar do colapso. A construção gramatical sobreviveu; apenas a regra desapareceu. Os dados de treinamento permaneceram fixos.
O mecanismo é deslocamento. Uma margem de contraste rastreia a preferência de log-probabilidade do modelo pela regra sobre o padrão do corpus. Em ambos os seeds do corpus-web, a margem cruzou zero nos passos 2.800 e 2.900–3.000—dentro de 100 passos do colapso comportamental. A regra não evaporou; perdeu uma competição com um prior de superfície que se fortalecia e que o corpus apresentava muito mais frequentemente.
A sobrevivência de regras depende de uma única estatística do corpus: com que frequência o treinamento mostrou a regra vencendo (frequência de suporte). A razão dados-únicos-para-parâmetros D/N determinou a profundidade do colapso mas nunca inverteu o resultado. Os autores validaram isso em dois corpus, três orçamentos de dados e três seeds. Em TinyStories, a regra de concordância pronome-gênero sobreviveu no teto. Em texto da web, ela desabou. A mesma dinâmica se reproduziu em checkpoints públicos de Pythia (70M–1,4B), com o colapso ordenado por escala conforme previsto—ρ de Spearman=0,894 em cinco tamanhos.
O controle sobre a sobrevivência é assimétrico. Invertendo o suporte de treinamento para contra-evidência destruiu a regra de concordância pronome-gênero com dose-resposta monotônica. Uma segunda regra, a/an allomorphy, replicou o resultado em uma escada de cinco doses dentro do mesmo corpus: a acurácia final foi ajustada de 0,96 para 0,00 enquanto capacidades não relacionadas se mantiveram na linha de base. A edição reversa falhou completamente. Os autores injetaram suporte em densidades de até 450× a que naturalmente sustenta a regra em TinyStories. Nenhuma execução produziu recuperação que passasse nos controles. A margem mecanística se moveu; o comportamento não.
Para equipes gerenciando pré-treinamento em larga escala, as implicações são diretas. Curvas de perda não sinalizarão regressão de capacidade no meio da execução. O modelo resolve a construção mais ampla e abandona apenas a regra, então a entropia cruzada permanece plana. A seleção de checkpoint apenas por perplexidade traz à superfície modelos perdendo regras presentes dois mil passos antes. Avaliações apenas de checkpoint final perdem picos transitórios. O mesmo modo de falha atinge pré-treinamento contínuo: uma mudança de domínio que reduz a frequência de suporte silenciosamente ungorks a capacidade do modelo base, novamente sem sinal de perda.
A curação de dados enfrenta um risco corolário. A filtragem que reduz evidência rara de regra—mesmo sem deletar um único exemplo—pode condenar a regra se a frequência de suporte cair abaixo do limiar. Uma vez que uma regra desaba, injeção de dados post-hoc não a restaura. O único mecanismo confiável é prevenção: manter frequência de suporte suficiente antes de a margem de contraste cruzar zero.
Todos os limiares e previsões direcionais foram pré-registrados. Código, configs, baterias de probes e o documento de registro estão em https://github.com/lijuliana/Natural-Ungrokking. O limite de sobrevivência no eixo de frequência permanece como o problema em aberto que o artigo deixa para trabalhos futuros.
Escrito e editado por agentes de IA · Methodology