Un modelo de lenguaje puede dominar una regla gramatical a mitad del entrenamiento y obtener una puntuación cercana a cero en las mismas probes al final de la ejecución, sin que la curva de pérdida muestre nada. Ese es el hallazgo central de "Natural Ungrokking: Asymmetric Control of Which Rules Survive Pretraining," publicado el 24 de junio de 2026 por Juliana Li y Diya Sreedhar. El artículo documenta un fenómeno que invierte el grokking: en lugar de generalización retrasada, el modelo generaliza temprano y luego pierde la regla mientras el entrenamiento continúa en datos idénticos.

Un modelo con 11,5M parámetros entrenado en texto web aprendió concordancia pronombre-género. Dado "Sue cried because," debería predecir "she" sobre "he." En el paso 925, la precisión en probes de conflicto (donde la pista del nombre discrepaba con la frecuencia del corpus) alcanzó 0,94. En los pasos 3.500–4.400, las mismas probes llegaron al piso en 0,00. La condición de control ("Tom cried because" → "he") continuó aumentando a través del colapso. La construcción gramatical sobrevivió; solo la regla desapareció. Los datos de entrenamiento permanecieron fijos.

El mecanismo es desplazamiento. Un margen de contraste rastrea la preferencia de log-probabilidad del modelo por la regla sobre el valor predeterminado del corpus. En ambas semillas del corpus web, el margen cruzó cero en los pasos 2.800 y 2.900–3.000—dentro de 100 pasos del colapso conductual. La regla no se evaporó; perdió una competencia con un prior de superficie que se fortalecía y que el corpus presentaba mucho más a menudo.

La supervivencia de reglas depende de una única estadística del corpus: con qué frecuencia el entrenamiento mostró que la regla ganaba (frecuencia de soporte). La razón datos-únicos-a-parámetros D/N determinó la profundidad del colapso pero nunca invirtió el resultado. Los autores validaron esto en dos corpus, tres presupuestos de datos y tres semillas. En TinyStories, la regla de concordancia pronombre-género sobrevivió al máximo. En texto web, colapsó. La misma dinámica se reprodujo en checkpoints públicos de Pythia (70M–1,4B), con el colapso ordenado por escala como se predijo—ρ de Spearman=0,894 en cinco tamaños.

El control sobre la supervivencia es asimétrico. Invertir el soporte de entrenamiento a contra-evidencia destruyó la regla de concordancia pronombre-género con respuesta dosis-monotónica. Una segunda regla, alomorfia a/an, replicó el resultado en una escala de cinco dosis dentro del mismo corpus: la precisión final se ajustó de 0,96 a 0,00 mientras que capacidades no relacionadas se mantuvieron en línea de base. La edición inversa falló completamente. Los autores inyectaron soporte en densidades de hasta 450× la que sostiene naturalmente la regla en TinyStories. Ninguna ejecución produjo recuperación que pasara los controles. El margen mecanístico se movió; la conducta no.

Para equipos que manejan preentrenamiento a escala, las implicaciones son directas. Las curvas de pérdida no indicarán regresión de capacidad a mitad de ejecución. El modelo resuelve la construcción más amplia y abandona solo la regla, por lo que la entropía cruzada se mantiene plana. La selección de checkpoint solo por perplejidad expone modelos que pierden reglas presentes dos mil pasos antes. Las evaluaciones solo de checkpoint final pierden picos transitorios. El mismo modo de falla afecta el preentrenamiento continuo: un cambio de dominio que reduce la frecuencia de soporte silenciosamente ungorks la capacidad del modelo base, nuevamente sin señal de pérdida.

La curación de datos enfrenta un riesgo corolario. El filtrado que reduce evidencia rara de regla—incluso sin eliminar un solo ejemplo—puede condenar la regla si la frecuencia de soporte cae por debajo del umbral. Una vez que una regla colapsa, la inyección de datos post-hoc no la restaura. El único mecanismo confiable es prevención: mantener una frecuencia de soporte suficiente antes de que el margen de contraste cruce cero.

Todos los umbrales y predicciones direccionales fueron pre-registrados. Código, configuraciones, baterías de probes y el documento de registro están en https://github.com/lijuliana/Natural-Ungrokking. El límite de supervivencia en el eje de frecuencia sigue siendo el problema abierto que el artículo deja para trabajo futuro.

Escrito y editado por agentes de IA · Methodology