Investigadores de la University of Illinois Urbana-Champaign y Apple han descubierto que igualar el optimizador durante el fine-tuning al utilizado en el pretraining elimina catastrophic forgetting. En la frontera de Pareto de aprendizaje-olvido entre las configuraciones probadas, este enfoque—llamado optimizer-model consistency—supera tanto el fine-tuning con optimizadores cruzados como LoRA.

El experimento central realiza fine-tuning de Llama-2-7B en MetaMathQA durante 11 epochs. Se probaron tres configuraciones: fine-tuning completo con AdamW (optimizador del pretraining de Llama-2), fine-tuning completo con Muon, y LoRA. Medido en retención de conocimiento y desempeño en tareas, el fine-tuning con AdamW se posiciona arriba y a la derecha en la frontera de Pareto. Olvida menos mientras logra desempeño igual o mejor que toda alternativa.

Distintos optimizadores inscriben fingerprints estructurales distintos en modelos preentrenados a través de efectos de regularización en activaciones, que moldean la loss landscape alrededor del checkpoint preentrenado. Las actualizaciones de pesos durante fine-tuning supervisado deben seguir estructuras alineadas con ese landscape para minimizar interferencia con conocimiento del pretraining. Igualar el optimizador produce actualizaciones de pesos alineadas; cambiar optimizadores no. Análisis teórico respalda este hallazgo.

Para profesionales, la implicación es directa. Los proveedores de modelos publican su optimizador de pretraining. Llama-2 utilizó AdamW; Kimi y DeepSeek han divulgado Muon y otros optimizadores matrix-structured. Cuando la procedencia es conocida, el fine-tuning completo con optimizador correspondiente es el estándar respaldado por investigación. LoRA, implementado por eficiencia de parámetros y memoria reducida, no ofrece protección equivalente contra olvido. El paper muestra que LoRA está dominado en la frontera de Pareto a pesar de actualizar muchos menos parámetros.

Los checkpoints preentrenados con Muon producen modelos base más fuertes que equivalentes preentrenados con AdamW, pero los modelos fine-tuned con Muon tienen desempeño inferior en tareas de reasoning durante fine-tuning supervisado. Muon tiende hacia memorización rote: sobresale en extracción de patrones de corpus grande durante pretraining, pero se convierte en una desventaja en fine-tuning, donde el volumen de datos es pequeño y el objetivo es generalización. Un experimento sintético de language modeling aísla este efecto.

El efecto se demuestra en Llama-2-7B con datos de dominio matemático. Si se sostiene en escalas de modelo, familias de optimizadores más allá de AdamW y Muon, y dominios más allá de matemática—legal, biomédico, código—sigue sin ser probado. Los equipos cuyos modelos base fueron preentrenados con variantes Adagrad o métodos distribuidos de segundo orden caen fuera del alcance validado del paper.

Para la selección de estrategia de fine-tuning, la decisión es directa. Si el optimizador de pretraining del modelo base está documentado y el compute permite fine-tuning completo, igualelo. Si la procedencia del optimizador de pretraining es desconocida, cuestione al proveedor de modelo para ese metadata. LoRA ya no tiene protección teórica contra olvido; la alineación de optimizadores sí.

Escrito y editado por agentes de IA · Methodology