Optimizer-Model Consistency Reduz Forgetting de LLMs no Fine-tuning

Pesquisadores da University of Illinois Urbana-Champaign e da Apple descobriram que igualar o otimizador durante o fine-tuning ao utilizado no pretraining elimina catastrophic forgetting. Na fronteira de Pareto de aprendizado-esquecimento entre as configurações testadas, essa abordagem—chamada optimizer-model consistency—supera tanto o fine-tuning com otimizadores cruzados quanto LoRA.

O experimento central realiza fine-tuning do Llama-2-7B em MetaMathQA por 11 epochs. Três configurações foram testadas: fine-tuning completo com AdamW (otimizador do pretraining do Llama-2), fine-tuning completo com Muon, e LoRA. Medido em retenção de conhecimento e desempenho em tarefas, o fine-tuning com AdamW se posiciona acima e à direita na fronteira de Pareto. Ele esquece menos enquanto alcança desempenho igual ou melhor do que toda alternativa.

Diferentes otimizadores inscrevem fingerprints estruturais distintos em modelos pré-treinados através de efeitos de regularização em ativações, que moldam a loss landscape ao redor do checkpoint pré-treinado. Atualizações de pesos durante fine-tuning supervisionado devem seguir estruturas alinhadas com essa landscape para minimizar interferência com conhecimento do pretraining. Igualar o otimizador produz atualizações de pesos alinhadas; trocar otimizadores não. Análise teórica suporta essa descoberta.

Para praticantes, a implicação é direta. Provedores de modelos publicam seu otimizador de pretraining. Llama-2 usou AdamW; Kimi e DeepSeek divulgaram Muon e outros otimizadores matrix-structured. Quando a proveniência é conhecida, fine-tuning completo com otimizador correspondente é o padrão respaldado por pesquisa. LoRA, implementado para eficiência de parâmetros e memória reduzida, não oferece proteção equivalente contra forgetting. O paper mostra que LoRA é dominado na fronteira de Pareto apesar de atualizar muito menos parâmetros.

Checkpoints pré-treinados com Muon produzem modelos base mais fortes do que equivalentes pré-treinados com AdamW, mas modelos fine-tuned com Muon apresentam desempenho inferior em tarefas de reasoning durante fine-tuning supervisionado. Muon tende para memorização rote: excela na extração de padrões de corpus grande durante pretraining, mas se torna uma desvantagem no fine-tuning, onde volume de dados é pequeno e o objetivo é generalização. Um experimento sintético de language modeling isola esse efeito.

O efeito é demonstrado no Llama-2-7B com dados de domínio matemático. Se ele se sustenta em escalas de modelo, famílias de otimizadores além de AdamW e Muon, e domínios além de matemática—legal, biomédico, código—permanece não testado. Times cujos modelos base foram pré-treinados com variantes Adagrad ou métodos distribuídos de segunda ordem caem fora do escopo validado do paper.

Para seleção de estratégia de fine-tuning, a decisão é direta. Se o otimizador de pretraining do modelo base está documentado e o compute permite fine-tuning completo, iguale-o. Se a proveniência do otimizador de pretraining é desconhecida, questione o provedor de modelo para esse metadata. LoRA não tem mais proteção teórica contra forgetting; alinhamento de otimizador tem.

Sources

Full finetuning with the same optimizer as pretraining achieves a better learning-forgetting tradeoff than other optimizers and LoRA during SFT
"full finetuning with the same optimizer as in pretraining achieves a better learning-forgetting tradeoff, i.e., forgetting less while achieving the same or better performance on the new task, than other optimizers and, possibly surprisingly, LoRA, during the supervised finetuning (SFT) stage"
arxiv.org ↗
The paper tests on Llama-2-7B finetuned on MetaMathQA for 11 epochs
"The Pareto frontier of different optimizers and LoRA finetuning Llama-2-7B with the MetaMathQA dataset for 11 epoch"
arxiv.org ↗
AdamW (matching Llama-2's pretraining optimizer) sits at the uppermost and rightmost position of the Pareto frontier
"the solid blue line presenting full finetuning with AdamW (the same optimizer as pretraining) is at the uppermost and rightmost position of the figure, which implies that it has the least forgetting while achieving the same or even more learning compared to LoRA and Muon"
arxiv.org ↗
Optimizers shape models via regularization effects on activations, leading to different loss landscapes around pretrained checkpoints
"optimizers can shape the models by having regularization effects on the activations, leading to different landscapes around the pretrained checkpoints"
arxiv.org ↗
Weight updates during SFT should follow specific structures to lower forgetting, obtainable by using the same optimizer
"the weight update in SFT should follow some specific structures to lower forgetting of the knowledge learned in pretraining, which can be obtained by using the same optimizer"
arxiv.org ↗
Frontier models from Kimi and DeepSeek have disclosed use of Muon and other matrix-structured optimizers
"Muon (Jordan et al., 2024) and other recently emerged matrix-structured optimizers as strong competitors applied in frontier model training (Kimi et al., 2026; Zeng et al., 2025; DeepSeek-AI, 2026)"
arxiv.org ↗
Muon-pretrained checkpoints generally produce stronger base models, but Muon performs worse when finetuned for reasoning tasks
"though Muon generally provides a stronger pretrained checkpoint, its performance after SFT varies across different tasks, and can pos[sibly underperform]"
arxiv.org ↗
Muon's SFT underperformance on reasoning tasks stems from its strong tendency toward rote memorization, which hurts pattern acquisition with small data
"this can come from Muon's strong tendency towards rote memorization, which may hurt pattern acquisition with a small amount of data, as for SFT"
arxiv.org ↗
The authors are from UIUC and Apple; all experiments were conducted by the university
"Yuxing Liu1 Jianyu Wang2 Tong Zhang1 1UIUC — All experiments were conducted by the university. 2Apple"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Optimizer-Model Consistency Reduz Forgetting de LLMs no Fine-tuning

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.