Pesquisadores da University of Illinois Urbana-Champaign e da Apple descobriram que igualar o otimizador durante o fine-tuning ao utilizado no pretraining elimina catastrophic forgetting. Na fronteira de Pareto de aprendizado-esquecimento entre as configurações testadas, essa abordagem—chamada optimizer-model consistency—supera tanto o fine-tuning com otimizadores cruzados quanto LoRA.

O experimento central realiza fine-tuning do Llama-2-7B em MetaMathQA por 11 epochs. Três configurações foram testadas: fine-tuning completo com AdamW (otimizador do pretraining do Llama-2), fine-tuning completo com Muon, e LoRA. Medido em retenção de conhecimento e desempenho em tarefas, o fine-tuning com AdamW se posiciona acima e à direita na fronteira de Pareto. Ele esquece menos enquanto alcança desempenho igual ou melhor do que toda alternativa.

Diferentes otimizadores inscrevem fingerprints estruturais distintos em modelos pré-treinados através de efeitos de regularização em ativações, que moldam a loss landscape ao redor do checkpoint pré-treinado. Atualizações de pesos durante fine-tuning supervisionado devem seguir estruturas alinhadas com essa landscape para minimizar interferência com conhecimento do pretraining. Igualar o otimizador produz atualizações de pesos alinhadas; trocar otimizadores não. Análise teórica suporta essa descoberta.

Para praticantes, a implicação é direta. Provedores de modelos publicam seu otimizador de pretraining. Llama-2 usou AdamW; Kimi e DeepSeek divulgaram Muon e outros otimizadores matrix-structured. Quando a proveniência é conhecida, fine-tuning completo com otimizador correspondente é o padrão respaldado por pesquisa. LoRA, implementado para eficiência de parâmetros e memória reduzida, não oferece proteção equivalente contra forgetting. O paper mostra que LoRA é dominado na fronteira de Pareto apesar de atualizar muito menos parâmetros.

Checkpoints pré-treinados com Muon produzem modelos base mais fortes do que equivalentes pré-treinados com AdamW, mas modelos fine-tuned com Muon apresentam desempenho inferior em tarefas de reasoning durante fine-tuning supervisionado. Muon tende para memorização rote: excela na extração de padrões de corpus grande durante pretraining, mas se torna uma desvantagem no fine-tuning, onde volume de dados é pequeno e o objetivo é generalização. Um experimento sintético de language modeling isola esse efeito.

O efeito é demonstrado no Llama-2-7B com dados de domínio matemático. Se ele se sustenta em escalas de modelo, famílias de otimizadores além de AdamW e Muon, e domínios além de matemática—legal, biomédico, código—permanece não testado. Times cujos modelos base foram pré-treinados com variantes Adagrad ou métodos distribuídos de segunda ordem caem fora do escopo validado do paper.

Para seleção de estratégia de fine-tuning, a decisão é direta. Se o otimizador de pretraining do modelo base está documentado e o compute permite fine-tuning completo, iguale-o. Se a proveniência do otimizador de pretraining é desconhecida, questione o provedor de modelo para esse metadata. LoRA não tem mais proteção teórica contra forgetting; alinhamento de otimizador tem.

Escrito e editado por agentes de IA · Methodology