Uma regra de hiperparâmetro captura a maioria dos ganhos de μP

Estudo quantifica a qualidade da transferência de otimização de hiperparâmetros de treinamento de pequenos para grandes modelos de linguagem, revelando que a taxa de aprendizado da camada de embedding é crítica e frequentemente tratada incorretamente. Chave para equipes escalando infraestrutura de treinamento: taxa de aprendizado de embedding incorreta invalida a validade de execuções pequenas de ajuste, inflando desperdício computacional.

Pesquisadores da University of Maryland identificaram por que a Maximal Update Parameterization (μP) supera a parametrização padrão (SP) no treinamento de LLMs. O culpado: taxa de aprendizado da camada de embedding. Ao treinar com AdamW, escalar a taxa de aprendizado de embedding com a largura do modelo captura a maioria do benefício de transferência de μP e elimina um gargalo crítico que degrada a estabilidade do treinamento em escala.

O artigo "Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate" (Kalra & Barkeshli, arXiv 2605.21486) propõe três métricas para auditar a transferência de hiperparâmetros: (1) qualidade do ajuste da lei de escala, medindo o quão bem os HPs ótimos seguem uma lei de potência através de larguras de modelo; (2) robustez a erros de extrapolação, rastreando degradação de loss quando a transferência pequena-para-grande é levemente incorreta; e (3) penalidade de loss assintótica devido à escolha de parametrização.

O mecanismo é simples. Em SP, a taxa de aprendizado da camada de embedding permanece fixa conforme o modelo se amplia. Isso cria um gargalo: o embedding recebe uma taxa de aprendizado que se torna relativamente muito pequena em escalas maiores. μP multiplica a taxa de aprendizado de embedding pelo fator de largura, suavizando o treinamento e liberando melhor transferência de hiperparâmetros. Outras regras de μP contribuem, mas essa mudança única representa a maioria do ganho.

A implicação prática é direta. A prática padrão executa uma busca aleatória de hiperparâmetro de 200 amostras em um modelo proxy de 40M parâmetros e transfere o vencedor para 7B ou 70B. Sob SP, a camada de embedding do proxy recebe uma taxa de aprendizado que se torna enviesada em escala. Quanto mais amplo o modelo alvo, mais enganosa é a proxy SP. Sob μP, as recomendações de hiperparâmetro do proxy permanecem válidas através de escalas.

O artigo também examina weight decay. Melhora a qualidade do ajuste da lei de escala—curvas ficam mais limpas e a extrapolação mais confiável. Mas no regime de orçamento fixo de token por parâmetro (padrão em configurações com restrição de computação), weight decay reduz robustez a erros de extrapolação. Isso cria um tradeoff: ajustar para curvas de escala mais limpas e aceitar variância de transferência maior, ou ajustar para robustez e aceitar ajustes mais ruidosos.

Uma limitação: o artigo carece de validação em escala de produção. Sem contabilização de latência, throughput ou GPU-hora. Os experimentos são sistemáticos mas omitem tamanhos de modelo, hardware e contagens de token. Equipes quantificando economias de computação de execuções proxy melhoradas devem medir isso elas mesmas.

Uma questão em aberto diz respeito ao tamanho de vocabulário. Trabalho concorrente (arXiv 2506.15025) mostra que conforme o vocabulário cresce grande relativamente à largura do modelo—padrão em LLMs modernos—a proporção ótima de taxa de aprendizado de embedding para taxa de aprendizado oculto muda da previsão de μP de Θ(d) para Θ(√d). Ambas as descobertas confirmam que a taxa de aprendizado de embedding merece tratamento explícito. O multiplicador correto depende da proporção vocabulário-para-largura, que este artigo não modela.

Para equipes usando varreduras proxy SP, a correção imediata é adicionar um multiplicador de taxa de aprendizado por camada para o embedding igual ao fator de escala de largura. Essa mudança única captura a maioria do benefício de μP com overhead mínimo de implementação.

Sources

μP's benefit over SP when training with AdamW arises from maximizing the embedding layer learning rate
"the overwhelming benefit of μP relative to SP when training with AdamW arises simply from maximizing the learning rate of the embedding layer"
arxiv.org ↗
In SP, the embedding layer learning rate acts as a bottleneck that induces training instabilities
"In SP, the embedding layer learning rate acts as a bottleneck that induces training instabilities; increasing it by a factor of width to match μP dramatically smooths out training while improving hyperparameter transfer"
arxiv.org ↗
The paper introduces three metrics: quality of scaling law fit, robustness to extrapolation errors, and asymptotic loss penalty due to parameterization
"we first develop a framework to quantify hyperparameter transfer through three metrics: (1) the quality of the scaling law fit, (2) the robustness to extrapolation errors, and (3) the asymptotic loss penalty due to choice of parameterization"
arxiv.org ↗
Weight decay improves scaling law fits but hurts robustness in the fixed token-per-parameter setting
"weight decay improves the scaling law fits, while, in the fixed token-per-parameter setting, it hurts the robustness of the extrapolation"
arxiv.org ↗
Prior work (Kosson et al.) showed that weight decay rather than μP correctly stabilizes update dynamics across widths for most of training
"For the remainder of training it is weight decay rather than muP that correctly stabilizes the update dynamics of internal representations across widths, facilitating learning rate transfer"
arxiv.org ↗
A 200-sample random HP search with a 40M parameter model could transfer to a GPT-3 6.7B run with performance comparable to GPT3-13B
"Yang et al. showed that by performing a 200 sample random HP search with a 40M parameter model, they could use the optimal HPs on a GPT-3 6.7B run and achieve comparable performance to GPT3-13B"
blog.eleuther.ai ↗
As vocabulary size increases relative to width, the optimal embedding LR to hidden LR ratio scales as Θ(√d) in the LV regime, differing from μP's Θ(d) prediction
"the ratio of embedding layer LR (LRemb) to hidden layers LR (LRhidden) should scale roughly as LRemb/LRhidden = Θ_d(√d), in contrast to μP prediction of Θ_d(d) ratio"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Uma regra de hiperparâmetro captura a maioria dos ganhos de μP

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.