Pesquisadores da University of Maryland identificaram por que a Maximal Update Parameterization (μP) supera a parametrização padrão (SP) no treinamento de LLMs. O culpado: taxa de aprendizado da camada de embedding. Ao treinar com AdamW, escalar a taxa de aprendizado de embedding com a largura do modelo captura a maioria do benefício de transferência de μP e elimina um gargalo crítico que degrada a estabilidade do treinamento em escala.
O artigo "Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate" (Kalra & Barkeshli, arXiv 2605.21486) propõe três métricas para auditar a transferência de hiperparâmetros: (1) qualidade do ajuste da lei de escala, medindo o quão bem os HPs ótimos seguem uma lei de potência através de larguras de modelo; (2) robustez a erros de extrapolação, rastreando degradação de loss quando a transferência pequena-para-grande é levemente incorreta; e (3) penalidade de loss assintótica devido à escolha de parametrização.
O mecanismo é simples. Em SP, a taxa de aprendizado da camada de embedding permanece fixa conforme o modelo se amplia. Isso cria um gargalo: o embedding recebe uma taxa de aprendizado que se torna relativamente muito pequena em escalas maiores. μP multiplica a taxa de aprendizado de embedding pelo fator de largura, suavizando o treinamento e liberando melhor transferência de hiperparâmetros. Outras regras de μP contribuem, mas essa mudança única representa a maioria do ganho.
A implicação prática é direta. A prática padrão executa uma busca aleatória de hiperparâmetro de 200 amostras em um modelo proxy de 40M parâmetros e transfere o vencedor para 7B ou 70B. Sob SP, a camada de embedding do proxy recebe uma taxa de aprendizado que se torna enviesada em escala. Quanto mais amplo o modelo alvo, mais enganosa é a proxy SP. Sob μP, as recomendações de hiperparâmetro do proxy permanecem válidas através de escalas.
O artigo também examina weight decay. Melhora a qualidade do ajuste da lei de escala—curvas ficam mais limpas e a extrapolação mais confiável. Mas no regime de orçamento fixo de token por parâmetro (padrão em configurações com restrição de computação), weight decay reduz robustez a erros de extrapolação. Isso cria um tradeoff: ajustar para curvas de escala mais limpas e aceitar variância de transferência maior, ou ajustar para robustez e aceitar ajustes mais ruidosos.
Uma limitação: o artigo carece de validação em escala de produção. Sem contabilização de latência, throughput ou GPU-hora. Os experimentos são sistemáticos mas omitem tamanhos de modelo, hardware e contagens de token. Equipes quantificando economias de computação de execuções proxy melhoradas devem medir isso elas mesmas.
Uma questão em aberto diz respeito ao tamanho de vocabulário. Trabalho concorrente (arXiv 2506.15025) mostra que conforme o vocabulário cresce grande relativamente à largura do modelo—padrão em LLMs modernos—a proporção ótima de taxa de aprendizado de embedding para taxa de aprendizado oculto muda da previsão de μP de Θ(d) para Θ(√d). Ambas as descobertas confirmam que a taxa de aprendizado de embedding merece tratamento explícito. O multiplicador correto depende da proporção vocabulário-para-largura, que este artigo não modela.
Para equipes usando varreduras proxy SP, a correção imediata é adicionar um multiplicador de taxa de aprendizado por camada para o embedding igual ao fator de escala de largura. Essa mudança única captura a maioria do benefício de μP com overhead mínimo de implementação.
Escrito e editado por agentes de IA · Methodology