Una regla de hiperparámetro captura la mayoría de las ganancias de μP

Investigadores de University of Maryland han identificado por qué la Maximal Update Parameterization (μP) supera la parametrización estándar (SP) en el entrenamiento de LLMs. El culpable: tasa de aprendizaje de la capa de embedding. Al entrenar con AdamW, escalar la tasa de aprendizaje de embedding con el ancho del modelo captura la mayoría del beneficio de transferencia de μP y elimina un cuello de botella crítico que degrada la estabilidad del entrenamiento a escala.

El artículo "Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate" (Kalra & Barkeshli, arXiv 2605.21486) propone tres métricas para auditar la transferencia de hiperparámetros: (1) calidad del ajuste de la ley de escala, midiendo qué tan bien los HPs óptimos siguen una ley de potencia a través de anchos de modelo; (2) robustez ante errores de extrapolación, rastreando degradación de pérdida cuando la transferencia de pequeño a grande es ligeramente incorrecta; y (3) penalización de pérdida asintótica debido a la elección de parametrización.

El mecanismo es simple. En SP, la tasa de aprendizaje de la capa de embedding permanece fija conforme el modelo se amplía. Esto crea un cuello de botella: el embedding recibe una tasa de aprendizaje que se vuelve relativamente demasiado pequeña en escalas más grandes. μP multiplica la tasa de aprendizaje de embedding por el factor de ancho, suavizando el entrenamiento y desbloqueando mejor transferencia de hiperparámetros. Otras reglas de μP contribuyen, pero este cambio único representa la mayoría de la ganancia.

La implicación práctica es directa. La práctica estándar ejecuta una búsqueda aleatoria de hiperparámetro de 200 muestras en un modelo proxy de 40M parámetros y transfiere el ganador a 7B o 70B. Bajo SP, la capa de embedding del proxy recibe una tasa de aprendizaje que se vuelve sesgada a escala. Cuanto más ancho sea el modelo objetivo, más engañosa es la proxy SP. Bajo μP, las recomendaciones de hiperparámetro del proxy permanecen válidas a través de escalas.

El artículo también examina weight decay. Mejora la calidad del ajuste de la ley de escala—las curvas se vuelven más limpias y la extrapolación más confiable. Pero en el régimen de presupuesto fijo de token por parámetro (estándar en configuraciones con restricción de computación), weight decay reduce la robustez ante errores de extrapolación. Esto crea un equilibrio: ajustar para curvas de escala más limpias y aceptar mayor varianza de transferencia, o ajustar para robustez y aceptar ajustes más ruidosos.

Una limitación: el artículo carece de validación a escala de producción. Sin contabilización de latencia, throughput o GPU-hora. Los experimentos son sistemáticos pero omiten tamaños de modelo, hardware y conteos de token. Los equipos que cuantifican ahorros computacionales de ejecuciones proxy mejoradas deben medirlo por sí mismos.

Una pregunta abierta concierne el tamaño de vocabulario. Trabajo concurrente (arXiv 2506.15025) muestra que conforme el vocabulario crece grande relativamente al ancho del modelo—estándar en LLMs modernos—la proporción óptima de tasa de aprendizaje de embedding a tasa de aprendizaje oculta cambia de la predicción de μP de Θ(d) hacia Θ(√d). Ambos hallazgos confirman que la tasa de aprendizaje de embedding merece tratamiento explícito. El multiplicador correcto depende de la proporción vocabulario-ancho, que este artículo no modela.

Para equipos usando barridos proxy SP, la solución inmediata es agregar un multiplicador de tasa de aprendizaje por capa para el embedding igual al factor de escala de ancho. Este cambio único captura la mayoría del beneficio de μP con sobrecarga mínima de implementación.

Sources

μP's benefit over SP when training with AdamW arises from maximizing the embedding layer learning rate
"the overwhelming benefit of μP relative to SP when training with AdamW arises simply from maximizing the learning rate of the embedding layer"
arxiv.org ↗
In SP, the embedding layer learning rate acts as a bottleneck that induces training instabilities
"In SP, the embedding layer learning rate acts as a bottleneck that induces training instabilities; increasing it by a factor of width to match μP dramatically smooths out training while improving hyperparameter transfer"
arxiv.org ↗
The paper introduces three metrics: quality of scaling law fit, robustness to extrapolation errors, and asymptotic loss penalty due to parameterization
"we first develop a framework to quantify hyperparameter transfer through three metrics: (1) the quality of the scaling law fit, (2) the robustness to extrapolation errors, and (3) the asymptotic loss penalty due to choice of parameterization"
arxiv.org ↗
Weight decay improves scaling law fits but hurts robustness in the fixed token-per-parameter setting
"weight decay improves the scaling law fits, while, in the fixed token-per-parameter setting, it hurts the robustness of the extrapolation"
arxiv.org ↗
Prior work (Kosson et al.) showed that weight decay rather than μP correctly stabilizes update dynamics across widths for most of training
"For the remainder of training it is weight decay rather than muP that correctly stabilizes the update dynamics of internal representations across widths, facilitating learning rate transfer"
arxiv.org ↗
A 200-sample random HP search with a 40M parameter model could transfer to a GPT-3 6.7B run with performance comparable to GPT3-13B
"Yang et al. showed that by performing a 200 sample random HP search with a 40M parameter model, they could use the optimal HPs on a GPT-3 6.7B run and achieve comparable performance to GPT3-13B"
blog.eleuther.ai ↗
As vocabulary size increases relative to width, the optimal embedding LR to hidden LR ratio scales as Θ(√d) in the LV regime, differing from μP's Θ(d) prediction
"the ratio of embedding layer LR (LRemb) to hidden layers LR (LRhidden) should scale roughly as LRemb/LRhidden = Θ_d(√d), in contrast to μP prediction of Θ_d(d) ratio"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Una regla de hiperparámetro captura la mayoría de las ganancias de μP

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.