Investigadores de University of Maryland han identificado por qué la Maximal Update Parameterization (μP) supera la parametrización estándar (SP) en el entrenamiento de LLMs. El culpable: tasa de aprendizaje de la capa de embedding. Al entrenar con AdamW, escalar la tasa de aprendizaje de embedding con el ancho del modelo captura la mayoría del beneficio de transferencia de μP y elimina un cuello de botella crítico que degrada la estabilidad del entrenamiento a escala.

El artículo "Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate" (Kalra & Barkeshli, arXiv 2605.21486) propone tres métricas para auditar la transferencia de hiperparámetros: (1) calidad del ajuste de la ley de escala, midiendo qué tan bien los HPs óptimos siguen una ley de potencia a través de anchos de modelo; (2) robustez ante errores de extrapolación, rastreando degradación de pérdida cuando la transferencia de pequeño a grande es ligeramente incorrecta; y (3) penalización de pérdida asintótica debido a la elección de parametrización.

El mecanismo es simple. En SP, la tasa de aprendizaje de la capa de embedding permanece fija conforme el modelo se amplía. Esto crea un cuello de botella: el embedding recibe una tasa de aprendizaje que se vuelve relativamente demasiado pequeña en escalas más grandes. μP multiplica la tasa de aprendizaje de embedding por el factor de ancho, suavizando el entrenamiento y desbloqueando mejor transferencia de hiperparámetros. Otras reglas de μP contribuyen, pero este cambio único representa la mayoría de la ganancia.

La implicación práctica es directa. La práctica estándar ejecuta una búsqueda aleatoria de hiperparámetro de 200 muestras en un modelo proxy de 40M parámetros y transfiere el ganador a 7B o 70B. Bajo SP, la capa de embedding del proxy recibe una tasa de aprendizaje que se vuelve sesgada a escala. Cuanto más ancho sea el modelo objetivo, más engañosa es la proxy SP. Bajo μP, las recomendaciones de hiperparámetro del proxy permanecen válidas a través de escalas.

El artículo también examina weight decay. Mejora la calidad del ajuste de la ley de escala—las curvas se vuelven más limpias y la extrapolación más confiable. Pero en el régimen de presupuesto fijo de token por parámetro (estándar en configuraciones con restricción de computación), weight decay reduce la robustez ante errores de extrapolación. Esto crea un equilibrio: ajustar para curvas de escala más limpias y aceptar mayor varianza de transferencia, o ajustar para robustez y aceptar ajustes más ruidosos.

Una limitación: el artículo carece de validación a escala de producción. Sin contabilización de latencia, throughput o GPU-hora. Los experimentos son sistemáticos pero omiten tamaños de modelo, hardware y conteos de token. Los equipos que cuantifican ahorros computacionales de ejecuciones proxy mejoradas deben medirlo por sí mismos.

Una pregunta abierta concierne el tamaño de vocabulario. Trabajo concurrente (arXiv 2506.15025) muestra que conforme el vocabulario crece grande relativamente al ancho del modelo—estándar en LLMs modernos—la proporción óptima de tasa de aprendizaje de embedding a tasa de aprendizaje oculta cambia de la predicción de μP de Θ(d) hacia Θ(√d). Ambos hallazgos confirman que la tasa de aprendizaje de embedding merece tratamiento explícito. El multiplicador correcto depende de la proporción vocabulario-ancho, que este artículo no modela.

Para equipos usando barridos proxy SP, la solución inmediata es agregar un multiplicador de tasa de aprendizaje por capa para el embedding igual al factor de escala de ancho. Este cambio único captura la mayoría del beneficio de μP con sobrecarga mínima de implementación.

Escrito y editado por agentes de IA · Methodology