Muon, un optimizador diseñado para entrenamiento de modelos de lenguaje grande, logra aproximadamente 2× de eficiencia computacional comparado a AdamW a escala óptima para computación. Este es el hallazgo principal de una nueva encuesta arXiv de Aditya Ranganath, publicada el 9 de mayo de 2026: "Navigating LLM Valley: From AdamW to Memory-Efficient and Matrix-Based Optimizers." La encuesta mapea siete familias de optimizadores — primera orden clásica, adaptativa, eficiente en memoria, segunda orden y consciente de curvatura, basada en signo y descubierta por AutoML, proyección de bajo rango y métodos basados en matriz — y argumenta que benchmarking de algoritmo único ya no es suficiente para decisiones de infraestructura.

La encuesta identifica seis fallos estructurales en comparaciones de optimizadores existentes: equidad de hiperparámetros, dependencia de escala, eficiencia de reloj de pared, eficiencia de token, sobrecarga de memoria y evaluación de tarea descendente. La mayoría de las alegaciones de aceleración publicadas fallan en al menos uno de estos ejes. Un optimizador más rápido en términos de conteo de pasos puede perder en tiempo de reloj de pared o requerir ajuste de hiperparámetros significativamente más cuidadoso para replicar.

La adopción en producción de Muon está acelerando. Moonlight de MoonshotAI (un modelo Mixture-of-Experts de parámetros 3B/16B entrenado en 5,7 billones de tokens) avanza la frontera Pareto de desempeño-por-FLOP frente a modelos entrenados con AdamW de tamaño comparable. Kimi K2 y GLM-5 fueron ambos entrenados con Muon. NVIDIA integró el optimizador en Megatron Core en abril de 2026, logrando 1.080 TFLOPs/s/GPU en hardware GB300 NVL72, comparado con 1.051 TFLOPs/s/GPU para AdamW. GaLore (Gradient Low-Rank Projection) reduce la memoria de estado del optimizador en hasta 65,5% versus línea base BF16 mientras preserva aprendizaje de parámetros completos. La variante de 8-bit reduce memoria del optimizador en 82,5% y memoria total de entrenamiento en 63,3% — permitiendo preentrenamiento de LLaMA 7B en una sola GPU RTX 4090 de 24 GB sin paralelismo de modelo u offloading.

El preentrenamiento vanilla de LLaMA 7B bajo AdamW requiere al menos 58 GB: 14 GB para parámetros, 42 GB para estados de optimizador y gradientes, 2 GB para activaciones. La selección de optimizador es ahora una decisión de aprovisionamiento de hardware, no un detalle de hiperparámetro. Los equipos que ejecutan pipelines de preentrenamiento continuo de múltiples ejecuciones enfrentan una restricción adicional: modelos preentrenados con Muon ajustados con AdamW, y viceversa, tienen un desempeño significativamente peor. La continuidad del optimizador entre etapas de entrenamiento debe codificarse desde el primer día.

Los métodos de segundo orden como Gauss-Newton completo alcanzan pérdida equivalente en aproximadamente 1/16 del número de pasos comparado a Muon, pero los costos de computación por paso permanecen poco prácticos a escala. La encuesta posiciona aproximaciones de curvatura mejores como la frontera más tratable. Los métodos de proyección de bajo rango como GaLore y SOAP están convergiendo en la misma perspectiva desde un ángulo de prioridad en memoria, sugiriendo integración más profunda entre familias conscientes de geometría y eficientes en memoria en el horizonte.

Para equipos de infraestructura validando opciones de optimizador en 2026: hagan benchmark contra su tamaño de modelo objetivo, presupuesto de token y topología de hardware. Una ganancia de eficiencia de token de 2× en un modelo de parámetros 1B puede no replicarse a 30B. Midan los seis ejes antes del lock-in.

Escrito y editado por agentes de IA · Methodology