Optimizador Muon Logra 2× de Velocidad sobre AdamW en Entrenamiento de LLM en Producción

Muon, un optimizador diseñado para entrenamiento de modelos de lenguaje grande, logra aproximadamente 2× de eficiencia computacional comparado a AdamW a escala óptima para computación. Este es el hallazgo principal de una nueva encuesta arXiv de Aditya Ranganath, publicada el 9 de mayo de 2026: "Navigating LLM Valley: From AdamW to Memory-Efficient and Matrix-Based Optimizers." La encuesta mapea siete familias de optimizadores — primera orden clásica, adaptativa, eficiente en memoria, segunda orden y consciente de curvatura, basada en signo y descubierta por AutoML, proyección de bajo rango y métodos basados en matriz — y argumenta que benchmarking de algoritmo único ya no es suficiente para decisiones de infraestructura.

La encuesta identifica seis fallos estructurales en comparaciones de optimizadores existentes: equidad de hiperparámetros, dependencia de escala, eficiencia de reloj de pared, eficiencia de token, sobrecarga de memoria y evaluación de tarea descendente. La mayoría de las alegaciones de aceleración publicadas fallan en al menos uno de estos ejes. Un optimizador más rápido en términos de conteo de pasos puede perder en tiempo de reloj de pared o requerir ajuste de hiperparámetros significativamente más cuidadoso para replicar.

La adopción en producción de Muon está acelerando. Moonlight de MoonshotAI (un modelo Mixture-of-Experts de parámetros 3B/16B entrenado en 5,7 billones de tokens) avanza la frontera Pareto de desempeño-por-FLOP frente a modelos entrenados con AdamW de tamaño comparable. Kimi K2 y GLM-5 fueron ambos entrenados con Muon. NVIDIA integró el optimizador en Megatron Core en abril de 2026, logrando 1.080 TFLOPs/s/GPU en hardware GB300 NVL72, comparado con 1.051 TFLOPs/s/GPU para AdamW. GaLore (Gradient Low-Rank Projection) reduce la memoria de estado del optimizador en hasta 65,5% versus línea base BF16 mientras preserva aprendizaje de parámetros completos. La variante de 8-bit reduce memoria del optimizador en 82,5% y memoria total de entrenamiento en 63,3% — permitiendo preentrenamiento de LLaMA 7B en una sola GPU RTX 4090 de 24 GB sin paralelismo de modelo u offloading.

El preentrenamiento vanilla de LLaMA 7B bajo AdamW requiere al menos 58 GB: 14 GB para parámetros, 42 GB para estados de optimizador y gradientes, 2 GB para activaciones. La selección de optimizador es ahora una decisión de aprovisionamiento de hardware, no un detalle de hiperparámetro. Los equipos que ejecutan pipelines de preentrenamiento continuo de múltiples ejecuciones enfrentan una restricción adicional: modelos preentrenados con Muon ajustados con AdamW, y viceversa, tienen un desempeño significativamente peor. La continuidad del optimizador entre etapas de entrenamiento debe codificarse desde el primer día.

Los métodos de segundo orden como Gauss-Newton completo alcanzan pérdida equivalente en aproximadamente 1/16 del número de pasos comparado a Muon, pero los costos de computación por paso permanecen poco prácticos a escala. La encuesta posiciona aproximaciones de curvatura mejores como la frontera más tratable. Los métodos de proyección de bajo rango como GaLore y SOAP están convergiendo en la misma perspectiva desde un ángulo de prioridad en memoria, sugiriendo integración más profunda entre familias conscientes de geometría y eficientes en memoria en el horizonte.

Para equipos de infraestructura validando opciones de optimizador en 2026: hagan benchmark contra su tamaño de modelo objetivo, presupuesto de token y topología de hardware. Una ganancia de eficiencia de token de 2× en un modelo de parámetros 1B puede no replicarse a 30B. Midan los seis ejes antes del lock-in.

Sources

Survey titled 'Navigating LLM Valley: From AdamW to Memory-Efficient and Matrix-Based Optimizers', published May 9 2026 by Aditya Ranganath
"Training large language models requires optimization algorithms that are not only statistically effective, but also computationally and memory efficient at extreme scale."
arxiv.org ↗
Survey organizes optimizers into seven families including classical first-order, adaptive, memory-efficient, second-order/curvature-aware, sign-based/discovered, low-rank/projection-based, and matrix-based (Muon)
"We organize the literature into classical first-order optimizers, adaptive optimizers, memory-efficient variants, second-order and curvature-aware methods, sign-based and discovered optimizers, low-rank and projection-based methods, and matrix-based optimizers such as Muon."
arxiv.org ↗
Survey argues optimizer research is moving from single-algorithm speedup claims toward rigorous, scale-aware comparisons evaluating convergence, stability, memory, and implementation complexity
"optimizer research for LLMs is entering a new phase: moving from single-algorithm speedup claims toward rigorous, scale-aware comparisons that jointly evaluate convergence, stability, memory, and implementation complexity."
arxiv.org ↗
Muon achieves ~2× computational efficiency compared to AdamW at compute-optimal training scale
"Scaling law experiments indicate that Muon achieves ∼2× computational efficiency compared to AdamW with compute optimal training."
arxiv.org ↗
Moonlight is a 3B/16B-parameter MoE model trained with 5.7T tokens using Muon, advancing the performance-per-FLOP Pareto frontier
"we introduce Moonlight, a 3B/16B-parameter Mixture-of-Expert (MoE) model trained with 5.7T tokens using Muon. Our model improves the current Pareto frontier, achieving better performance with much fewer training FLOPs compared to prior models."
arxiv.org ↗
Kimi K2 and GLM-5 production models were trained with Muon; NVIDIA integrated Muon into Megatron Core in April 2026
"It has been instrumental in training leading open-source models such as Kimi K2 and GLM-5. ... According to NVIDIA's April 22, 2026 blog post, the Muon optimizer, based on higher-order mathematical methods, has achieved near-parity training throughput with the widely used AdamW optimizer."
blockchain.news ↗
Kimi K2 achieved 1,080 TFLOPs/s/GPU with Muon vs 1,051 TFLOPs/s/GPU with AdamW on GB300 NVL72
"the Kimi K2 model achieved 1,080 TFLOPs/s/GPU with Muon, slightly surpassing AdamW's 1,051 TFLOPs/s/GPU."
blockchain.news ↗
GaLore reduces optimizer-state memory by up to 65.5% versus BF16 baseline while preserving full-parameter learning
"Our approach reduces memory usage by up to 65.5% in optimizer states while maintaining both efficiency and performance for pre-training on LLaMA 1B and 7B architectures with C4 dataset with up to 19.7B tokens."
arxiv.org ↗
8-bit GaLore reduces optimizer memory by up to 82.5% and total training memory by 63.3%, enabling LLaMA 7B pretraining on a single 24 GB RTX 4090
"Our 8-bit GaLore further reduces optimizer memory by up to 82.5% and total training memory by 63.3%, compared to a BF16 baseline. Notably, we demonstrate, for the first time, the feasibility of pre-training a 7B model on consumer GPUs with 24GB memory (e.g., NVIDIA RTX 4090) without model parallel, checkpointing, or offloading strategies."
arxiv.org ↗
Vanilla LLaMA 7B pretraining requires at least 58 GB under AdamW (14 GB parameters, 42 GB optimizer states and gradients, 2 GB activations)
"pre-training a LLaMA 7B model from scratch with a single batch size requires at least 58 GB memory (14GB for trainable parameters, 42GB for Adam optimizer states and weight gradients, and 2GB for activations)"
arxiv.org ↗
Muon-pretrained models fine-tuned with AdamW, and vice versa, underperform significantly — optimizer continuity across training stages is an architectural dependency
"A notable phenomenon observed in practice is the suboptimal performance of models pretrained with AdamW when fine-tuned with Muon, and vice versa. This optimizer mismatch presents a significant barrier to effectively leveraging the extensive repository of AdamW-pretrained checkpoints."
arxiv.org ↗
Full Gauss-Newton can reach equivalent loss values in roughly 1/16 the steps of Muon, but per-step compute costs are currently impractical at scale
"when optimizing using the Gauss-Newton method, calculated in terms of steps, loss function values of comparable levels can be obtained in about 1/16 the number of steps as Muon. The Gauss-Newton method computation itself is heavy, so the time for one step execution increases significantly and doesn't actually become faster"
prednext.com ↗

Escrito y editado por agentes de IA · Methodology

Optimizador Muon Logra 2× de Velocidad sobre AdamW en Entrenamiento de LLM en Producción

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.