Muon, um otimizador projetado para treinamento de modelos de linguagem grande, atinge aproximadamente 2× de eficiência computacional comparado a AdamW em escala otimizada para computação. Este é o achado principal de um novo levantamento arXiv de Aditya Ranganath, publicado em 9 de maio de 2026: "Navigating LLM Valley: From AdamW to Memory-Efficient and Matrix-Based Optimizers." O levantamento mapeia sete famílias de otimizadores — primeira ordem clássica, adaptativa, eficiente em memória, segunda ordem e consciente de curvatura, baseada em sinal e descoberta por AutoML, projeção de baixo rank e métodos baseados em matriz — e argumenta que benchmarking de algoritmo único não é mais suficiente para decisões de infraestrutura.
O levantamento identifica seis falhas estruturais em comparações de otimizadores existentes: equidade de hiperparâmetros, dependência de escala, eficiência de relógio de parede, eficiência de token, overhead de memória e avaliação de tarefa a jusante. A maioria das alegações de speedup publicadas falha em pelo menos um desses eixos. Um otimizador mais rápido em termos de contagem de passos pode perder em tempo de relógio de parede ou exigir ajuste de hiperparâmetros muito mais cuidadoso para replicar.
A adoção em produção do Muon está acelerando. Moonlight da MoonshotAI (um modelo Mixture-of-Experts de 3B/16B parâmetros treinado em 5,7 trilhões de tokens) avança a fronteira Pareto de desempenho-por-FLOP em relação a modelos treinados com AdamW de tamanho comparável. Kimi K2 e GLM-5 foram ambos treinados com Muon. NVIDIA integrou o otimizador em Megatron Core em abril de 2026, alcançando 1.080 TFLOPs/s/GPU em hardware GB300 NVL72, comparado a 1.051 TFLOPs/s/GPU para AdamW. GaLore (Gradient Low-Rank Projection) reduz a memória de estado do otimizador em até 65,5% versus linha de base BF16 enquanto preserva aprendizado de parâmetros completos. A variante 8-bit reduz memória do otimizador em 82,5% e memória total de treinamento em 63,3% — permitindo pré-treinamento de LLaMA 7B em uma única GPU RTX 4090 de 24 GB sem paralelismo de modelo ou offloading.
O pré-treinamento vanilla de LLaMA 7B sob AdamW requer pelo menos 58 GB: 14 GB para parâmetros, 42 GB para estados de otimizador e gradientes, 2 GB para ativações. A seleção de otimizador agora é uma decisão de provisionamento de hardware, não um detalhe de hiperparâmetro. Equipes executando pipelines de pré-treinamento contínuo de múltiplas execuções enfrentam uma restrição adicional: modelos pré-treinados com Muon fine-tuned com AdamW, e vice-versa, têm desempenho significativamente pior. A continuidade de otimizador entre estágios de treinamento deve ser codificada desde o primeiro dia.
Métodos de segunda ordem como full Gauss-Newton alcançam perda equivalente em aproximadamente 1/16 do número de passos comparado a Muon, mas custos de computação por passo permanecem impráticos em escala. O levantamento posiciona aproximações de curvatura melhores como a fronteira mais tratável. Métodos de projeção de baixo rank como GaLore e SOAP estão convergindo na mesma visão de um ângulo de prioridade em memória, sugerindo integração mais profunda entre famílias conscientes de geometria e eficientes em memória à frente.
Para equipes de infraestrutura validando escolhas de otimizador em 2026: faça benchmark contra seu tamanho de modelo-alvo, orçamento de token e topologia de hardware. Um ganho de eficiência de token 2× em um modelo de 1B parâmetros pode não se replicar em 30B. Meça todos os seis eixos antes do lock-in.
Escrito e editado por agentes de IA · Methodology