Complete-muE Permite que Equipes Transfiram Hiperparâmetros Densos para MoE

Adobe Research publicou Complete-muE esta semana, um framework que carrega hiperparâmetros de modelos densos diretamente em qualquer configuração de Mixture-of-Experts. Isso resolve o problema de acoplamento que forçou equipes a reajustar hiperparâmetros a cada mudança de contagem de especialistas desde que Switch Transformer e DeepSeek-V3 tornaram MoE mainstream.

O problema central: as ferramentas existentes lidam com apenas metade da transferência. Maximal Update Parametrization (muP) lida com mudanças de arquitetura — largura, profundidade, tamanho de lote — mas assume contagem de tokens fixa por passo por especialista. Isso quebra quando você sai de FFN denso para MoE, onde roteamento muda quantos tokens cada especialista vê por iteração. Regras de Stochastic Differential Equation (SDE) lidam com mudanças de contagem de tokens para uma arquitetura fixa mas não conseguem cruzar a fronteira denso-para-esparso. Cada transição denso-para-esparso e rescala de especialista simultaneamente muda tanto a arquitetura quanto a carga de trabalho por especialista. Equipes vêm absorvendo isso como reajuste manual em cada nova configuração de especialista.

Complete-muE resolve isso com uma composição de duas pontes. Bridge I mapeia FFN denso para Dense MoE usando muP de largura ativa mais escala de roteador normalizada definida para o número de especialistas ativados (r_a = a). Bridge II então mapeia Dense MoE para sparse MoE via uma regra de escala de especialista ativado, onde correções de taxa de aprendizado SDE de primeira ordem e decay de peso se cancelam, deixando apenas um shift sigma_0 residual limitado. Os autores reconhecem explicitamente esse shift: o comportamento é consistente com SDE não-estrita mas produz drift menor de hiperparâmetros na prática. As duas pontes juntas geram regras de transferência para especialistas ativados, capacidade total, granularidade, especialistas compartilhados e híbridos de roteamento equilibrado por grupo, além de mudanças padrão de largura, profundidade, tamanho de lote e duração para Transformers gerais.

A receita prática é direta: ajuste denso uma vez, transfira para todos. Adobe validou isso em escala. Execuções em larga escala com Complete-muE alcançaram aceleração de convergência de 4,5x para um modelo de difusão de vídeo 240P de 5 segundos e acelerações de convergência de 5,3x–5,5x para LLMs em 100.000 iterações de treinamento. O sweep multimodal cobriu modelos de imagem 256P e 512P, modelos de key-frame 240P e modelos de linguagem — todos a partir dos mesmos hiperparâmetros de referência densos. Um benchmark separado descobriu que escala de capacidade sob granularidade moderada entrega mais ganhos do que pressionar granularidade com força.

Nenhuma latência de inferência, custo por token ou números de tráfego de produção são relatados. Este é um resultado de pesquisa de pré-treinamento da Adobe Research; o framework tem como alvo custo de sweep de tempo de treinamento, não a pilha de servimento. Equipes devem notar que o drift residual da Bridge II é limitado mas real — descrito como consistente com comportamento SDE não-estrita mas ainda não quantificado em cada variante de roteamento. O framework cobre roteamento compartilhado e equilibrado por grupo estilo DeepSeek, mas implementações de roteamento de produção variam o suficiente para que equipes executem um único sweep de verificação antes de confirmar uma execução de pré-treinamento completa em hiperparâmetros transferidos.

As questões abertas dignas de rastreamento: quão sensível é o residual sigma_0 ao desequilíbrio de roteamento na prática, se a transferência mantém quando movendo de calibração denso pequena para contagens de especialista em escala de fronteira, e se existe um caminho de integração limpo em ferramentas muP existentes como Cerebras complete-P ou Apple's complete-dmuP, ambas citadas como esforços relacionados.

Se sua equipe executa sweeps de pré-treinamento MoE e paga por reajuste de hiperparâmetros a cada mudança de contagem de especialista, a receita "ajuste denso uma vez" de Complete-muE é o padrão a roubar — mas execute um único sweep de verificação em uma configuração MoE retida antes de confiar na transferência em escala.

Sources

Complete-muE proposes a two-bridge system: Bridge I maps dense FFN to Dense MoE via active-width muP and normalized router scale; Bridge II maps Dense MoE to sparse MoE via activated-expert scaling
"Complete-muE solves this challenge with a two-bridge system: Bridge I maps between dense FFN and Dense MoE by active-width μP with a normalized router scale. Bridge II maps between Dense MoE and sparse MoE by activated-expert scaling, where the first-order SDE LR/WD correction cancels while a bounded residual σ0 shift remains."
arxiv.org ↗
muP requires fixed architecture and cannot handle per-expert token batch size changes; SDE rules require fixed per-step token count and cannot handle architecture changes
"Existing tools such as μP (requires fixed architectue) or SDE (requires fixed per-step token count) cannot directly solve the hyperparameter transfer problem in MoE setups because Dense to MoE transfer or MoE total experts scaling changes both architecture and tokens per expert."
arxiv.org ↗
Complete-muE achieved 4.5x convergence speedup for 240P 5-second video diffusion model and 5.3x–5.5x LLM convergence speedups at 100k training iterations
"Our large scale MoE runs with Complete-muE enabled reach roughly 4.5× speedup for 240P 5s video diffusion model and 5.3×–5.5× LLM convergence speedups with 100k training iterations."
arxiv.org ↗
The practical recipe is tune dense once, transfer to all MoE configurations — hyperparameters from a single dense reference transfer near-optimally
"tune dense once, transfer to all is the practical recipe at the core of Complete-muE. This enables MoE models to achieve accelerated convergence speedup over dense models when scaling model capacity without costly hyperparameter search."
arxiv.org ↗
Multimodal validation covered 256P and 512P image models, 240P key-frame models, 240P 5s video models, and LM from the same dense reference hyperparameters
"Both controlled small-scale axis sweeps and large-scale multimodal/LM runs directly verify this recipe: a single dense calibration delivers consistent MoE gains across MoE axes and across modalities (256P/512P images, 240P key frames, 240P 5s videos, LM)."
arxiv.org ↗
Capacity scaling under moderate granularity scaling is more beneficial than pushing granularity hard
"We also benchmark MoE granularity vs capacity to show the real scaling trade-offs, and observe that capacity scaling under moderate granularity scaling is more beneficial."
arxiv.org ↗
Bridge II's residual drift is explicitly described as non-strict SDE behavior — minor but present
"complete-muE yields relatively stable hyperparameter optima across all MoE setups, with mild drift consistent with the non-strict SDE behavior of Bridge II."
arxiv.org ↗
Complete-muE covers activated experts, total capacity, granularity, shared experts, group-balanced routing, and standard width/depth/batch/duration changes
"The resulting transfer rule, which we term as Complete muE, covers changes in activated experts, total capacity, granularity, and shared/group-balanced hybrids for MoE models as well as network width/depth, batch size, and duration changes for general Transformer models."
arxiv.org ↗
Authors are from Adobe Research
"Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang Adobe Research {hongwup, dibua, yxiong, yifang, jianmzha, yankang}@adobe.com"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Complete-muE Permite que Equipes Transfiram Hiperparâmetros Densos para MoE

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.