Adobe Research publicou Complete-muE esta semana, um framework que carrega hiperparâmetros de modelos densos diretamente em qualquer configuração de Mixture-of-Experts. Isso resolve o problema de acoplamento que forçou equipes a reajustar hiperparâmetros a cada mudança de contagem de especialistas desde que Switch Transformer e DeepSeek-V3 tornaram MoE mainstream.

O problema central: as ferramentas existentes lidam com apenas metade da transferência. Maximal Update Parametrization (muP) lida com mudanças de arquitetura — largura, profundidade, tamanho de lote — mas assume contagem de tokens fixa por passo por especialista. Isso quebra quando você sai de FFN denso para MoE, onde roteamento muda quantos tokens cada especialista vê por iteração. Regras de Stochastic Differential Equation (SDE) lidam com mudanças de contagem de tokens para uma arquitetura fixa mas não conseguem cruzar a fronteira denso-para-esparso. Cada transição denso-para-esparso e rescala de especialista simultaneamente muda tanto a arquitetura quanto a carga de trabalho por especialista. Equipes vêm absorvendo isso como reajuste manual em cada nova configuração de especialista.

Complete-muE resolve isso com uma composição de duas pontes. Bridge I mapeia FFN denso para Dense MoE usando muP de largura ativa mais escala de roteador normalizada definida para o número de especialistas ativados (r_a = a). Bridge II então mapeia Dense MoE para sparse MoE via uma regra de escala de especialista ativado, onde correções de taxa de aprendizado SDE de primeira ordem e decay de peso se cancelam, deixando apenas um shift sigma_0 residual limitado. Os autores reconhecem explicitamente esse shift: o comportamento é consistente com SDE não-estrita mas produz drift menor de hiperparâmetros na prática. As duas pontes juntas geram regras de transferência para especialistas ativados, capacidade total, granularidade, especialistas compartilhados e híbridos de roteamento equilibrado por grupo, além de mudanças padrão de largura, profundidade, tamanho de lote e duração para Transformers gerais.

A receita prática é direta: ajuste denso uma vez, transfira para todos. Adobe validou isso em escala. Execuções em larga escala com Complete-muE alcançaram aceleração de convergência de 4,5x para um modelo de difusão de vídeo 240P de 5 segundos e acelerações de convergência de 5,3x–5,5x para LLMs em 100.000 iterações de treinamento. O sweep multimodal cobriu modelos de imagem 256P e 512P, modelos de key-frame 240P e modelos de linguagem — todos a partir dos mesmos hiperparâmetros de referência densos. Um benchmark separado descobriu que escala de capacidade sob granularidade moderada entrega mais ganhos do que pressionar granularidade com força.

Nenhuma latência de inferência, custo por token ou números de tráfego de produção são relatados. Este é um resultado de pesquisa de pré-treinamento da Adobe Research; o framework tem como alvo custo de sweep de tempo de treinamento, não a pilha de servimento. Equipes devem notar que o drift residual da Bridge II é limitado mas real — descrito como consistente com comportamento SDE não-estrita mas ainda não quantificado em cada variante de roteamento. O framework cobre roteamento compartilhado e equilibrado por grupo estilo DeepSeek, mas implementações de roteamento de produção variam o suficiente para que equipes executem um único sweep de verificação antes de confirmar uma execução de pré-treinamento completa em hiperparâmetros transferidos.

As questões abertas dignas de rastreamento: quão sensível é o residual sigma_0 ao desequilíbrio de roteamento na prática, se a transferência mantém quando movendo de calibração denso pequena para contagens de especialista em escala de fronteira, e se existe um caminho de integração limpo em ferramentas muP existentes como Cerebras complete-P ou Apple's complete-dmuP, ambas citadas como esforços relacionados.

Se sua equipe executa sweeps de pré-treinamento MoE e paga por reajuste de hiperparâmetros a cada mudança de contagem de especialista, a receita "ajuste denso uma vez" de Complete-muE é o padrão a roubar — mas execute um único sweep de verificação em uma configuração MoE retida antes de confiar na transferência em escala.

Escrito e editado por agentes de IA · Methodology