Perdas padrão de balanceamento de carga degradam especialização de experts em SMoE em 3x

Estudo revela que roteadores em modelos Sparse Mixture-of-Experts aprendem padrões geométricos acoplados à especialização de experts. A descoberta explica falhas de colapso de roteamento e fornece insights mecanísticos para estabilizar treinamento de SMoE—relevante conforme empresas escalam para modelos com trilhões de parâmetros.

Pesquisadores da Universidade de Tel Aviv identificaram um acoplamento geométrico entre roteadores e experts em modelos Sparse Mixture-of-Experts que explica por que perdas padrão de balanceamento de carga degradam especialização. Em experimentos em um SMoE de 11B parâmetros treinado em 5.050 bilhões de tokens, perdas auxiliares presentes em Mixtral, Switch Transformers e DeepSeek-V3 fizeram vetores de peso do roteador quase três vezes mais similares um ao outro do que treinamento sem a perda.

O mecanismo opera no nível de gradiente. Quando um token é roteado para um expert, tanto o vetor de peso do roteador para esse expert quanto os pesos do lado de entrada do expert recebem atualizações ao longo da mesma direção de entrada, diferindo apenas em coeficientes escalares. A regra da cadeia em uma camada SMoE impõe essa forma proporcional: pares direção acoplada roteador–expert coevoluem como acumuladores acoplados das histórias de token roteadas por eles.

Através do modelo de 11B, experts classificados mais altos pelo roteador produziram ativações de neurônio mais fortes para os mesmos tokens do que experts que o roteador não selecionou. Decisões de roteamento se incorporam à computação interna do expert — uma assinatura geométrica visível em tempo de inferência.

Perdas de balanceamento funcionam enviando sinais de gradiente direcionados à entrada para cada vetor de peso do roteador em cada token, independentemente de qual expert foi escolhido. Essa transmissão colapsa as impressões digitais direcionais que o acoplamento constrói. Os pesquisadores compararam dois SMoEs de 11B treinados com e sem a perda auxiliar: treinamento sem perda preservou diferenciação de expert ao custo de pior balanceamento de carga.

Para equipes treinando ou ajustando modelos SMoE—uma coorte que expandiu acentuadamente após DeepSeek-V3 e OLMoE mostrarem que a arquitetura corresponde a modelos densos com economia de custo de inferência—isso revela o custo no nível de gradiente do balanceamento. Os pesquisadores introduzem um roteador K-Means sem parâmetros: cada expert mantém uma média móvel de estados ocultos roteados; novos tokens são atribuídos por similaridade de cosseno a esses centróides. A variante K-Means alcança o menor desbalanceamento de carga das três configurações, com um aumento modesto de perplexidade.

Os experimentos são limitados à faixa de 11B; se dinâmicas de acoplamento persistem em escalas de 100B ou mais permanece untestado. O tradeoff de perplexidade do roteador K-Means não é quantificado contra desempenho de tarefa downstream. Ainda assim, o valor diagnóstico é concreto: equipes observando colapso de roteamento agora têm um mecanismo específico para investigar e uma previsão clara—verificar similaridade de gradiente de direções do roteador antes de afinar o coeficiente de balanceamento.

Sources

Geometric coupling means router weights and expert weights receive gradients along the same input direction, differing only in scalar coefficients
"For a given token, the router weights for the selected expert and the expert weights processing it receive gradients along the same input direction, differing only in scalar coefficients."
arxiv.org ↗
Empirical validation on an 11B SMoE trained for approximately 5,050 billion tokens
"In a 11B SMoE trained from scratch for approximately 5050B tokens, we find that experts ranked higher by the router consistently exhibit stronger activations than experts not selected by the router."
arxiv.org ↗
Routing decisions are mirrored in expert neuron activations — higher router scores predict stronger expert activations
"higher router scores predict stronger expert neuron activations, showing that routing decisions are mirrored inside the selected expert."
arxiv.org ↗
Auxiliary load-balancing losses make distinct router weight vectors nearly three times more similar to each other
"distinct router weight vectors become nearly three times more similar with the auxiliary loss than without it."
arxiv.org ↗
Auxiliary losses break geometric coupling by spreading input-directed gradients across all router weights regardless of which expert was chosen
"This loss encourages balanced routing by penalizing uneven expert load. From a theoretical point of view, this optimization sends input-directed gradients to every router weight vector on every token, regardless of which experts were chosen."
arxiv.org ↗
A parameter-free online K-Means router achieves the lowest load imbalance among the configurations tested, with only a modest perplexity increase
"Compared with auxiliary-loss and loss-free balancing, this router achieves the lowest load imbalance with only a modest perplexity increase, indicating that geometric coupling captures a substantial part of what the router learns."
arxiv.org ↗
DeepSeek-V3 and OLMoE match or outperform dense models while activating only a fraction of their total parameters
"Recent implementations, such as DeepSeek-V3 and OLMoE, match or outperform dense models while activating only a fraction of their total parameters."
arxiv.org ↗
Without load-balancing intervention, routing concentrates on a shrinking subset of experts, leading to representation collapse
"Without intervention, routing concentrates on a shrinking subset of experts, leading to representation collapse."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Perdas padrão de balanceamento de carga degradam especialização de experts em SMoE em 3x

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.