RESEARCHPOR AI|EXPERT SCOUT· sexta-feira, 15 de maio de 2026· 4 MIN DE LEITURA
Perdas padrão de balanceamento de carga degradam especialização de experts em SMoE em 3x
Estudo revela que roteadores em modelos Sparse Mixture-of-Experts aprendem padrões geométricos acoplados à especialização de experts. A descoberta explica falhas de colapso de roteamento e fornece insights mecanísticos para estabilizar treinamento de SMoE—relevante conforme empresas escalam para modelos com trilhões de parâmetros.
Generative Imagery
Colapso de acoplamento: forças de balanceamento forçam alinhamento de roteador e expertFIG. 01
Pesquisadores da Universidade de Tel Aviv identificaram um acoplamento geométrico entre roteadores e experts em modelos Sparse Mixture-of-Experts que explica por que perdas padrão de balanceamento de carga degradam especialização. Em experimentos em um SMoE de 11B parâmetros treinado em 5.050 bilhões de tokens, perdas auxiliares presentes em Mixtral, Switch Transformers e DeepSeek-V3 fizeram vetores de peso do roteador quase três vezes mais similares um ao outro do que treinamento sem a perda.
O mecanismo opera no nível de gradiente. Quando um token é roteado para um expert, tanto o vetor de peso do roteador para esse expert quanto os pesos do lado de entrada do expert recebem atualizações ao longo da mesma direção de entrada, diferindo apenas em coeficientes escalares. A regra da cadeia em uma camada SMoE impõe essa forma proporcional: pares direção acoplada roteador–expert coevoluem como acumuladores acoplados das histórias de token roteadas por eles.
Através do modelo de 11B, experts classificados mais altos pelo roteador produziram ativações de neurônio mais fortes para os mesmos tokens do que experts que o roteador não selecionou. Decisões de roteamento se incorporam à computação interna do expert — uma assinatura geométrica visível em tempo de inferência.
Perdas de balanceamento funcionam enviando sinais de gradiente direcionados à entrada para cada vetor de peso do roteador em cada token, independentemente de qual expert foi escolhido. Essa transmissão colapsa as impressões digitais direcionais que o acoplamento constrói. Os pesquisadores compararam dois SMoEs de 11B treinados com e sem a perda auxiliar: treinamento sem perda preservou diferenciação de expert ao custo de pior balanceamento de carga.
Para equipes treinando ou ajustando modelos SMoE—uma coorte que expandiu acentuadamente após DeepSeek-V3 e OLMoE mostrarem que a arquitetura corresponde a modelos densos com economia de custo de inferência—isso revela o custo no nível de gradiente do balanceamento. Os pesquisadores introduzem um roteador K-Means sem parâmetros: cada expert mantém uma média móvel de estados ocultos roteados; novos tokens são atribuídos por similaridade de cosseno a esses centróides. A variante K-Means alcança o menor desbalanceamento de carga das três configurações, com um aumento modesto de perplexidade.
Os experimentos são limitados à faixa de 11B; se dinâmicas de acoplamento persistem em escalas de 100B ou mais permanece untestado. O tradeoff de perplexidade do roteador K-Means não é quantificado contra desempenho de tarefa downstream. Ainda assim, o valor diagnóstico é concreto: equipes observando colapso de roteamento agora têm um mecanismo específico para investigar e uma previsão clara—verificar similaridade de gradiente de direções do roteador antes de afinar o coeficiente de balanceamento.