UniPool reduz orçamento de parâmetros MoE em 34 a 58 por cento

Artigo do Arxiv propõe um pool de especialistas unificado para modelos mixture-of-experts, quebrando a convenção de alocação por camada e reduzindo a sobrecarga de parâmetros de especialistas. Permite escalagem mais eficiente de modelos grandes sem acoplamento rígido ao crescimento de profundidade.

Uma equipe de oito pesquisadores publicou UniPool, uma arquitetura MoE que substitui silos de especialistas por camada por um único pool de especialistas compartilhado globalmente. O resultado principal: variantes UniPool com pool reduzido correspondem ou superam modelos MoE full layer-wise enquanto usam apenas 41,6–66,7% do orçamento de parâmetros de especialistas vanilla.

O problema central que UniPool aborda é uma suposição incorporada a cada design MoE importante: cada camada transformer precisa de seu próprio conjunto isolado de especialistas. Esse acoplamento força a contagem de parâmetros de especialistas a escalar linearmente com a profundidade. Para testar se a suposição se sustenta, os autores substituíram roteadores top-k treinados em camadas mais profundas por roteamento uniforme aleatório e mediram a precisão em modelos MoE de produção. A queda foi apenas 1,0–1,6 pontos em múltiplos modelos, confirmando que a alocação de especialistas em camadas mais profundas é amplamente redundante.

A implementação do UniPool substitui a propriedade de especialistas por camada por um único pool consultado por roteadores independentes por camada. Dois mecanismos acompanham o design: uma perda auxiliar no nível do pool que equilibra a utilização em todo o pool em vez de dentro de camadas individuais, e NormRouter, que fornece sinais de roteamento esparsos e estáveis em escala para o pool compartilhado. A perda auxiliar impede que especialistas individuais monopolizem o tráfego conforme o pool é consultado de cada profundidade.

A equipe validou UniPool em cinco escalas de arquitetura LLaMA—182M, 469M, 650M, 830M e 978M parâmetros—cada uma treinada em 30 bilhões de tokens do Pile. UniPool melhora a perda de validação e a perplexidade sobre baselines MoE vanilla correspondentes em cada escala. A redução máxima de perda de validação em relação ao MoE vanilla é 0,0386, alcançada na maior escala testada.

Para equipes de infraestrutura de IA corporativa, as implicações pousam principalmente na camada de model-serving. Arquiteturas MoE atraem adoção porque as contagens de parâmetros ativados são baixas em relação ao tamanho total do modelo, mas a contagem total de parâmetros ainda impulsiona a pegada de memória e o tamanho do checkpoint. Uma lei de crescimento de especialistas sublinear reduz ambas. O achado também afeta a economia de fine-tuning: atualizar um pool compartilhado em vez de conjuntos de especialistas por camada reduz o número de matrizes de peso distintas que devem ser checkpointadas ou adaptadas via métodos estilo LoRA.

Questões abertas permanecem sobre a estabilidade de roteamento de produção em escalas além de 1B parâmetros, e a avaliação baseada em Pile do paper antecede convenções recentes de domain-mix. Se a estabilidade de escala do NormRouter se sustenta sob distribuições de tokens de longo contexto ou multimodal é não testado. Os autores observam que os benefícios do UniPool se compõem com técnicas de decomposição de especialistas mais refinadas, deixando espaço para designs híbridos.

O resultado de redundância de roteamento sozinho—menos de 1,6 pontos perdidos para roteamento aleatório em profundidade—dá aos designers MoE uma desculpa baseada em princípios para parar de pagar a taxa de especialistas por camada.

Sources

Replacing a deeper layer's learned top-k router with uniform random routing drops downstream accuracy by only 1.0–1.6 points across multiple production MoE models
"replacing a deeper layer's learned top-k router with uniform random routing drops downstream accuracy by only 1.0-1.6 points across multiple production MoE models"
arxiv.org ↗
UniPool tested across five LLaMA-architecture model scales: 182M, 469M, 650M, 830M, and 978M parameters, each trained on 30B tokens from the Pile
"Across five LLaMA-architecture model scales (182M, 469M, 650M, 830M, and 978M parameters) trained on 30B tokens from the Pile"
arxiv.org ↗
UniPool reduces validation loss by up to 0.0386 relative to vanilla MoE
"UniPool reduces validation loss by up to 0.0386 relative to vanilla MoE"
arxiv.org ↗
Reduced-pool UniPool variants use only 41.6%–66.7% of the vanilla expert-parameter budget and match or outperform layer-wise MoE
"reduced-pool UniPool variants using only 41.6%-66.7% of the vanilla expert-parameter budget match or outperform layer-wise MoE at the tested scales"
arxiv.org ↗
UniPool uses a pool-level auxiliary loss and NormRouter for stable, balanced training under shared expert access
"we introduce a pool-level auxiliary loss that balances expert utilization across the entire pool, and adopt NormRouter to provide sparse and scale-stable routing into the shared expert pool"
arxiv.org ↗
UniPool treats expert capacity as a global architectural budget, replacing per-layer expert ownership with a single shared pool accessed by independent per-layer routers
"replacing per-layer expert ownership with a single shared pool accessed by independent per-layer routers"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

UniPool reduz orçamento de parâmetros MoE em 34 a 58 por cento

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.