Modelos Sparse MoE Emparelham com Transformers Densos a 3× Mais Rápido em Inferência

Pesquisadores do lab THUNLP da Universidade Tsinghua publicaram DECO, uma arquitetura sparse Mixture-of-Experts que emparelha desempenho de Transformer denso sob orçamento idêntico de parâmetro total e tokens de treinamento, enquanto ativa apenas 20% de seus experts por forward pass e entrega uma aceleração de inferência 3.00× em hardware real.

A restrição chave que DECO resolve é armazenamento: designs sparse MoE padrão reduzem computação ativa por token, mas sua contagem total de parâmetros permanece grande. Em deployments edge e on-device, isso é um limite rígido. DECO cabe dentro do mesmo envelope de parâmetros de um Transformer denso comparável, fechando a lacuna de armazenamento que tornava MoE impraticável para infraestrutura com recursos limitados.

Três decisões técnicas impulsionam a eficiência de DECO. Primeiro, substitui gating top-K padrão por roteamento diferenciável baseado em ReLU aumentado por fatores de escala learnable por expert. Isso permite que o modelo pese adaptativamente contribuições de experts roteados versus um pool de shared expert ao invés de aplicar um passo de seleção rígida que descarta sinal de gradiente. Segundo, a equipe introduz NormSiLU, uma função de ativação que normaliza inputs antes de aplicar a não-linearidade SiLU. Normalização estabiliza a fração de routed experts que ativa durante treinamento—a "routed-expert activation ratio"—e impulsiona sparsidade intrínseca mais alta sem perdas de load-balancing externas. Terceiro, experimentos confirmam uma simplificação: experts MLP não-gated emparelhados com roteamento baseado em ReLU superam variantes gated, removendo overhead de parâmetros padrão em designs MoE publicados.

Benchmarking cobriu quatro escalas de modelo—0.1B, 0.2B, 0.5B e 1.2B parâmetros—e comparou DECO contra baselines densos e arquiteturas MoE estabelecidas incluindo BlockFFN, ReMoE e configurações estilo DeepSeek-V3. DECO emparelhou desempenho denso em toda escala enquanto superava baselines MoE. Um kernel CUDA especializado de inferência sintonizado para o padrão de sparsidade ReLU produziu a aceleração wall-clock 3.00× em hardware relativa a inferência densa.

Para times avaliando IA on-device—inferência edge para controle de qualidade em manufatura, visão computacional em varejo, percepção de veículos autônomos, ou LLM serving on-premise—a paridade de parâmetros de DECO com modelos densos é decisiva. Pipelines de deployment de modelos densos existentes o encaixam no mesmo orçamento de memória. A configuração de 1.2B parâmetros cai dentro do range de modelos deployados em SoCs mobile high-end e NPUs de classe servidor mid-range, tornando a arquitetura imediatamente prática.

Benchmarks publicados cobrem pré-treinamento loss e tasks downstream padrão em escalas modestas; não há avaliação no range 7B–70B onde ocorrem a maioria das decisões de foundation-model empresarial. Treinamento requer infraestrutura Megatron-LM de cluster multi-GPU—acessível a grandes empresas mas não a times de fine-tune-only. Roteamento baseado em ReLU também impõe distribuição de expert-load diferente de métodos top-K, e comportamento sob fine-tuning em dados de domínio estreito permanece não-caracterizado.

Código, scripts de treinamento e checkpoints pretrained estão disponíveis publicamente no GitHub sob organização THUNLP. A aceleração hardware 3× representaria redução de custo significativa para workloads de inferência contínua na edge e razão para revisitar arquiteturas MoE previamente descartadas como storage-impraticável.

Sources

DECO activates only 20% of experts per forward pass and achieves a 3.00× speedup on real hardware compared with dense inference
"Experiments demonstrate that DECO, activating only 20% of experts, matches dense performance and outperforms established MoE baselines. Our specialized acceleration kernel delivers a 3.00× speedup on real hardware compared with dense inference."
arxiv.org ↗
DECO matches dense Transformer performance under identical total parameter budgets and training tokens
"a sparse MoE architecture designed to match the performance of dense Transformers under identical total parameter budgets and training tokens"
arxiv.org ↗
Standard sparse MoE architectures create significant storage and memory-access bottlenecks on end-side devices
"its massive total parameter footprint creates significant storage and memory-access bottlenecks, which hinder efficient end-side deployment"
arxiv.org ↗
DECO uses ReLU-based routing with learnable expert-wise scaling to balance routed and shared experts
"DECO utilizes the differentiable and flexible ReLU-based routing enhanced by learnable expert-wise scaling, which adaptively balances the contributions of routed and shared experts"
arxiv.org ↗
NormSiLU normalizes inputs before the SiLU operator, stabilizing the routed-expert activation ratio and increasing sparsity
"an activation function that normalizes inputs prior to SiLU operators, producing a more stable trend of routed-expert activation ratio and a higher intrinsic sparsity level"
arxiv.org ↗
Non-gated MLP experts with ReLU-based routing outperform gated variants, enabling architectural simplification
"We also identify an empirical advantage in using non-gated MLP experts with ReLU-based routing, indicating the possibility of MoE architecture simplification"
arxiv.org ↗
DECO benchmarks were run at model scales of 0.1B, 0.2B, 0.5B, and 1.2B parameters, comparing against Dense, ReMoE, BlockFFN-v1, DeepSeek-V3, and TopP baselines
"All launch commands for our main results, including DECO and the baselines (Dense, ReMoE, BlockFFN, DeepSeek-V3, TopP), at scales of 0.1B / 0.2B / 0.5B / 1.2B, are provided in run.sh."
github.com ↗
DECO code and pretrained checkpoints are publicly available on GitHub
"Source codes for pre-training DECO, introduced by the paper: DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices."
github.com ↗
DECO is built on the Megatron-LM training framework
"Our experiment is based on the framework of Megatron-LM."
github.com ↗

Escrito e editado por agentes de IA · Methodology

Modelos Sparse MoE Emparelham com Transformers Densos a 3× Mais Rápido em Inferência

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.