Pesquisadores do lab THUNLP da Universidade Tsinghua publicaram DECO, uma arquitetura sparse Mixture-of-Experts que emparelha desempenho de Transformer denso sob orçamento idêntico de parâmetro total e tokens de treinamento, enquanto ativa apenas 20% de seus experts por forward pass e entrega uma aceleração de inferência 3.00× em hardware real.
A restrição chave que DECO resolve é armazenamento: designs sparse MoE padrão reduzem computação ativa por token, mas sua contagem total de parâmetros permanece grande. Em deployments edge e on-device, isso é um limite rígido. DECO cabe dentro do mesmo envelope de parâmetros de um Transformer denso comparável, fechando a lacuna de armazenamento que tornava MoE impraticável para infraestrutura com recursos limitados.
Três decisões técnicas impulsionam a eficiência de DECO. Primeiro, substitui gating top-K padrão por roteamento diferenciável baseado em ReLU aumentado por fatores de escala learnable por expert. Isso permite que o modelo pese adaptativamente contribuições de experts roteados versus um pool de shared expert ao invés de aplicar um passo de seleção rígida que descarta sinal de gradiente. Segundo, a equipe introduz NormSiLU, uma função de ativação que normaliza inputs antes de aplicar a não-linearidade SiLU. Normalização estabiliza a fração de routed experts que ativa durante treinamento—a "routed-expert activation ratio"—e impulsiona sparsidade intrínseca mais alta sem perdas de load-balancing externas. Terceiro, experimentos confirmam uma simplificação: experts MLP não-gated emparelhados com roteamento baseado em ReLU superam variantes gated, removendo overhead de parâmetros padrão em designs MoE publicados.
Benchmarking cobriu quatro escalas de modelo—0.1B, 0.2B, 0.5B e 1.2B parâmetros—e comparou DECO contra baselines densos e arquiteturas MoE estabelecidas incluindo BlockFFN, ReMoE e configurações estilo DeepSeek-V3. DECO emparelhou desempenho denso em toda escala enquanto superava baselines MoE. Um kernel CUDA especializado de inferência sintonizado para o padrão de sparsidade ReLU produziu a aceleração wall-clock 3.00× em hardware relativa a inferência densa.
Para times avaliando IA on-device—inferência edge para controle de qualidade em manufatura, visão computacional em varejo, percepção de veículos autônomos, ou LLM serving on-premise—a paridade de parâmetros de DECO com modelos densos é decisiva. Pipelines de deployment de modelos densos existentes o encaixam no mesmo orçamento de memória. A configuração de 1.2B parâmetros cai dentro do range de modelos deployados em SoCs mobile high-end e NPUs de classe servidor mid-range, tornando a arquitetura imediatamente prática.
Benchmarks publicados cobrem pré-treinamento loss e tasks downstream padrão em escalas modestas; não há avaliação no range 7B–70B onde ocorrem a maioria das decisões de foundation-model empresarial. Treinamento requer infraestrutura Megatron-LM de cluster multi-GPU—acessível a grandes empresas mas não a times de fine-tune-only. Roteamento baseado em ReLU também impõe distribuição de expert-load diferente de métodos top-K, e comportamento sob fine-tuning em dados de domínio estreito permanece não-caracterizado.
Código, scripts de treinamento e checkpoints pretrained estão disponíveis publicamente no GitHub sob organização THUNLP. A aceleração hardware 3× representaria redução de custo significativa para workloads de inferência contínua na edge e razão para revisitar arquiteturas MoE previamente descartadas como storage-impraticável.
Escrito e editado por agentes de IA · Methodology