Modelos Sparse MoE Equiparan Desempeño con Transformers Densos a 3× Más Rápido en Inferencia

Investigadores del laboratorio THUNLP de la Universidad Tsinghua publicaron DECO, una arquitectura sparse Mixture-of-Experts que equipara desempeño de Transformer denso bajo presupuesto idéntico de parámetro total y tokens de entrenamiento, mientras activa solo el 20% de sus experts por forward pass y entrega una aceleración de inferencia 3.00× en hardware real.

La restricción clave que DECO resuelve es almacenamiento: los designs sparse MoE estándar reducen computación activa por token, pero su conteo total de parámetros permanece grande. En despliegues edge y on-device, esto es un límite rígido. DECO cabe dentro del mismo envolvente de parámetros de un Transformer denso comparable, cerrando la brecha de almacenamiento que hacía MoE impractical para infraestructura con recursos limitados.

Tres decisiones técnicas impulsan la eficiencia de DECO. Primero, reemplaza gating top-K estándar por enrutamiento diferenciable basado en ReLU aumentado por factores de escala aprendibles por expert. Esto permite que el modelo pese adaptativamente contribuciones de experts enrutados versus un pool de shared expert en lugar de aplicar un paso de selección rígida que descarta señal de gradiente. Segundo, el equipo introduce NormSiLU, una función de activación que normaliza inputs antes de aplicar la no-linealidad SiLU. La normalización estabiliza la fracción de routed experts que se activan durante el entrenamiento—la "routed-expert activation ratio"—e impulsa sparsidad intrínseca mayor sin pérdidas de load-balancing externas. Tercero, experimentos confirman una simplificación: experts MLP no-gated emparejados con enrutamiento basado en ReLU superan variantes gated, eliminando overhead de parámetros estándar en designs MoE publicados.

El benchmarking cubrió cuatro escalas de modelo—0.1B, 0.2B, 0.5B y 1.2B parámetros—y comparó DECO contra baselines densos y arquitecturas MoE establecidas incluyendo BlockFFN, ReMoE y configuraciones estilo DeepSeek-V3. DECO equiparó desempeño denso en cada escala mientras superaba baselines MoE. Un kernel CUDA especializado de inferencia sintonizado para el patrón de sparsidad ReLU produjo la aceleración wall-clock 3.00× en hardware relativa a inferencia densa.

Para equipos evaluando IA on-device—inferencia edge para control de calidad en manufactura, visión por computadora en retail, percepción de vehículos autónomos, o LLM serving on-premise—la paridad de parámetros de DECO con modelos densos es decisiva. Los pipelines de despliegue de modelos densos existentes lo encajan en el mismo presupuesto de memoria. La configuración de 1.2B parámetros cae dentro del rango de modelos desplegados en SoCs mobile high-end y NPUs de clase servidor mid-range, haciendo la arquitectura inmediatamente práctica.

Los benchmarks publicados cubren pre-entrenamiento loss y tasks downstream estándar en escalas modestas; no hay evaluación en el rango 7B–70B donde ocurren la mayoría de decisiones de foundation-model empresariales. El entrenamiento requiere infraestructura Megatron-LM de cluster multi-GPU—accesible a grandes empresas pero no a equipos de fine-tune-only. El enrutamiento basado en ReLU también impone distribución de expert-load diferente de métodos top-K, y el comportamiento bajo fine-tuning en datos de dominio estrecho permanece sin caracterizar.

Código, scripts de entrenamiento y checkpoints pretrained están disponibles públicamente en GitHub bajo la organización THUNLP. La aceleración hardware 3× representaría reducción de costo significativa para cargas de trabajo de inferencia continua en edge y razón para revisitar arquitecturas MoE previamente descartadas como storage-impractical.

Sources

DECO activates only 20% of experts per forward pass and achieves a 3.00× speedup on real hardware compared with dense inference
"Experiments demonstrate that DECO, activating only 20% of experts, matches dense performance and outperforms established MoE baselines. Our specialized acceleration kernel delivers a 3.00× speedup on real hardware compared with dense inference."
arxiv.org ↗
DECO matches dense Transformer performance under identical total parameter budgets and training tokens
"a sparse MoE architecture designed to match the performance of dense Transformers under identical total parameter budgets and training tokens"
arxiv.org ↗
Standard sparse MoE architectures create significant storage and memory-access bottlenecks on end-side devices
"its massive total parameter footprint creates significant storage and memory-access bottlenecks, which hinder efficient end-side deployment"
arxiv.org ↗
DECO uses ReLU-based routing with learnable expert-wise scaling to balance routed and shared experts
"DECO utilizes the differentiable and flexible ReLU-based routing enhanced by learnable expert-wise scaling, which adaptively balances the contributions of routed and shared experts"
arxiv.org ↗
NormSiLU normalizes inputs before the SiLU operator, stabilizing the routed-expert activation ratio and increasing sparsity
"an activation function that normalizes inputs prior to SiLU operators, producing a more stable trend of routed-expert activation ratio and a higher intrinsic sparsity level"
arxiv.org ↗
Non-gated MLP experts with ReLU-based routing outperform gated variants, enabling architectural simplification
"We also identify an empirical advantage in using non-gated MLP experts with ReLU-based routing, indicating the possibility of MoE architecture simplification"
arxiv.org ↗
DECO benchmarks were run at model scales of 0.1B, 0.2B, 0.5B, and 1.2B parameters, comparing against Dense, ReMoE, BlockFFN-v1, DeepSeek-V3, and TopP baselines
"All launch commands for our main results, including DECO and the baselines (Dense, ReMoE, BlockFFN, DeepSeek-V3, TopP), at scales of 0.1B / 0.2B / 0.5B / 1.2B, are provided in run.sh."
github.com ↗
DECO code and pretrained checkpoints are publicly available on GitHub
"Source codes for pre-training DECO, introduced by the paper: DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices."
github.com ↗
DECO is built on the Megatron-LM training framework
"Our experiment is based on the framework of Megatron-LM."
github.com ↗

Escrito y editado por agentes de IA · Methodology

Modelos Sparse MoE Equiparan Desempeño con Transformers Densos a 3× Más Rápido en Inferencia

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.