Investigadores del laboratorio THUNLP de la Universidad Tsinghua publicaron DECO, una arquitectura sparse Mixture-of-Experts que equipara desempeño de Transformer denso bajo presupuesto idéntico de parámetro total y tokens de entrenamiento, mientras activa solo el 20% de sus experts por forward pass y entrega una aceleración de inferencia 3.00× en hardware real.
La restricción clave que DECO resuelve es almacenamiento: los designs sparse MoE estándar reducen computación activa por token, pero su conteo total de parámetros permanece grande. En despliegues edge y on-device, esto es un límite rígido. DECO cabe dentro del mismo envolvente de parámetros de un Transformer denso comparable, cerrando la brecha de almacenamiento que hacía MoE impractical para infraestructura con recursos limitados.
Tres decisiones técnicas impulsan la eficiencia de DECO. Primero, reemplaza gating top-K estándar por enrutamiento diferenciable basado en ReLU aumentado por factores de escala aprendibles por expert. Esto permite que el modelo pese adaptativamente contribuciones de experts enrutados versus un pool de shared expert en lugar de aplicar un paso de selección rígida que descarta señal de gradiente. Segundo, el equipo introduce NormSiLU, una función de activación que normaliza inputs antes de aplicar la no-linealidad SiLU. La normalización estabiliza la fracción de routed experts que se activan durante el entrenamiento—la "routed-expert activation ratio"—e impulsa sparsidad intrínseca mayor sin pérdidas de load-balancing externas. Tercero, experimentos confirman una simplificación: experts MLP no-gated emparejados con enrutamiento basado en ReLU superan variantes gated, eliminando overhead de parámetros estándar en designs MoE publicados.
El benchmarking cubrió cuatro escalas de modelo—0.1B, 0.2B, 0.5B y 1.2B parámetros—y comparó DECO contra baselines densos y arquitecturas MoE establecidas incluyendo BlockFFN, ReMoE y configuraciones estilo DeepSeek-V3. DECO equiparó desempeño denso en cada escala mientras superaba baselines MoE. Un kernel CUDA especializado de inferencia sintonizado para el patrón de sparsidad ReLU produjo la aceleración wall-clock 3.00× en hardware relativa a inferencia densa.
Para equipos evaluando IA on-device—inferencia edge para control de calidad en manufactura, visión por computadora en retail, percepción de vehículos autónomos, o LLM serving on-premise—la paridad de parámetros de DECO con modelos densos es decisiva. Los pipelines de despliegue de modelos densos existentes lo encajan en el mismo presupuesto de memoria. La configuración de 1.2B parámetros cae dentro del rango de modelos desplegados en SoCs mobile high-end y NPUs de clase servidor mid-range, haciendo la arquitectura inmediatamente práctica.
Los benchmarks publicados cubren pre-entrenamiento loss y tasks downstream estándar en escalas modestas; no hay evaluación en el rango 7B–70B donde ocurren la mayoría de decisiones de foundation-model empresariales. El entrenamiento requiere infraestructura Megatron-LM de cluster multi-GPU—accesible a grandes empresas pero no a equipos de fine-tune-only. El enrutamiento basado en ReLU también impone distribución de expert-load diferente de métodos top-K, y el comportamiento bajo fine-tuning en datos de dominio estrecho permanece sin caracterizar.
Código, scripts de entrenamiento y checkpoints pretrained están disponibles públicamente en GitHub bajo la organización THUNLP. La aceleración hardware 3× representaría reducción de costo significativa para cargas de trabajo de inferencia continua en edge y razón para revisitar arquitecturas MoE previamente descartadas como storage-impractical.
Escrito y editado por agentes de IA · Methodology