UniPool reduce el presupuesto de parámetros MoE entre 34 y 58 por ciento

Un paper de Arxiv propone un pool de expertos unificado para modelos mixture-of-experts, rompiendo la convención de asignación por capa y reduciendo la sobrecarga de parámetros de expertos. Permite escalamiento más eficiente de modelos grandes sin acoplamiento rígido al crecimiento de profundidad.

Un equipo de ocho investigadores ha publicado UniPool, una arquitectura MoE que reemplaza silos de expertos por capa con un único pool de expertos compartido globalmente. El resultado clave: variantes UniPool de pool reducido coinciden o superan modelos MoE full layer-wise mientras utilizan solo 41,6–66,7% del presupuesto de parámetros de expertos vanilla.

El problema central que UniPool aborda es una suposición incorporada en cada diseño MoE importante: cada capa transformer necesita su propio conjunto aislado de expertos. Ese acoplamiento fuerza el conteo de parámetros de expertos a escalar linealmente con la profundidad. Para probar si la suposición se sostiene, los autores reemplazaron enrutadores top-k entrenados en capas más profundas con enrutamiento aleatorio uniforme y midieron la precisión en modelos MoE de producción. La caída fue solo 1,0–1,6 puntos en múltiples modelos, confirmando que la asignación de expertos en capas más profundas es en gran medida redundante.

La implementación de UniPool reemplaza la propiedad de expertos por capa con un único pool consultado por enrutadores independientes por capa. Dos mecanismos acompañan el diseño: una pérdida auxiliar a nivel de pool que equilibra la utilización en todo el pool en lugar de dentro de capas individuales, y NormRouter, que proporciona señales de enrutamiento dispersas y estables en escala al pool compartido. La pérdida auxiliar evita que expertos individuales monopolicen el tráfico conforme el pool es consultado desde cada profundidad.

El equipo validó UniPool en cinco escalas de arquitectura LLaMA—182M, 469M, 650M, 830M y 978M parámetros—cada una entrenada en 30 mil millones de tokens del Pile. UniPool mejora la pérdida de validación y la perplejidad sobre baselines MoE vanilla correspondientes en cada escala. La reducción máxima de pérdida de validación en relación al MoE vanilla es 0,0386, lograda en la escala más grande probada.

Para equipos de infraestructura de IA empresarial, las implicaciones se centran principalmente en la capa de model-serving. Las arquitecturas MoE atraen adopción porque los conteos de parámetros activados son bajos en relación al tamaño total del modelo, pero el conteo total de parámetros aún impulsa la huella de memoria y el tamaño del checkpoint. Una ley de crecimiento de expertos sublineal reduce ambos. El hallazgo también afecta la economía del fine-tuning: actualizar un pool compartido en lugar de conjuntos de expertos por capa reduce el número de matrices de peso distintas que deben ser checkpointadas o adaptadas mediante métodos estilo LoRA.

Preguntas abiertas permanecen sobre la estabilidad del enrutamiento de producción en escalas más allá de 1B parámetros, y la evaluación basada en Pile del paper antecede convenciones recientes de domain-mix. Si la estabilidad de escala de NormRouter se sostiene bajo distribuciones de tokens de contexto largo o multimodales no está probado. Los autores señalan que los beneficios de UniPool se combinan con técnicas de descomposición de expertos más finas, dejando espacio para diseños híbridos.

El resultado de redundancia de enrutamiento por sí solo—menos de 1,6 puntos perdidos por enrutamiento aleatorio en profundidad—da a los diseñadores de MoE una excusa fundamentada en principios para dejar de pagar la tarifa de expertos por capa.

Sources

Replacing a deeper layer's learned top-k router with uniform random routing drops downstream accuracy by only 1.0–1.6 points across multiple production MoE models
"replacing a deeper layer's learned top-k router with uniform random routing drops downstream accuracy by only 1.0-1.6 points across multiple production MoE models"
arxiv.org ↗
UniPool tested across five LLaMA-architecture model scales: 182M, 469M, 650M, 830M, and 978M parameters, each trained on 30B tokens from the Pile
"Across five LLaMA-architecture model scales (182M, 469M, 650M, 830M, and 978M parameters) trained on 30B tokens from the Pile"
arxiv.org ↗
UniPool reduces validation loss by up to 0.0386 relative to vanilla MoE
"UniPool reduces validation loss by up to 0.0386 relative to vanilla MoE"
arxiv.org ↗
Reduced-pool UniPool variants use only 41.6%–66.7% of the vanilla expert-parameter budget and match or outperform layer-wise MoE
"reduced-pool UniPool variants using only 41.6%-66.7% of the vanilla expert-parameter budget match or outperform layer-wise MoE at the tested scales"
arxiv.org ↗
UniPool uses a pool-level auxiliary loss and NormRouter for stable, balanced training under shared expert access
"we introduce a pool-level auxiliary loss that balances expert utilization across the entire pool, and adopt NormRouter to provide sparse and scale-stable routing into the shared expert pool"
arxiv.org ↗
UniPool treats expert capacity as a global architectural budget, replacing per-layer expert ownership with a single shared pool accessed by independent per-layer routers
"replacing per-layer expert ownership with a single shared pool accessed by independent per-layer routers"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

UniPool reduce el presupuesto de parámetros MoE entre 34 y 58 por ciento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.