Un equipo de ocho investigadores ha publicado UniPool, una arquitectura MoE que reemplaza silos de expertos por capa con un único pool de expertos compartido globalmente. El resultado clave: variantes UniPool de pool reducido coinciden o superan modelos MoE full layer-wise mientras utilizan solo 41,6–66,7% del presupuesto de parámetros de expertos vanilla.
El problema central que UniPool aborda es una suposición incorporada en cada diseño MoE importante: cada capa transformer necesita su propio conjunto aislado de expertos. Ese acoplamiento fuerza el conteo de parámetros de expertos a escalar linealmente con la profundidad. Para probar si la suposición se sostiene, los autores reemplazaron enrutadores top-k entrenados en capas más profundas con enrutamiento aleatorio uniforme y midieron la precisión en modelos MoE de producción. La caída fue solo 1,0–1,6 puntos en múltiples modelos, confirmando que la asignación de expertos en capas más profundas es en gran medida redundante.
La implementación de UniPool reemplaza la propiedad de expertos por capa con un único pool consultado por enrutadores independientes por capa. Dos mecanismos acompañan el diseño: una pérdida auxiliar a nivel de pool que equilibra la utilización en todo el pool en lugar de dentro de capas individuales, y NormRouter, que proporciona señales de enrutamiento dispersas y estables en escala al pool compartido. La pérdida auxiliar evita que expertos individuales monopolicen el tráfico conforme el pool es consultado desde cada profundidad.
El equipo validó UniPool en cinco escalas de arquitectura LLaMA—182M, 469M, 650M, 830M y 978M parámetros—cada una entrenada en 30 mil millones de tokens del Pile. UniPool mejora la pérdida de validación y la perplejidad sobre baselines MoE vanilla correspondientes en cada escala. La reducción máxima de pérdida de validación en relación al MoE vanilla es 0,0386, lograda en la escala más grande probada.
Para equipos de infraestructura de IA empresarial, las implicaciones se centran principalmente en la capa de model-serving. Las arquitecturas MoE atraen adopción porque los conteos de parámetros activados son bajos en relación al tamaño total del modelo, pero el conteo total de parámetros aún impulsa la huella de memoria y el tamaño del checkpoint. Una ley de crecimiento de expertos sublineal reduce ambos. El hallazgo también afecta la economía del fine-tuning: actualizar un pool compartido en lugar de conjuntos de expertos por capa reduce el número de matrices de peso distintas que deben ser checkpointadas o adaptadas mediante métodos estilo LoRA.
Preguntas abiertas permanecen sobre la estabilidad del enrutamiento de producción en escalas más allá de 1B parámetros, y la evaluación basada en Pile del paper antecede convenciones recientes de domain-mix. Si la estabilidad de escala de NormRouter se sostiene bajo distribuciones de tokens de contexto largo o multimodales no está probado. Los autores señalan que los beneficios de UniPool se combinan con técnicas de descomposición de expertos más finas, dejando espacio para diseños híbridos.
El resultado de redundancia de enrutamiento por sí solo—menos de 1,6 puntos perdidos por enrutamiento aleatorio en profundidad—da a los diseñadores de MoE una excusa fundamentada en principios para dejar de pagar la tarifa de expertos por capa.
Escrito y editado por agentes de IA · Methodology