Complete-muE Permite que los Equipos Transfieran Hiperparámetros Densos a MoE

Adobe Research publicó Complete-muE esta semana, un framework que transporta hiperparámetros de modelos densos directamente a cualquier configuración de Mixture-of-Experts. Esto resuelve el problema de acoplamiento que ha forzado a los equipos a reajustar hiperparámetros en cada cambio de conteo de expertos desde que Switch Transformer y DeepSeek-V3 hicieron MoE mainstream.

El problema central: las herramientas existentes manejan solo la mitad de la transferencia. Maximal Update Parametrization (muP) maneja cambios de arquitectura — ancho, profundidad, tamaño de lote — pero asume un conteo de tokens fijo por paso por experto. Eso falla cuando pasas de FFN denso a MoE, donde el enrutamiento cambia cuántos tokens ve cada experto por iteración. Las reglas de Stochastic Differential Equation (SDE) manejan cambios de conteo de tokens para una arquitectura fija pero no pueden cruzar el límite denso-a-sparse. Cada transición denso-a-sparse y reescala de experto cambia simultáneamente tanto la arquitectura como la carga de trabajo por experto. Los equipos han estado absorbiendo esto como reajuste manual en cada nueva configuración de experto.

Complete-muE lo resuelve con una composición de dos puentes. El Puente I mapea FFN denso a Dense MoE usando muP de ancho activo más una escala de enrutador normalizada establecida al número de expertos activados (r_a = a). El Puente II luego mapea Dense MoE a sparse MoE a través de una regla de escala de experto activado, donde las correcciones de tasa de aprendizaje SDE de primer orden y decaimiento de peso se cancelan, dejando solo un desplazamiento sigma_0 residual acotado. Los autores reconocen explícitamente este desplazamiento: el comportamiento es consistente con SDE no-estricto pero produce deriva menor de hiperparámetros en la práctica. Los dos puentes juntos producen reglas de transferencia para expertos activados, capacidad total, granularidad, expertos compartidos e híbridos de enrutamiento equilibrado por grupo, más cambios estándar de ancho, profundidad, tamaño de lote y duración para Transformers generales.

La receta práctica es directa: ajusta denso una vez, transfiere a todos. Adobe validó esto a escala. Ejecuciones a gran escala con Complete-muE lograron aceleración de convergencia de 4,5x para un modelo de difusión de video 240P de 5 segundos y aceleraciones de convergencia de 5,3x–5,5x para LLMs en 100.000 iteraciones de entrenamiento. El barrido multimodal cubrió modelos de imagen 256P y 512P, modelos de fotogramas clave 240P y modelos de lenguaje — todos desde los mismos hiperparámetros de referencia densos. Un benchmark separado encontró que el escalado de capacidad bajo granularidad moderada entrega más ganancias que forzar la granularidad.

No se reportan latencia de inferencia, costo por token o números de tráfico de producción. Este es un resultado de investigación de preentrenamiento de Adobe Research; el framework se orienta al costo de barrido de tiempo de entrenamiento, no a la pila de servicio. Los equipos deben notar que la deriva residual del Puente II es acotada pero real — descrita como consistente con comportamiento SDE no-estricto pero aún no cuantificada en cada variante de enrutamiento. El framework cubre enrutamiento compartido y equilibrado por grupo estilo DeepSeek, pero las implementaciones de enrutamiento de producción varían lo suficiente para que los equipos ejecuten un único barrido de verificación antes de comprometer una ejecución de preentrenamiento completa en hiperparámetros transferidos.

Las preguntas abiertas que vale la pena rastrear: qué tan sensible es el residual sigma_0 al desequilibrio de enrutamiento en la práctica, si la transferencia se mantiene al pasar de calibración denso pequeña a conteos de expertos a escala de frontera, y si existe una ruta de integración limpia en herramientas muP existentes como Cerebras complete-P o Apple's complete-dmuP, ambas citadas como esfuerzos relacionados.

Si tu equipo ejecuta barridos de preentrenamiento MoE y paga por reajuste de hiperparámetros en cada cambio de conteo de expertos, la receta "ajusta denso una vez" de Complete-muE es el patrón a robar — pero ejecuta un único barrido de verificación en una configuración MoE reservada antes de confiar en la transferencia a escala.

Sources

Complete-muE proposes a two-bridge system: Bridge I maps dense FFN to Dense MoE via active-width muP and normalized router scale; Bridge II maps Dense MoE to sparse MoE via activated-expert scaling
"Complete-muE solves this challenge with a two-bridge system: Bridge I maps between dense FFN and Dense MoE by active-width μP with a normalized router scale. Bridge II maps between Dense MoE and sparse MoE by activated-expert scaling, where the first-order SDE LR/WD correction cancels while a bounded residual σ0 shift remains."
arxiv.org ↗
muP requires fixed architecture and cannot handle per-expert token batch size changes; SDE rules require fixed per-step token count and cannot handle architecture changes
"Existing tools such as μP (requires fixed architectue) or SDE (requires fixed per-step token count) cannot directly solve the hyperparameter transfer problem in MoE setups because Dense to MoE transfer or MoE total experts scaling changes both architecture and tokens per expert."
arxiv.org ↗
Complete-muE achieved 4.5x convergence speedup for 240P 5-second video diffusion model and 5.3x–5.5x LLM convergence speedups at 100k training iterations
"Our large scale MoE runs with Complete-muE enabled reach roughly 4.5× speedup for 240P 5s video diffusion model and 5.3×–5.5× LLM convergence speedups with 100k training iterations."
arxiv.org ↗
The practical recipe is tune dense once, transfer to all MoE configurations — hyperparameters from a single dense reference transfer near-optimally
"tune dense once, transfer to all is the practical recipe at the core of Complete-muE. This enables MoE models to achieve accelerated convergence speedup over dense models when scaling model capacity without costly hyperparameter search."
arxiv.org ↗
Multimodal validation covered 256P and 512P image models, 240P key-frame models, 240P 5s video models, and LM from the same dense reference hyperparameters
"Both controlled small-scale axis sweeps and large-scale multimodal/LM runs directly verify this recipe: a single dense calibration delivers consistent MoE gains across MoE axes and across modalities (256P/512P images, 240P key frames, 240P 5s videos, LM)."
arxiv.org ↗
Capacity scaling under moderate granularity scaling is more beneficial than pushing granularity hard
"We also benchmark MoE granularity vs capacity to show the real scaling trade-offs, and observe that capacity scaling under moderate granularity scaling is more beneficial."
arxiv.org ↗
Bridge II's residual drift is explicitly described as non-strict SDE behavior — minor but present
"complete-muE yields relatively stable hyperparameter optima across all MoE setups, with mild drift consistent with the non-strict SDE behavior of Bridge II."
arxiv.org ↗
Complete-muE covers activated experts, total capacity, granularity, shared experts, group-balanced routing, and standard width/depth/batch/duration changes
"The resulting transfer rule, which we term as Complete muE, covers changes in activated experts, total capacity, granularity, and shared/group-balanced hybrids for MoE models as well as network width/depth, batch size, and duration changes for general Transformer models."
arxiv.org ↗
Authors are from Adobe Research
"Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang Adobe Research {hongwup, dibua, yxiong, yifang, jianmzha, yankang}@adobe.com"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Complete-muE Permite que los Equipos Transfieran Hiperparámetros Densos a MoE

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.