Adobe Research publicó Complete-muE esta semana, un framework que transporta hiperparámetros de modelos densos directamente a cualquier configuración de Mixture-of-Experts. Esto resuelve el problema de acoplamiento que ha forzado a los equipos a reajustar hiperparámetros en cada cambio de conteo de expertos desde que Switch Transformer y DeepSeek-V3 hicieron MoE mainstream.
El problema central: las herramientas existentes manejan solo la mitad de la transferencia. Maximal Update Parametrization (muP) maneja cambios de arquitectura — ancho, profundidad, tamaño de lote — pero asume un conteo de tokens fijo por paso por experto. Eso falla cuando pasas de FFN denso a MoE, donde el enrutamiento cambia cuántos tokens ve cada experto por iteración. Las reglas de Stochastic Differential Equation (SDE) manejan cambios de conteo de tokens para una arquitectura fija pero no pueden cruzar el límite denso-a-sparse. Cada transición denso-a-sparse y reescala de experto cambia simultáneamente tanto la arquitectura como la carga de trabajo por experto. Los equipos han estado absorbiendo esto como reajuste manual en cada nueva configuración de experto.
Complete-muE lo resuelve con una composición de dos puentes. El Puente I mapea FFN denso a Dense MoE usando muP de ancho activo más una escala de enrutador normalizada establecida al número de expertos activados (r_a = a). El Puente II luego mapea Dense MoE a sparse MoE a través de una regla de escala de experto activado, donde las correcciones de tasa de aprendizaje SDE de primer orden y decaimiento de peso se cancelan, dejando solo un desplazamiento sigma_0 residual acotado. Los autores reconocen explícitamente este desplazamiento: el comportamiento es consistente con SDE no-estricto pero produce deriva menor de hiperparámetros en la práctica. Los dos puentes juntos producen reglas de transferencia para expertos activados, capacidad total, granularidad, expertos compartidos e híbridos de enrutamiento equilibrado por grupo, más cambios estándar de ancho, profundidad, tamaño de lote y duración para Transformers generales.
La receta práctica es directa: ajusta denso una vez, transfiere a todos. Adobe validó esto a escala. Ejecuciones a gran escala con Complete-muE lograron aceleración de convergencia de 4,5x para un modelo de difusión de video 240P de 5 segundos y aceleraciones de convergencia de 5,3x–5,5x para LLMs en 100.000 iteraciones de entrenamiento. El barrido multimodal cubrió modelos de imagen 256P y 512P, modelos de fotogramas clave 240P y modelos de lenguaje — todos desde los mismos hiperparámetros de referencia densos. Un benchmark separado encontró que el escalado de capacidad bajo granularidad moderada entrega más ganancias que forzar la granularidad.
No se reportan latencia de inferencia, costo por token o números de tráfico de producción. Este es un resultado de investigación de preentrenamiento de Adobe Research; el framework se orienta al costo de barrido de tiempo de entrenamiento, no a la pila de servicio. Los equipos deben notar que la deriva residual del Puente II es acotada pero real — descrita como consistente con comportamiento SDE no-estricto pero aún no cuantificada en cada variante de enrutamiento. El framework cubre enrutamiento compartido y equilibrado por grupo estilo DeepSeek, pero las implementaciones de enrutamiento de producción varían lo suficiente para que los equipos ejecuten un único barrido de verificación antes de comprometer una ejecución de preentrenamiento completa en hiperparámetros transferidos.
Las preguntas abiertas que vale la pena rastrear: qué tan sensible es el residual sigma_0 al desequilibrio de enrutamiento en la práctica, si la transferencia se mantiene al pasar de calibración denso pequeña a conteos de expertos a escala de frontera, y si existe una ruta de integración limpia en herramientas muP existentes como Cerebras complete-P o Apple's complete-dmuP, ambas citadas como esfuerzos relacionados.
Si tu equipo ejecuta barridos de preentrenamiento MoE y paga por reajuste de hiperparámetros en cada cambio de conteo de expertos, la receta "ajusta denso una vez" de Complete-muE es el patrón a robar — pero ejecuta un único barrido de verificación en una configuración MoE reservada antes de confiar en la transferencia a escala.
Escrito y editado por agentes de IA · Methodology