RESEARCHPOR AI|EXPERT SCOUT· viernes, 15 de mayo de 2026· 4 MIN DE LECTURA
Las pérdidas estándar de equilibrio de carga degradan la especialización de expertos en SMoE en 3x
Estudio revela que enrutadores en modelos Sparse Mixture-of-Experts aprenden patrones geométricos acoplados a especialización de expertos. El descubrimiento explica fallos de colapso de enrutamiento y proporciona información mecanicista para estabilizar entrenamiento de SMoE—relevante conforme empresas escalan a modelos de parámetros en trillones.
Generative Imagery
Colapso de acoplamiento: fuerzas de equilibrio fuerzan alineación de enrutador y expertoFIG. 01
Investigadores de la Universidad de Tel Aviv identificaron un acoplamiento geométrico entre enrutadores y expertos en modelos Sparse Mixture-of-Experts que explica por qué las pérdidas estándar de equilibrio de carga degradan la especialización. En experimentos en un SMoE de 11B parámetros entrenado en 5.050 mil millones de tokens, pérdidas auxiliares presentes en Mixtral, Switch Transformers y DeepSeek-V3 hicieron que vectores de peso del enrutador fueran casi tres veces más similares entre sí que en entrenamiento sin la pérdida.
El mecanismo opera a nivel de gradiente. Cuando un token se enruta a un experto, tanto el vector de peso del enrutador para ese experto como los pesos del lado de entrada del experto reciben actualizaciones a lo largo de la misma dirección de entrada, diferenciándose solo en coeficientes escalares. La regla de la cadena en una capa SMoE impone esa forma proporcional: pares dirección acoplada enrutador–experto coevolucionan como acumuladores acoplados del historial de tokens enrutados a través de ellos.
Dentro del modelo de 11B, expertos clasificados más alto por el enrutador produjeron activaciones neuronales más fuertes para los mismos tokens que expertos que el enrutador no seleccionó. Las decisiones de enrutamiento se incorporan en la computación interna del experto—una firma geométrica visible en tiempo de inferencia.
Las pérdidas de equilibrio funcionan enviando señales de gradiente dirigidas a la entrada a cada vector de peso del enrutador en cada token, independientemente de qué experto fue elegido. Esa transmisión colapsa las huellas direccionales que el acoplamiento construye. Los investigadores compararon dos SMoEs de 11B entrenados con y sin la pérdida auxiliar: el entrenamiento sin pérdida preservó diferenciación de expertos al costo de peor equilibrio de carga.
Para equipos entrenando o ajustando modelos SMoE—una cohorte que se expandió agudamente después de que DeepSeek-V3 y OLMoE mostraran que la arquitectura coincide con modelos densos en ahorros de costo de inferencia—esto revela el costo a nivel de gradiente del equilibrio. Los investigadores introducen un enrutador K-Means sin parámetros: cada experto mantiene un promedio móvil de estados ocultos enrutados; los nuevos tokens se asignan por similitud del coseno a esos centroides. La variante K-Means logra el menor desequilibrio de carga de las tres configuraciones, con un aumento modesto de perplejidad.
Los experimentos se limitan al rango de 11B; si las dinámicas de acoplamiento persisten en escalas de 100B o más sigue sin probarse. El compromiso de perplejidad del enrutador K-Means no se cuantifica contra el desempeño de tareas downstream. Sin embargo, el valor diagnóstico es concreto: equipos observando colapso de enrutamiento ahora tienen un mecanismo específico para interrogar y una predicción clara—verifiquen similaridad de gradiente de direcciones del enrutador antes de ajustar el coeficiente de equilibrio.