MoEs escasos mantienen precisión con poda del 87.5% de pesos

Investigadores introdujeron EMO, un método de preentrenamiento que hace que los modelos Mixture-of-Experts funcionen de manera eficiente cuando activas solo un subconjunto de expertos por tarea. Esto aborda directamente el desafío de implementación de LLMs de código abierto: cómo ejecutar modelos capaces en entornos con memoria limitada sin pérdida catastrófica de rendimiento.

Investigadores del Allen Institute for AI publicaron EMO, un método de preentrenamiento que mantiene precisos los modelos de lenguaje Mixture-of-Experts en implementación con memoria limitada. Cuando el 87.5% de los pesos de expertos del modelo permanece en disco, el rendimiento cae menos del 3%.

Los MoEs estándar activan solo un subconjunto escaso de sus parámetros totales por token — un diseño pensado para implementación selectiva. Pero cuando la inferencia se restringe a un subconjunto específico de expertos para un dominio, el rendimiento se degrada severamente. El mecanismo de enrutamiento entrenado en el modelo completo no puede operar en configuraciones parciales. Los autores de EMO — Ryan Wang, Akshita Bhagia y Sewon Min — tratan esto como un problema de preentrenamiento, no como un parche en tiempo de inferencia.

El mecanismo es document-boundary routing. Durante el preentrenamiento, los tokens dentro de un único documento se ven obligados a seleccionar expertos de un grupo compartido. Los documentos pueden usar grupos diferentes, pero la consistencia intra-documento se aplica. Esta restricción estructural causa el surgimiento orgánico de agrupaciones coherentes de expertos. El modelo aprende qué expertos sirven matemáticas, cuáles sirven código y cuáles sirven prosa general. La arquitectura resultante está diseñada para modularidad desde el inicio, no adaptada después del entrenamiento.

El equipo preentrenó un EMO 1B-activo / 14B-total en 1 billón de tokens. Con capacidad completa, iguala el rendimiento de MoE estándar. Retener solo el 25% de expertos totales produce una caída de rendimiento del 1% absoluto. Retener el 12.5% cuesta 3%. Los MoEs estándar probados bajo las mismas condiciones de poda de expertos fallan en ambos umbrales. EMO también muestra especialización de expertos a nivel semántico — dominios como matemáticas o código — mientras que los MoEs estándar exhiben solo especialización sintáctica de bajo nivel, que es menos útil para implementación específica de tareas.

Para equipos de infraestructura, EMO cambia la economía de implementación on-premises y edge de LLMs. Un modelo escaso de 14B-parámetros es hostil a la memoria en la mayoría de configuraciones de GPU empresariales. EMO hace viable cargar solo el segmento de 1.75B–3.5B parámetros activos relevante para un dominio de aplicación dado, reduciendo requisitos de VRAM en 75–87.5% relativos al modelo completo con costo mínimo de precisión. Esta brecha entre viabilidad teórica e implementación práctica es donde la mayoría de modelos MoE de código abierto se han estancado. EMO la cierra con validación empírica.

Porque los subconjuntos de expertos de EMO son coherentes semánticamente, las organizaciones podrían combinar subconjuntos de modelos EMO entrenados independientemente — un experto en código de un checkpoint fusionado con un experto multilingüe de otro — sin reentrenar desde cero. El artículo abre esta posibilidad sin explorarla completamente; los experimentos de composición entre modelos entrenados por separado se dejan como trabajo futuro.

Preguntas abiertas permanecen. La escala 1B-activa es modesta comparada con MoEs de frontera como Mixtral o DeepSeek-V3, que operan en conteos de parámetros activos significativamente mayores. Si document-boundary routing aguanta en parámetros activos 7B+ no está probado. El artículo tampoco reporta latencia de inferencia wall-clock para ejecuciones de expertos parciales, lo que importa para SLAs de producción. Sin embargo, EMO proporciona a los ingenieros de implementación una receta de preentrenamiento concreta en lugar de un parche de compresión post-hoc.

Sources

EMO is a 1B-active, 14B-total parameter MoE pretrained on 1 trillion tokens
"We pretrain a 1B-active, 14B-total EMO on 1T tokens."
arxiv.org ↗
Retaining only 25% of experts incurs just a 1% absolute performance drop
"retaining only 25% (12.5%) of experts incurs just a 1% (3%) absolute drop"
arxiv.org ↗
Retaining 12.5% of experts incurs a 3% absolute performance drop
"retaining only 25% (12.5%) of experts incurs just a 1% (3%) absolute drop"
arxiv.org ↗
Standard MoEs break under the same expert-restriction conditions
"whereas standard MoEs break under the same setting"
arxiv.org ↗
EMO expert subsets specialize at semantic levels such as math and code, unlike standard MoEs which show syntactic specialization
"expert subsets in EMO specialize at semantic levels (e.g., domains such as math or code), in contrast to the low-level syntactic specialization observed in standard MoEs"
arxiv.org ↗
EMO uses document-boundary routing: tokens within a document select from a shared expert pool, while different documents can use different pools
"EMO restricts them to select experts from a shared pool, while allowing different documents to use different pools"
arxiv.org ↗
EMO at full capacity matches standard MoE performance
"As a full model, it matches standard MoE performance."
arxiv.org ↗
Authors of EMO are Ryan Wang, Akshita Bhagia, and Sewon Min
"Ryan Wang, Akshita Bhagia, Sewon Min"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

MoEs escasos mantienen precisión con poda del 87.5% de pesos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.