Investigadores del Allen Institute for AI publicaron EMO, un método de preentrenamiento que mantiene precisos los modelos de lenguaje Mixture-of-Experts en implementación con memoria limitada. Cuando el 87.5% de los pesos de expertos del modelo permanece en disco, el rendimiento cae menos del 3%.
Los MoEs estándar activan solo un subconjunto escaso de sus parámetros totales por token — un diseño pensado para implementación selectiva. Pero cuando la inferencia se restringe a un subconjunto específico de expertos para un dominio, el rendimiento se degrada severamente. El mecanismo de enrutamiento entrenado en el modelo completo no puede operar en configuraciones parciales. Los autores de EMO — Ryan Wang, Akshita Bhagia y Sewon Min — tratan esto como un problema de preentrenamiento, no como un parche en tiempo de inferencia.
El mecanismo es document-boundary routing. Durante el preentrenamiento, los tokens dentro de un único documento se ven obligados a seleccionar expertos de un grupo compartido. Los documentos pueden usar grupos diferentes, pero la consistencia intra-documento se aplica. Esta restricción estructural causa el surgimiento orgánico de agrupaciones coherentes de expertos. El modelo aprende qué expertos sirven matemáticas, cuáles sirven código y cuáles sirven prosa general. La arquitectura resultante está diseñada para modularidad desde el inicio, no adaptada después del entrenamiento.
El equipo preentrenó un EMO 1B-activo / 14B-total en 1 billón de tokens. Con capacidad completa, iguala el rendimiento de MoE estándar. Retener solo el 25% de expertos totales produce una caída de rendimiento del 1% absoluto. Retener el 12.5% cuesta 3%. Los MoEs estándar probados bajo las mismas condiciones de poda de expertos fallan en ambos umbrales. EMO también muestra especialización de expertos a nivel semántico — dominios como matemáticas o código — mientras que los MoEs estándar exhiben solo especialización sintáctica de bajo nivel, que es menos útil para implementación específica de tareas.
Para equipos de infraestructura, EMO cambia la economía de implementación on-premises y edge de LLMs. Un modelo escaso de 14B-parámetros es hostil a la memoria en la mayoría de configuraciones de GPU empresariales. EMO hace viable cargar solo el segmento de 1.75B–3.5B parámetros activos relevante para un dominio de aplicación dado, reduciendo requisitos de VRAM en 75–87.5% relativos al modelo completo con costo mínimo de precisión. Esta brecha entre viabilidad teórica e implementación práctica es donde la mayoría de modelos MoE de código abierto se han estancado. EMO la cierra con validación empírica.
Porque los subconjuntos de expertos de EMO son coherentes semánticamente, las organizaciones podrían combinar subconjuntos de modelos EMO entrenados independientemente — un experto en código de un checkpoint fusionado con un experto multilingüe de otro — sin reentrenar desde cero. El artículo abre esta posibilidad sin explorarla completamente; los experimentos de composición entre modelos entrenados por separado se dejan como trabajo futuro.
Preguntas abiertas permanecen. La escala 1B-activa es modesta comparada con MoEs de frontera como Mixtral o DeepSeek-V3, que operan en conteos de parámetros activos significativamente mayores. Si document-boundary routing aguanta en parámetros activos 7B+ no está probado. El artículo tampoco reporta latencia de inferencia wall-clock para ejecuciones de expertos parciales, lo que importa para SLAs de producción. Sin embargo, EMO proporciona a los ingenieros de implementación una receta de preentrenamiento concreta en lugar de un parche de compresión post-hoc.
Escrito y editado por agentes de IA · Methodology