Meta Reduce el Modelo Mixture-of-Experts a Smartphones Sin Redundancia en la Nube

Los investigadores de Meta AI han publicado un artículo sobre modelos Mixture-of-Experts (MoE) de sub-mil millones de parámetros, MobileMoE, que afirman pueden cerrar la brecha entre la esparsidad a escala de nube e inferencia en dispositivos. La variante más pequeña, MobileMoE-S, activa solo 0.3 mil millones de parámetros mientras mantiene una capacidad total de 1.3 mil millones y un pie de imprenta INT4 de menos de 3 GB. Los modelos están diseñados en tres escalas—S, M y L—para caber dentro de la DRAM de smartphones modernos como el iPhone 17 y Samsung Galaxy S25 Ultra sin red de despacho de datos.

La arquitectura está afinada para las restricciones móviles en lugar de granjas de servidores. Mientras que los modelos de MoE en la nube buscan cientos de miles de millones de parámetros, el artículo identifica un punto óptimo que combina una esparsidad moderada, expertos de granularidad fina y capas de expertos compartidas que es tanto óptima en memoria como en cómputo. Esto desafía la sabiduría convencional de que MoE solo se ve compensado a escala masiva. Las variantes escalan a 0.5 mil millones de activos / 2.8 mil millones totales para MobileMoE-M y 0.9 mil millones activos / 5.3 mil millones totales para MobileMoE-L, con especialización de expertos emergente en dominios de conocimiento, código y matemáticas dentro del mismo pie de impresora unificada.

Todos los modelos se entrenan a través de una tubería de cuatro etapas: pre-entrenamiento, entrenamiento medio, ajuste fino de instrucciones y entrenamiento consciente de cuantización de 4 bits, utilizando solo datos de código abierto. El pre-entrenamiento consume aproximadamente 6 billones de tokens, menos que los 9 billones utilizados para Llama 3.2 1B o los 11 billones para SmolLM2 1.7B, sin embargo, el artículo informa de que coinciden o superan esas bases densas en 14 benchmarks que cubren el sentido común, ciencia y razonamiento. La etapa de QAT de 4 bits es esencial para lograr el objetivo de DRAM móvil de menos de 3 GB.

Operativamente, MobileMoE supera tanto a las bases densas como dispersas. A una memoria INT4 comparable, MobileMoE-S logra velocidades de prefill 1.8 a 3.8 veces más rápidas y velocidades de descodificación 2.2 a 3.4 veces más rápidas que el denso MobileLLM-Pro en smartphones de comercio. MobileMoE-M coincide con la precisión con aproximadamente el 60 por ciento menos de parámetros activos y totales que OLMoE-1B-7B, mientras que MobileMoE-L supera la precisión de OLMoE con 30 por ciento menos de parámetros activos y un pie de imprenta de memoria 23 por ciento más pequeño. Estos avances se presentan en un contexto en el que la DRAM de teléfonos insignia ha aumentado de 4-8 GB hace pocas generaciones a 12-16 GB hoy en día.

Sin embargo, esta es una publicación de investigación sin prueba de despliegue de producción aún. Los aceleradores provienen de un perfilamiento controlado en el dispositivo, no de cargas de trabajo de usuario sostenidas sujetas a limitación térmica, contención de procesos en segundo plano o programación consciente de la batería. Entrenar 6 billones de tokens para modelos con menos de mil millones de parámetros activos representa una alta relación de datos a parámetros, lo que implica un costo inicial alto. La dependencia en QAT de 4 bits significa que los equipos no pueden cuantizar simplesmente puntos de control FP16 existentes como un afterthought. El artículo también omite la latencia por solicitud en milisegundos, la economía de dólar por inferencia y la lógica de enrutamiento a nivel de núcleo específica necesaria para ejecutar cargas de expertos condicionales eficientemente en móviles NPUs y GPUs—lagunas que cualquier equipo de plataforma tendría que abordar antes de sustituir un modelo denso en el dispositivo.

Los hallazgos del artículo sugieren que los beneficios de eficiencia de MoE pueden mantenerse por debajo de mil millones de parámetros activos cuando la esparsidad está co-diseñada con cuantización agresiva y un techo de memoria móvil fijo, en lugar de extrapolarse hacia abajo desde recetas de nube de cien mil millones de parámetros.

Sources

MobileMoE-S activates 0.3B parameters with 1.3B total and <3 GB INT4 weight footprint
"sub-billion active parameters (0.3-0.9B active and 1.3-5.3B total) that establish a new Pareto frontier for on-device LLMs"
arxiv.org ↗
Model family spans three sizes: S (0.3B/1.3B), M (0.5B/2.8B), L (0.9B/5.3B)
"0.3B/0.5B/0.9B active parameters (1.3B/2.8B/5.3B total) with <3 GB INT4 weight footprints to fit in mobile DRAM"
arxiv.org ↗
On-device scaling law identifies sweet spot of moderate sparsity with fine-grained and shared experts as simultaneously memory and compute optimal
"identifying an on-device sweet spot - moderate sparsity with fine-grained and shared experts - that is simultaneously memory and compute-optimal"
arxiv.org ↗
Four-stage training pipeline: pre-training, mid-training, instruction fine-tuning, and 4-bit quantization-aware training
"four-stage recipe covering pre-training, mid-training, instruction fine-tuning, and quantization-aware training, all on open-source datasets"
arxiv.org ↗
MobileMoE pre-trains on ~6 trillion tokens, vs 9T for Llama 3.2 1B and 11T for SmolLM2 1.7B
"With only ~6T pre-training tokens, MobileMoE matches or surpasses dense baselines trained on 1.5-2× more tokens (e.g., 9T for Llama 3.2 1B, 11T for SmolLM2 1.7B)"
arxiv.org ↗
MobileMoE-S/M match or exceed dense on-device LLMs with 2-4× fewer inference FLOPs across 14 benchmarks
"MobileMoE matches or exceeds leading on-device dense LLMs with 2-4× fewer inference FLOPs"
arxiv.org ↗
MobileMoE-M matches OLMoE-1B-7B accuracy with ~60% fewer active and total parameters
"MobileMoE-M matches its accuracy with ~60% fewer active and total parameters"
arxiv.org ↗
MobileMoE-L exceeds OLMoE accuracy with 30% fewer active parameters and 23% smaller memory footprint
"MobileMoE-L achieves much higher accuracy with 30% fewer active parameters and 23% smaller model memory footprint"
arxiv.org ↗
MobileMoE-S delivers 1.8-3.8× faster prefill and 2.2-3.4× faster decode than dense baseline MobileLLM-Pro at comparable INT4 weight memory
"MobileMoE-S delivers 1.8-3.8× faster prefill and 2.2-3.4× faster decode than the dense baseline MobileLLM-Pro"
arxiv.org ↗
iPhone DRAM grew from 4 GB (iPhone 13) to 12 GB (iPhone 17); Samsung S25 has 12–16 GB
"from 4 GB on iPhone 13 to 12 GB on iPhone 17, from 8 GB on Samsung Galaxy S21 to 12 GB, 16 GB on S25 and S25 Ultra"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Meta Reduce el Modelo Mixture-of-Experts a Smartphones Sin Redundancia en la Nube

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.