Los investigadores de Meta AI han publicado un artículo sobre modelos Mixture-of-Experts (MoE) de sub-mil millones de parámetros, MobileMoE, que afirman pueden cerrar la brecha entre la esparsidad a escala de nube e inferencia en dispositivos. La variante más pequeña, MobileMoE-S, activa solo 0.3 mil millones de parámetros mientras mantiene una capacidad total de 1.3 mil millones y un pie de imprenta INT4 de menos de 3 GB. Los modelos están diseñados en tres escalas—S, M y L—para caber dentro de la DRAM de smartphones modernos como el iPhone 17 y Samsung Galaxy S25 Ultra sin red de despacho de datos.
La arquitectura está afinada para las restricciones móviles en lugar de granjas de servidores. Mientras que los modelos de MoE en la nube buscan cientos de miles de millones de parámetros, el artículo identifica un punto óptimo que combina una esparsidad moderada, expertos de granularidad fina y capas de expertos compartidas que es tanto óptima en memoria como en cómputo. Esto desafía la sabiduría convencional de que MoE solo se ve compensado a escala masiva. Las variantes escalan a 0.5 mil millones de activos / 2.8 mil millones totales para MobileMoE-M y 0.9 mil millones activos / 5.3 mil millones totales para MobileMoE-L, con especialización de expertos emergente en dominios de conocimiento, código y matemáticas dentro del mismo pie de impresora unificada.
Todos los modelos se entrenan a través de una tubería de cuatro etapas: pre-entrenamiento, entrenamiento medio, ajuste fino de instrucciones y entrenamiento consciente de cuantización de 4 bits, utilizando solo datos de código abierto. El pre-entrenamiento consume aproximadamente 6 billones de tokens, menos que los 9 billones utilizados para Llama 3.2 1B o los 11 billones para SmolLM2 1.7B, sin embargo, el artículo informa de que coinciden o superan esas bases densas en 14 benchmarks que cubren el sentido común, ciencia y razonamiento. La etapa de QAT de 4 bits es esencial para lograr el objetivo de DRAM móvil de menos de 3 GB.
Operativamente, MobileMoE supera tanto a las bases densas como dispersas. A una memoria INT4 comparable, MobileMoE-S logra velocidades de prefill 1.8 a 3.8 veces más rápidas y velocidades de descodificación 2.2 a 3.4 veces más rápidas que el denso MobileLLM-Pro en smartphones de comercio. MobileMoE-M coincide con la precisión con aproximadamente el 60 por ciento menos de parámetros activos y totales que OLMoE-1B-7B, mientras que MobileMoE-L supera la precisión de OLMoE con 30 por ciento menos de parámetros activos y un pie de imprenta de memoria 23 por ciento más pequeño. Estos avances se presentan en un contexto en el que la DRAM de teléfonos insignia ha aumentado de 4-8 GB hace pocas generaciones a 12-16 GB hoy en día.
Sin embargo, esta es una publicación de investigación sin prueba de despliegue de producción aún. Los aceleradores provienen de un perfilamiento controlado en el dispositivo, no de cargas de trabajo de usuario sostenidas sujetas a limitación térmica, contención de procesos en segundo plano o programación consciente de la batería. Entrenar 6 billones de tokens para modelos con menos de mil millones de parámetros activos representa una alta relación de datos a parámetros, lo que implica un costo inicial alto. La dependencia en QAT de 4 bits significa que los equipos no pueden cuantizar simplesmente puntos de control FP16 existentes como un afterthought. El artículo también omite la latencia por solicitud en milisegundos, la economía de dólar por inferencia y la lógica de enrutamiento a nivel de núcleo específica necesaria para ejecutar cargas de expertos condicionales eficientemente en móviles NPUs y GPUs—lagunas que cualquier equipo de plataforma tendría que abordar antes de sustituir un modelo denso en el dispositivo.
Los hallazgos del artículo sugieren que los beneficios de eficiencia de MoE pueden mantenerse por debajo de mil millones de parámetros activos cuando la esparsidad está co-diseñada con cuantización agresiva y un techo de memoria móvil fijo, en lugar de extrapolarse hacia abajo desde recetas de nube de cien mil millones de parámetros.
Escrito y editado por agentes de IA · Methodology