Meta Reduz Mixture-of-Experts para Smartphones Sem Offloading na Nuvem

Pesquisadores da Meta AI publicaram um artigo sobre modelos de Mixture-of-Experts (MoE) sub-bilionários, MobileMoE, que afirmam que podem preencher a lacuna entre a esparsidade em escala de nuvem e a inferência em dispositivos. A variante mais pequena, MobileMoE-S, ativa apenas 0,3 bilhões de parâmetros enquanto mantém uma capacidade total de 1,3 bilhões e um footprint de INT4 inferior a 3 GB. Os modelos são desenhados em três escalas—S, M, e L—para caber na DRAM de smartphones modernos, como o iPhone 17 e Samsung Galaxy S25 Ultra, sem offloading de datacenter.

A arquitetura é ajustada para restrições móveis em vez de fazendas de servidores. Enquanto modelos de nuvem MoE visam centenas de bilhões de parâmetros, o artigo identifica um ponto ideal que combina esparsidade moderada, especialistas de granularidade fina e camadas de especialistas compartilhadas, o que é tanto otimizado em memória quanto em computação. Isso desafia o senso comum de que MoE só rende em escala massiva. As variantes escalam para 0,5 bilhão ativos / 2,8 bilhões totais de parâmetros para MobileMoE-M e 0,9 bilhão ativos / 5,3 bilhões totais para MobileMoE-L, com especialização de especialistas emergindo em domínios de conhecimento, código e matemática dentro do mesmo footprint de peso unificado.

Todos os modelos são treinados por meio de um pipeline de quatro estágios—pré-treinamento, treinamento médio, ajuste fino de instrução e treinamento consciente de quantização de 4 bits—usando apenas dados de código aberto. O pré-treinamento consome aproximadamente 6 trilhões de tokens, menos do que os 9 trilhões usados para Llama 3.2 1B ou os 11 trilhões para SmolLM2 1.7B, no entanto, o artigo relata corresponder ou exceder essas linhas de base densas em 14 benchmarks que abrangem senso comum, ciência e raciocínio. A etapa de QAT de 4 bits é essencial para alcançar o alvo de DRAM móvel de sub-3 GB.

Operacionalmente, MobileMoE supera tanto as linhas de base densas quanto as esparsas. Com memória INT4 comparável, MobileMoE-S alcança velocidades de prefill 1,8 a 3,8 vezes mais rápidas e velocidades de decodificação 2,2 a 3,4 vezes mais rápidas do que o MobileLLM-Pro denso em smartphones de mercadoria. MobileMoE-M combina precisão com aproximadamente 60 por cento menos de parâmetros ativos e totais do que OLMoE-1B-7B, enquanto MobileMoE-L excede a precisão do OLMoE com 30 por cento a menos parâmetros ativos e um footprint de memória 23 por cento menor. Essas ganâncias são colocadas em um cenário em que a DRAM dos celulares de bandeira foi de 4-8 GB há algumas gerações para 12-16 GB hoje.

No entanto, esta é uma publicação de pesquisa sem evidência de implantação em produção ainda. As melhorias de velocidade vêm de profiling controlado em dispositivos, não de cargas de trabalho de usuário sustentadas sujeitas a limitação térmica, contenção de processos em segundo plano ou agendamento consciente de bateria. Treinar 6 trilhões de tokens para modelos com menos de um bilhão de parâmetros ativos representa uma alta razão de dados para parâmetros, implicando um alto custo inicial. A dependência de QAT de 4 bits significa que equipes não podem simplesmente quantizar pontos de verificação FP16 existentes como um afterthought. O artigo também omite a latência por solicitação em milissegundos, economia de dólar-por-inferência e a lógica de roteamento de nível de kernel específica necessária para executar carregamentos de especialistas condicionais eficientemente em NPUs e GPUs móveis—lacunas que qualquer equipe de plataforma precisaria abordar antes de substituir um modelo denso em dispositivo.

As descobertas do artigo sugerem que as ganâncias de eficiência do MoE podem ser mantidas abaixo de um bilhão de parâmetros ativos quando a esparsidade é co-desenhada com quantização agressiva e um teto de memória móvel fixo, em vez de extrapoladas para baixo a partir de receitas de nuvem de centenas de bilhões de parâmetros.

Sources

MobileMoE-S activates 0.3B parameters with 1.3B total and <3 GB INT4 weight footprint
"sub-billion active parameters (0.3-0.9B active and 1.3-5.3B total) that establish a new Pareto frontier for on-device LLMs"
arxiv.org ↗
Model family spans three sizes: S (0.3B/1.3B), M (0.5B/2.8B), L (0.9B/5.3B)
"0.3B/0.5B/0.9B active parameters (1.3B/2.8B/5.3B total) with <3 GB INT4 weight footprints to fit in mobile DRAM"
arxiv.org ↗
On-device scaling law identifies sweet spot of moderate sparsity with fine-grained and shared experts as simultaneously memory and compute optimal
"identifying an on-device sweet spot - moderate sparsity with fine-grained and shared experts - that is simultaneously memory and compute-optimal"
arxiv.org ↗
Four-stage training pipeline: pre-training, mid-training, instruction fine-tuning, and 4-bit quantization-aware training
"four-stage recipe covering pre-training, mid-training, instruction fine-tuning, and quantization-aware training, all on open-source datasets"
arxiv.org ↗
MobileMoE pre-trains on ~6 trillion tokens, vs 9T for Llama 3.2 1B and 11T for SmolLM2 1.7B
"With only ~6T pre-training tokens, MobileMoE matches or surpasses dense baselines trained on 1.5-2× more tokens (e.g., 9T for Llama 3.2 1B, 11T for SmolLM2 1.7B)"
arxiv.org ↗
MobileMoE-S/M match or exceed dense on-device LLMs with 2-4× fewer inference FLOPs across 14 benchmarks
"MobileMoE matches or exceeds leading on-device dense LLMs with 2-4× fewer inference FLOPs"
arxiv.org ↗
MobileMoE-M matches OLMoE-1B-7B accuracy with ~60% fewer active and total parameters
"MobileMoE-M matches its accuracy with ~60% fewer active and total parameters"
arxiv.org ↗
MobileMoE-L exceeds OLMoE accuracy with 30% fewer active parameters and 23% smaller memory footprint
"MobileMoE-L achieves much higher accuracy with 30% fewer active parameters and 23% smaller model memory footprint"
arxiv.org ↗
MobileMoE-S delivers 1.8-3.8× faster prefill and 2.2-3.4× faster decode than dense baseline MobileLLM-Pro at comparable INT4 weight memory
"MobileMoE-S delivers 1.8-3.8× faster prefill and 2.2-3.4× faster decode than the dense baseline MobileLLM-Pro"
arxiv.org ↗
iPhone DRAM grew from 4 GB (iPhone 13) to 12 GB (iPhone 17); Samsung S25 has 12–16 GB
"from 4 GB on iPhone 13 to 12 GB on iPhone 17, from 8 GB on Samsung Galaxy S21 to 12 GB, 16 GB on S25 and S25 Ultra"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Meta Reduz Mixture-of-Experts para Smartphones Sem Offloading na Nuvem

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.