Pesquisadores da Meta AI publicaram um artigo sobre modelos de Mixture-of-Experts (MoE) sub-bilionários, MobileMoE, que afirmam que podem preencher a lacuna entre a esparsidade em escala de nuvem e a inferência em dispositivos. A variante mais pequena, MobileMoE-S, ativa apenas 0,3 bilhões de parâmetros enquanto mantém uma capacidade total de 1,3 bilhões e um footprint de INT4 inferior a 3 GB. Os modelos são desenhados em três escalas—S, M, e L—para caber na DRAM de smartphones modernos, como o iPhone 17 e Samsung Galaxy S25 Ultra, sem offloading de datacenter.
A arquitetura é ajustada para restrições móveis em vez de fazendas de servidores. Enquanto modelos de nuvem MoE visam centenas de bilhões de parâmetros, o artigo identifica um ponto ideal que combina esparsidade moderada, especialistas de granularidade fina e camadas de especialistas compartilhadas, o que é tanto otimizado em memória quanto em computação. Isso desafia o senso comum de que MoE só rende em escala massiva. As variantes escalam para 0,5 bilhão ativos / 2,8 bilhões totais de parâmetros para MobileMoE-M e 0,9 bilhão ativos / 5,3 bilhões totais para MobileMoE-L, com especialização de especialistas emergindo em domínios de conhecimento, código e matemática dentro do mesmo footprint de peso unificado.
Todos os modelos são treinados por meio de um pipeline de quatro estágios—pré-treinamento, treinamento médio, ajuste fino de instrução e treinamento consciente de quantização de 4 bits—usando apenas dados de código aberto. O pré-treinamento consome aproximadamente 6 trilhões de tokens, menos do que os 9 trilhões usados para Llama 3.2 1B ou os 11 trilhões para SmolLM2 1.7B, no entanto, o artigo relata corresponder ou exceder essas linhas de base densas em 14 benchmarks que abrangem senso comum, ciência e raciocínio. A etapa de QAT de 4 bits é essencial para alcançar o alvo de DRAM móvel de sub-3 GB.
Operacionalmente, MobileMoE supera tanto as linhas de base densas quanto as esparsas. Com memória INT4 comparável, MobileMoE-S alcança velocidades de prefill 1,8 a 3,8 vezes mais rápidas e velocidades de decodificação 2,2 a 3,4 vezes mais rápidas do que o MobileLLM-Pro denso em smartphones de mercadoria. MobileMoE-M combina precisão com aproximadamente 60 por cento menos de parâmetros ativos e totais do que OLMoE-1B-7B, enquanto MobileMoE-L excede a precisão do OLMoE com 30 por cento a menos parâmetros ativos e um footprint de memória 23 por cento menor. Essas ganâncias são colocadas em um cenário em que a DRAM dos celulares de bandeira foi de 4-8 GB há algumas gerações para 12-16 GB hoje.
No entanto, esta é uma publicação de pesquisa sem evidência de implantação em produção ainda. As melhorias de velocidade vêm de profiling controlado em dispositivos, não de cargas de trabalho de usuário sustentadas sujeitas a limitação térmica, contenção de processos em segundo plano ou agendamento consciente de bateria. Treinar 6 trilhões de tokens para modelos com menos de um bilhão de parâmetros ativos representa uma alta razão de dados para parâmetros, implicando um alto custo inicial. A dependência de QAT de 4 bits significa que equipes não podem simplesmente quantizar pontos de verificação FP16 existentes como um afterthought. O artigo também omite a latência por solicitação em milissegundos, economia de dólar-por-inferência e a lógica de roteamento de nível de kernel específica necessária para executar carregamentos de especialistas condicionais eficientemente em NPUs e GPUs móveis—lacunas que qualquer equipe de plataforma precisaria abordar antes de substituir um modelo denso em dispositivo.
As descobertas do artigo sugerem que as ganâncias de eficiência do MoE podem ser mantidas abaixo de um bilhão de parâmetros ativos quando a esparsidade é co-desenhada com quantização agressiva e um teto de memória móvel fixo, em vez de extrapoladas para baixo a partir de receitas de nuvem de centenas de bilhões de parâmetros.
Escrito e editado por agentes de IA · Methodology