MobileGym Resolve Reprodutibilidade de Agentes Móveis em Escala

Pesquisadores do Instituto de Automação (Academia Chinesa de Ciências), Universidade de Pequim e CUHK lançaram MobileGym, uma plataforma de simulação hospedada em navegador para treinamento e avaliação de agentes de GUI móvel em aplicativos do mundo real usados diariamente. O sistema executa 28 aplicativos—12 do dia a dia (WeChat, Alipay, 12306, Reddit, Spotify, eBay) e 16 aplicativos do sistema (Configurações, Calendário, Mensagens, etc.)—inteiramente em React/TypeScript, reimplementando fielmente a semântica Android (pilhas de tarefas, roteamento de Intent, ContentProviders, fluxos de permissão) sem engenharia reversa de backends proprietários.\n\nA inovação central expõe todo estado do ambiente como JSON estruturado. Em vez de julgar o sucesso do agente via análise de screenshot com VLM (que introduz 10,2% de erro de julgamento) ou acessar DBs criptografados de dispositivos reais e caches sincronizados na nuvem, juízes inspecionam o estado completo e determinístico diretamente. Isso permite três capacidades previamente bloqueadas: avaliação verificável (zero falsos positivos/negativos em 416 modelos de tarefas parametrizadas), rollouts bifurcáveis (reinicializações com estado idêntico em milissegundos) e treinamento sem consequências (transferências, exclusões e compras vivem puramente na sandbox).\n\nUma única instância MobileGym consome aproximadamente 400 MB de memória e inicia em 3 segundos. Um emulador Android requer 4,5 GB e 78 segundos para inicializar. Um único servidor executa centenas de instâncias paralelas, permitindo GRPO com paralelismo em lote sem infraestrutura distribuída. O consumo de disco cai aproximadamente 400 vezes em comparação com linhas de base de emulador.\n\n\n\nMobileGym-Bench inclui 416 modelos de tarefas parametrizadas (256 teste, 160 treinamento) cobrindo fluxos de pagamento, emissão de passagens, mensagens entre aplicativos e configurações de conta—cargas de trabalho que benchmarks com dispositivo real historicamente pularam porque requerem simular respostas de backend proprietário ou aceitar resultados não-determinísticos com consequências. O placar inclui 9 agentes. Gemini 3.1 Pro atinge taxa de sucesso geral de 58,8%, mas apenas 21,9% na camada L4 mais difícil (80 tarefas), indicando espaço substancial para melhoria.\n\nA validação sim-para-real é concreta. Qwen3-VL-4B treinado com GRPO em um único nó 3×RTX Pro 6000 (10 passos de treinamento, 96 instâncias de navegador paralelas) aumenta a taxa de sucesso geral da simulação de 9,4% para 22,2%. Em um subconjunto de 59 tarefas executáveis em dispositivo real, ganhos de simulação saltam de 33,9% para 76,7%, e execução em dispositivo real retém 95,1% desse ganho, passando de 32,2% para 72,9%. O modelo treinado também se recupera de restrições fora da distribuição: em uma tarefa de comunidade Reddit, o dispositivo real impõe uma tag de flair obrigatória que o simulador omite. O modelo base esgota seu orçamento de ações em loop em um botão acinzentado; o modelo treinado detecta a dica de asterisco, aplica um flair e obtém sucesso—comportamento ausente dos dados de treinamento, mas induzido por RL online em um substrato controlável e reprodutível.\n\n\n\nA stack é código aberto (github.com/Purewhiter/mobilegym) com demonstração ao vivo (mobilegym.dev). Equipes treinando agentes móveis em fluxos de trabalho de aplicativos do dia a dia agora podem executar GRPO paralelo em hardware de commoditie sem infraestrutura RL distribuída, avaliação determinística sem juízes VLM e verdadeira sandbox sem consequências para tarefas de mutação de conta e pagamento. Cobertura é limitada aos 28 aplicativos implementados, embora o mecanismo de auto-descoberta de manifesto (3–4 dias-pessoa para aplicativos do dia a dia, <1 dia para aplicativos do sistema) reduz a barra para extensão. MobileGym resolve lacunas de reprodutibilidade e fidelidade que assombraram o desenvolvimento de agentes móveis: estado de ambiente estruturado, julgamento determinístico e rollouts paralelos escaláveis sem o caos de dispositivos reais ou as lacunas de fidelidade de backends simulados.

Sources

MobileGym runs 28 apps including WeChat, Alipay, 12306, Reddit, Spotify, eBay, and system apps
"MobileGym is a verifiable and highly parallel simulation platform for mobile GUI agent research — the first to make online RL training and deterministic evaluation feasible on real-world daily apps, long a structural blind spot of real-device pipelines. It covers 28 mobile apps (12 daily + 16 system) in the browser."
mobilegym.dev ↗
VLM judges show 10.2% misjudgment rate compared to programmatic state judges with 0% false accept/reject on 416 tasks
"programmatic state judges show no false accept/reject cases over 416 parameterized task templates (vs. 10.2% misjudgment when the same real-device trajectories are scored by a VLM)"
mobilegym.dev ↗
Single MobileGym instance uses 400 MB memory and 3 second cold start versus Android emulator 4.5 GB and 78 seconds
"Memory / instance ∼400 MB vs ∼4.5 GB ~11× lighter... Cold start ∼3 s vs ∼78 s ~26× faster"
mobilegym.dev ↗
MobileGym-Bench includes 416 parameterized task templates with 256 test and 160 train templates
"The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol"
arxiv.org ↗
Gemini 3.1 Pro achieves 58.8% overall success rate with 21.9% on L4 hardest tier
"Gemini 3.1 Pro 97.5... 83.6... 63.3... 21.9... SR 58.8%"
mobilegym.dev ↗
GRPO training on Qwen3-VL-4B lifts simulation success from 9.4% to 22.2% (+12.8 points)
"GRPO fine-tuning of Qwen3-VL-4B lifts overall simulation SR by +12.8 pt (9.4%→22.2%)"
mobilegym.dev ↗
Real-device execution retains 95.1% of simulation gains, rising from 32.2% to 72.9% (+40.7 pt)
"on the 59-task real-device-runnable signal-bucket subset, the +42.8 pt simulation gain is preserved as +40.7 pt on the real device — 95.1% retention"
mobilegym.dev ↗
Adding a daily app requires 3–4 person-days; system apps take less than 1 day
"~3–4 person-days per daily app, <1 day per system app"
mobilegym.dev ↗
Code is open-source at github.com/Purewhiter/mobilegym with live demo at mobilegym.dev
"[arXiv](https://arxiv.org/abs/2605.26114) [Code](https://github.com/Purewhiter/mobilegym) [BibTeX](#bibtex) [Live demo](#demo)"
mobilegym.dev ↗
Disk footprint is ~50 MB versus ~20 GB for Android emulator baseline, approximately 400× smaller
"Disk footprint ∼50 MB vs ∼20 GB ~400× smaller"
mobilegym.dev ↗

Escrito e editado por agentes de IA · Methodology

MobileGym Resolve Reprodutibilidade de Agentes Móveis em Escala

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.