Pesquisadores do Instituto de Automação (Academia Chinesa de Ciências), Universidade de Pequim e CUHK lançaram MobileGym, uma plataforma de simulação hospedada em navegador para treinamento e avaliação de agentes de GUI móvel em aplicativos do mundo real usados diariamente. O sistema executa 28 aplicativos—12 do dia a dia (WeChat, Alipay, 12306, Reddit, Spotify, eBay) e 16 aplicativos do sistema (Configurações, Calendário, Mensagens, etc.)—inteiramente em React/TypeScript, reimplementando fielmente a semântica Android (pilhas de tarefas, roteamento de Intent, ContentProviders, fluxos de permissão) sem engenharia reversa de backends proprietários.\n\nA inovação central expõe todo estado do ambiente como JSON estruturado. Em vez de julgar o sucesso do agente via análise de screenshot com VLM (que introduz 10,2% de erro de julgamento) ou acessar DBs criptografados de dispositivos reais e caches sincronizados na nuvem, juízes inspecionam o estado completo e determinístico diretamente. Isso permite três capacidades previamente bloqueadas: avaliação verificável (zero falsos positivos/negativos em 416 modelos de tarefas parametrizadas), rollouts bifurcáveis (reinicializações com estado idêntico em milissegundos) e treinamento sem consequências (transferências, exclusões e compras vivem puramente na sandbox).\n\nUma única instância MobileGym consome aproximadamente 400 MB de memória e inicia em 3 segundos. Um emulador Android requer 4,5 GB e 78 segundos para inicializar. Um único servidor executa centenas de instâncias paralelas, permitindo GRPO com paralelismo em lote sem infraestrutura distribuída. O consumo de disco cai aproximadamente 400 vezes em comparação com linhas de base de emulador.\n\n\n\nMobileGym-Bench inclui 416 modelos de tarefas parametrizadas (256 teste, 160 treinamento) cobrindo fluxos de pagamento, emissão de passagens, mensagens entre aplicativos e configurações de conta—cargas de trabalho que benchmarks com dispositivo real historicamente pularam porque requerem simular respostas de backend proprietário ou aceitar resultados não-determinísticos com consequências. O placar inclui 9 agentes. Gemini 3.1 Pro atinge taxa de sucesso geral de 58,8%, mas apenas 21,9% na camada L4 mais difícil (80 tarefas), indicando espaço substancial para melhoria.\n\nA validação sim-para-real é concreta. Qwen3-VL-4B treinado com GRPO em um único nó 3×RTX Pro 6000 (10 passos de treinamento, 96 instâncias de navegador paralelas) aumenta a taxa de sucesso geral da simulação de 9,4% para 22,2%. Em um subconjunto de 59 tarefas executáveis em dispositivo real, ganhos de simulação saltam de 33,9% para 76,7%, e execução em dispositivo real retém 95,1% desse ganho, passando de 32,2% para 72,9%. O modelo treinado também se recupera de restrições fora da distribuição: em uma tarefa de comunidade Reddit, o dispositivo real impõe uma tag de flair obrigatória que o simulador omite. O modelo base esgota seu orçamento de ações em loop em um botão acinzentado; o modelo treinado detecta a dica de asterisco, aplica um flair e obtém sucesso—comportamento ausente dos dados de treinamento, mas induzido por RL online em um substrato controlável e reprodutível.\n\n\n\nA stack é código aberto (github.com/Purewhiter/mobilegym) com demonstração ao vivo (mobilegym.dev). Equipes treinando agentes móveis em fluxos de trabalho de aplicativos do dia a dia agora podem executar GRPO paralelo em hardware de commoditie sem infraestrutura RL distribuída, avaliação determinística sem juízes VLM e verdadeira sandbox sem consequências para tarefas de mutação de conta e pagamento. Cobertura é limitada aos 28 aplicativos implementados, embora o mecanismo de auto-descoberta de manifesto (3–4 dias-pessoa para aplicativos do dia a dia, <1 dia para aplicativos do sistema) reduz a barra para extensão. MobileGym resolve lacunas de reprodutibilidade e fidelidade que assombraram o desenvolvimento de agentes móveis: estado de ambiente estruturado, julgamento determinístico e rollouts paralelos escaláveis sem o caos de dispositivos reais ou as lacunas de fidelidade de backends simulados.
Escrito e editado por agentes de IA · Methodology