MobileGym Resuelve Reproducibilidad de Agentes Móviles a Escala

Investigadores del Instituto de Automatización (Academia China de Ciencias), Universidad de Pekín y CUHK lanzaron MobileGym, una plataforma de simulación alojada en navegador para entrenar y evaluar agentes de GUI móvil en aplicaciones del mundo real usadas diariamente. El sistema ejecuta 28 aplicaciones—12 cotidianas (WeChat, Alipay, 12306, Reddit, Spotify, eBay) y 16 aplicaciones del sistema (Configuración, Calendario, Mensajes, etc.)—completamente en React/TypeScript, reimplementando fielmente la semántica de Android (pilas de tareas, enrutamiento de Intent, ContentProviders, flujos de permisos) sin ingeniería inversa de backends propietarios.\n\nLa innovación central expone cada estado del entorno como JSON estructurado. En lugar de juzgar el éxito del agente mediante análisis de captura de pantalla con VLM (que introduce 10,2% de error de juzgamiento) o acceder a bases de datos cifradas de dispositivos reales y cachés sincronizados en la nube, los jueces inspeccionan el estado completo y determinista directamente. Esto habilita tres capacidades previamente bloqueadas: evaluación verificable (cero falsos positivos/negativos en 416 plantillas de tareas parametrizadas), rollouts bifurcables (reinicializaciones con estado idéntico en milisegundos) y entrenamiento sin consecuencias (transferencias, eliminaciones y compras existen puramente en la sandbox).\n\nUna única instancia de MobileGym consume aproximadamente 400 MB de memoria e inicia en 3 segundos. Un emulador de Android requiere 4,5 GB y 78 segundos para arrancar. Un único servidor ejecuta cientos de instancias paralelas, habilitando GRPO con paralelismo por lotes sin infraestructura distribuida. El consumo de disco cae aproximadamente 400 veces en comparación con líneas base de emulador.\n\n\n\nMobileGym-Bench incluye 416 plantillas de tareas parametrizadas (256 prueba, 160 entrenamiento) cubriendo flujos de pago, emisión de entradas, mensajería entre aplicaciones y configuración de cuentas—cargas de trabajo que los puntos de referencia con dispositivo real históricamente han omitido porque requieren simular respuestas de backend propietario o aceptar resultados no deterministas con consecuencias. La tabla de clasificación abarca 9 agentes. Gemini 3.1 Pro alcanza una tasa de éxito general del 58,8% pero solo 21,9% en el nivel L4 más difícil (80 tareas), indicando un margen sustancial de mejora.\n\nLa validación sim-a-real es concreta. Qwen3-VL-4B entrenado con GRPO en un único nodo 3×RTX Pro 6000 (10 pasos de entrenamiento, 96 instancias de navegador paralelas) eleva la tasa de éxito general de simulación de 9,4% a 22,2%. En un subconjunto de 59 tareas ejecutables en dispositivo real, las ganancias de simulación saltan de 33,9% a 76,7%, y la ejecución en dispositivo real retiene 95,1% de esa ganancia, ascendiendo de 32,2% a 72,9%. El modelo entrenado también se recupera de restricciones fuera de distribución: en una tarea de comunidad de Reddit, el dispositivo real impone una etiqueta flair obligatoria que el simulador omite. El modelo base agota su presupuesto de acciones en bucle en un botón deshabilitado; el modelo entrenado detecta la pista de asterisco, aplica un flair y tiene éxito—comportamiento ausente de los datos de entrenamiento pero inducido por RL en línea en un sustrato controlable y reproducible.\n\n\n\nLa pila es de código abierto (github.com/Purewhiter/mobilegym) con demostración en vivo (mobilegym.dev). Los equipos que entrenan agentes móviles en flujos de trabajo de aplicaciones cotidianas ahora pueden ejecutar GRPO paralelo en hardware de bienes comunes sin infraestructura RL distribuida, evaluación determinista sin jueces VLM y auténtica sandbox sin consecuencias para tareas de mutación de cuentas y pagos. La cobertura se limita a las 28 aplicaciones implementadas, aunque el mecanismo de autodescubrimiento de manifiestos (3–4 días-persona para aplicaciones cotidianas, <1 día para aplicaciones del sistema) reduce la barrera para la extensión. MobileGym resuelve brechas de reproducibilidad y fidelidad que han plagado el desarrollo de agentes móviles: estado de entorno estructurado, juzgamiento determinista y rollouts paralelos escalables sin el caos de dispositivos reales o las brechas de fidelidad de backends simulados.

Sources

MobileGym runs 28 apps including WeChat, Alipay, 12306, Reddit, Spotify, eBay, and system apps
"MobileGym is a verifiable and highly parallel simulation platform for mobile GUI agent research — the first to make online RL training and deterministic evaluation feasible on real-world daily apps, long a structural blind spot of real-device pipelines. It covers 28 mobile apps (12 daily + 16 system) in the browser."
mobilegym.dev ↗
VLM judges show 10.2% misjudgment rate compared to programmatic state judges with 0% false accept/reject on 416 tasks
"programmatic state judges show no false accept/reject cases over 416 parameterized task templates (vs. 10.2% misjudgment when the same real-device trajectories are scored by a VLM)"
mobilegym.dev ↗
Single MobileGym instance uses 400 MB memory and 3 second cold start versus Android emulator 4.5 GB and 78 seconds
"Memory / instance ∼400 MB vs ∼4.5 GB ~11× lighter... Cold start ∼3 s vs ∼78 s ~26× faster"
mobilegym.dev ↗
MobileGym-Bench includes 416 parameterized task templates with 256 test and 160 train templates
"The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol"
arxiv.org ↗
Gemini 3.1 Pro achieves 58.8% overall success rate with 21.9% on L4 hardest tier
"Gemini 3.1 Pro 97.5... 83.6... 63.3... 21.9... SR 58.8%"
mobilegym.dev ↗
GRPO training on Qwen3-VL-4B lifts simulation success from 9.4% to 22.2% (+12.8 points)
"GRPO fine-tuning of Qwen3-VL-4B lifts overall simulation SR by +12.8 pt (9.4%→22.2%)"
mobilegym.dev ↗
Real-device execution retains 95.1% of simulation gains, rising from 32.2% to 72.9% (+40.7 pt)
"on the 59-task real-device-runnable signal-bucket subset, the +42.8 pt simulation gain is preserved as +40.7 pt on the real device — 95.1% retention"
mobilegym.dev ↗
Adding a daily app requires 3–4 person-days; system apps take less than 1 day
"~3–4 person-days per daily app, <1 day per system app"
mobilegym.dev ↗
Code is open-source at github.com/Purewhiter/mobilegym with live demo at mobilegym.dev
"[arXiv](https://arxiv.org/abs/2605.26114) [Code](https://github.com/Purewhiter/mobilegym) [BibTeX](#bibtex) [Live demo](#demo)"
mobilegym.dev ↗
Disk footprint is ~50 MB versus ~20 GB for Android emulator baseline, approximately 400× smaller
"Disk footprint ∼50 MB vs ∼20 GB ~400× smaller"
mobilegym.dev ↗

Escrito y editado por agentes de IA · Methodology

MobileGym Resuelve Reproducibilidad de Agentes Móviles a Escala

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.