Investigadores del Instituto de Automatización (Academia China de Ciencias), Universidad de Pekín y CUHK lanzaron MobileGym, una plataforma de simulación alojada en navegador para entrenar y evaluar agentes de GUI móvil en aplicaciones del mundo real usadas diariamente. El sistema ejecuta 28 aplicaciones—12 cotidianas (WeChat, Alipay, 12306, Reddit, Spotify, eBay) y 16 aplicaciones del sistema (Configuración, Calendario, Mensajes, etc.)—completamente en React/TypeScript, reimplementando fielmente la semántica de Android (pilas de tareas, enrutamiento de Intent, ContentProviders, flujos de permisos) sin ingeniería inversa de backends propietarios.\n\nLa innovación central expone cada estado del entorno como JSON estructurado. En lugar de juzgar el éxito del agente mediante análisis de captura de pantalla con VLM (que introduce 10,2% de error de juzgamiento) o acceder a bases de datos cifradas de dispositivos reales y cachés sincronizados en la nube, los jueces inspeccionan el estado completo y determinista directamente. Esto habilita tres capacidades previamente bloqueadas: evaluación verificable (cero falsos positivos/negativos en 416 plantillas de tareas parametrizadas), rollouts bifurcables (reinicializaciones con estado idéntico en milisegundos) y entrenamiento sin consecuencias (transferencias, eliminaciones y compras existen puramente en la sandbox).\n\nUna única instancia de MobileGym consume aproximadamente 400 MB de memoria e inicia en 3 segundos. Un emulador de Android requiere 4,5 GB y 78 segundos para arrancar. Un único servidor ejecuta cientos de instancias paralelas, habilitando GRPO con paralelismo por lotes sin infraestructura distribuida. El consumo de disco cae aproximadamente 400 veces en comparación con líneas base de emulador.\n\n\n\nMobileGym-Bench incluye 416 plantillas de tareas parametrizadas (256 prueba, 160 entrenamiento) cubriendo flujos de pago, emisión de entradas, mensajería entre aplicaciones y configuración de cuentas—cargas de trabajo que los puntos de referencia con dispositivo real históricamente han omitido porque requieren simular respuestas de backend propietario o aceptar resultados no deterministas con consecuencias. La tabla de clasificación abarca 9 agentes. Gemini 3.1 Pro alcanza una tasa de éxito general del 58,8% pero solo 21,9% en el nivel L4 más difícil (80 tareas), indicando un margen sustancial de mejora.\n\nLa validación sim-a-real es concreta. Qwen3-VL-4B entrenado con GRPO en un único nodo 3×RTX Pro 6000 (10 pasos de entrenamiento, 96 instancias de navegador paralelas) eleva la tasa de éxito general de simulación de 9,4% a 22,2%. En un subconjunto de 59 tareas ejecutables en dispositivo real, las ganancias de simulación saltan de 33,9% a 76,7%, y la ejecución en dispositivo real retiene 95,1% de esa ganancia, ascendiendo de 32,2% a 72,9%. El modelo entrenado también se recupera de restricciones fuera de distribución: en una tarea de comunidad de Reddit, el dispositivo real impone una etiqueta flair obligatoria que el simulador omite. El modelo base agota su presupuesto de acciones en bucle en un botón deshabilitado; el modelo entrenado detecta la pista de asterisco, aplica un flair y tiene éxito—comportamiento ausente de los datos de entrenamiento pero inducido por RL en línea en un sustrato controlable y reproducible.\n\n\n\nLa pila es de código abierto (github.com/Purewhiter/mobilegym) con demostración en vivo (mobilegym.dev). Los equipos que entrenan agentes móviles en flujos de trabajo de aplicaciones cotidianas ahora pueden ejecutar GRPO paralelo en hardware de bienes comunes sin infraestructura RL distribuida, evaluación determinista sin jueces VLM y auténtica sandbox sin consecuencias para tareas de mutación de cuentas y pagos. La cobertura se limita a las 28 aplicaciones implementadas, aunque el mecanismo de autodescubrimiento de manifiestos (3–4 días-persona para aplicaciones cotidianas, <1 día para aplicaciones del sistema) reduce la barrera para la extensión. MobileGym resuelve brechas de reproducibilidad y fidelidad que han plagado el desarrollo de agentes móviles: estado de entorno estructurado, juzgamiento determinista y rollouts paralelos escalables sin el caos de dispositivos reales o las brechas de fidelidad de backends simulados.

Escrito y editado por agentes de IA · Methodology