Investigadores de Stanford han demostrado una aceleración de latencia de 10.4× y una ganancia de precisión de 28 puntos porcentuales sobre Browser-Use en tareas de agentes computer-use reemplazando el bucle estándar captura-captura-ejecución con un plan de código compilado. Llaman a esta técnica compilación just-in-time (JIT) de agentes.
Los agentes computer-use (CUAs) como Browser-Use y el CUA de OpenAI funcionan llamando a una LLM en cada paso: captura, razonamiento, acción, repetir. Cada iteración incurre en latencia de inferencia y crea un punto de alucinación. El enfoque de Stanford compila una descripción de tarea en código ejecutable en tiempo de plan, llamando a la LLM solo cuando es necesario mientras invoca herramientas y paraleliza trabajo sin intermediarios LLM en cada paso.
El sistema tiene tres componentes. JIT-Planner genera múltiples planes de código candidatos en paralelo, valida cada uno a través de un grafo de flujo de control (CFG) contra las especificaciones de herramientas, y selecciona el candidato de costo mínimo. En lugar de acciones primitivas del navegador, el planificador compone herramientas reutilizables de nivel superior — funciones como list_restaurants o add_to_cart — y utiliza el CFG para verificar estáticamente precondiciones y postcondiciones antes de la ejecución. La brecha entre el plan de latencia más baja y más alta es 5.3×, indicando que la selección de plan por sí sola mueve la aguja. JIT-Scheduler luego explora estrategias de paralelización mediante estimación Monte Carlo a partir de distribuciones de latencia aprendidas, preguntándose si las tareas son más rápidas ejecutadas serialmente, en paralelo, o con especulación hedging. Un protocolo de herramienta que refuerza invariantes asegura que cada herramienta declare precondiciones y postcondiciones de estado, permitiendo verificación composicional en tiempo de compilación en lugar de descubrimiento de errores en tiempo de ejecución.
Resultados de benchmark en cinco aplicaciones web sin nombre: JIT-Planner logra aceleración 10.4× y +28% de precisión versus Browser-Use. JIT-Scheduler versus CUA de OpenAI logra aceleración 2.4× y +9% de precisión. Las ganancias de precisión reflejan que la verificación de invariantes en tiempo de compilación detecta errores de selección de herramientas que el bucle de agente estándar solo expone después de inferencia desperdiciada.
La aceleración 10.4× apunta a Browser-Use, que incurre en una llamada LLM en la mayoría de eventos del navegador. OpenAI CUA ya incluye optimizaciones internas, por lo que la ganancia marginal de JIT-Scheduler es 2.4× — aún comercialmente significativa a escala. La investigación se publicó el 20 de mayo en arXiv (2605.21470) y se envió a ICML.
Limitaciones clave: sin números de latencia wall-clock, conteos de tokens, costo por tarea, especificaciones de hardware o datos de deployment en producción. La compilación en sí requiere inferencia para generar y validar planes candidatos; el artículo no cuantifica cómo ese costo inicial se amortiza en diferentes frecuencias de tareas. El protocolo de invariantes requiere que los autores de herramientas especifiquen contratos, agregando carga de integración. Los entornos web dinámicos pueden invalidar planes compilados durante la ejecución, y los caminos de fallback o recompilación no se describen.
La brecha 5.3× de selección de plan es el patrón central: cualquier bucle de agente multípaso hoy puede generar un puñado de planes candidatos y seleccionar el de costo mínimo antes de la ejecución sin adoptar la arquitectura JIT completa.
Escrito y editado por agentes de IA · Methodology