Compilación JIT de agentes reduce latencia 10.4× versus Browser-Use

Investigadores de Stanford han demostrado una aceleración de latencia de 10.4× y una ganancia de precisión de 28 puntos porcentuales sobre Browser-Use en tareas de agentes computer-use reemplazando el bucle estándar captura-captura-ejecución con un plan de código compilado. Llaman a esta técnica compilación just-in-time (JIT) de agentes.

Los agentes computer-use (CUAs) como Browser-Use y el CUA de OpenAI funcionan llamando a una LLM en cada paso: captura, razonamiento, acción, repetir. Cada iteración incurre en latencia de inferencia y crea un punto de alucinación. El enfoque de Stanford compila una descripción de tarea en código ejecutable en tiempo de plan, llamando a la LLM solo cuando es necesario mientras invoca herramientas y paraleliza trabajo sin intermediarios LLM en cada paso.

El sistema tiene tres componentes. JIT-Planner genera múltiples planes de código candidatos en paralelo, valida cada uno a través de un grafo de flujo de control (CFG) contra las especificaciones de herramientas, y selecciona el candidato de costo mínimo. En lugar de acciones primitivas del navegador, el planificador compone herramientas reutilizables de nivel superior — funciones como list_restaurants o add_to_cart — y utiliza el CFG para verificar estáticamente precondiciones y postcondiciones antes de la ejecución. La brecha entre el plan de latencia más baja y más alta es 5.3×, indicando que la selección de plan por sí sola mueve la aguja. JIT-Scheduler luego explora estrategias de paralelización mediante estimación Monte Carlo a partir de distribuciones de latencia aprendidas, preguntándose si las tareas son más rápidas ejecutadas serialmente, en paralelo, o con especulación hedging. Un protocolo de herramienta que refuerza invariantes asegura que cada herramienta declare precondiciones y postcondiciones de estado, permitiendo verificación composicional en tiempo de compilación en lugar de descubrimiento de errores en tiempo de ejecución.

Resultados de benchmark en cinco aplicaciones web sin nombre: JIT-Planner logra aceleración 10.4× y +28% de precisión versus Browser-Use. JIT-Scheduler versus CUA de OpenAI logra aceleración 2.4× y +9% de precisión. Las ganancias de precisión reflejan que la verificación de invariantes en tiempo de compilación detecta errores de selección de herramientas que el bucle de agente estándar solo expone después de inferencia desperdiciada.

La aceleración 10.4× apunta a Browser-Use, que incurre en una llamada LLM en la mayoría de eventos del navegador. OpenAI CUA ya incluye optimizaciones internas, por lo que la ganancia marginal de JIT-Scheduler es 2.4× — aún comercialmente significativa a escala. La investigación se publicó el 20 de mayo en arXiv (2605.21470) y se envió a ICML.

Limitaciones clave: sin números de latencia wall-clock, conteos de tokens, costo por tarea, especificaciones de hardware o datos de deployment en producción. La compilación en sí requiere inferencia para generar y validar planes candidatos; el artículo no cuantifica cómo ese costo inicial se amortiza en diferentes frecuencias de tareas. El protocolo de invariantes requiere que los autores de herramientas especifiquen contratos, agregando carga de integración. Los entornos web dinámicos pueden invalidar planes compilados durante la ejecución, y los caminos de fallback o recompilación no se describen.

La brecha 5.3× de selección de plan es el patrón central: cualquier bucle de agente multípaso hoy puede generar un puñado de planes candidatos y seleccionar el de costo mínimo antes de la ejecución sin adoptar la arquitectura JIT completa.

Sources

JIT-Planner achieves 10.4× speedup and +28% accuracy over Browser-Use across 5 web applications
"JIT-Planner achieves 10.4× speedup and +28% accuracy over Browser-Use, while JIT-Scheduler achieves 2.4× speedup and +9% accuracy over OpenAI CUA"
arxiv.org ↗
JIT-Scheduler achieves 2.4× speedup and +9% accuracy over OpenAI CUA
"JIT-Scheduler achieves 2.4× speedup and +9% accuracy over OpenAI CUA"
arxiv.org ↗
The spread between the best-latency and worst-latency candidate plan is 5.3×
"we find that the difference between the best-latency and worst-latency code plan candidate is 5.3× (Section 5)"
arxiv.org ↗
The system compiles natural-language task descriptions into executable code at plan-synthesis time, using cached reusable tools rather than primitive actions like click and type
"This code is built from cached, reusable tools (e.g., list_restaurants, add_to_cart) rather than primitive actions (e.g., click, type), so the LM need not be called at every step"
arxiv.org ↗
JIT-Planner generates multiple code plans, validates each against tool specifications using a CFG, and selects the minimum-cost candidate
"Cost-optimizing planner: Plans are code, enabling parallel candidate generation as well as static checking and cost estimation over a control-flow graph (CFG)"
arxiv.org ↗
JIT-Scheduler uses Monte Carlo cost estimation from learned latency distributions to select parallelization strategies
"Cost-aware scheduler: Parallelization strategy selection via Monte Carlo cost estimation from prior learned latency distributions"
arxiv.org ↗
The invariant-enforcing tool protocol specifies precondition and postcondition state requirements, enabling compositional verification at compile time
"Invariant-enforcing tool protocol: Tools specify precondition and postcondition state invariants (Section 3.1), enabling compositional verification at compilation time"
arxiv.org ↗
Current CUA implementations follow a sequential fetch-screenshot-execute loop where each iteration requires an LLM call, resulting in high latency and frequent errors from incorrect tool use
"Current implementations follow a sequential fetch-screenshot-execute loop where each iteration requires an LLM call, resulting in high latency and frequent errors from incorrect tool use"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Compilación JIT de agentes reduce latencia 10.4× versus Browser-Use

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.