Compilação JIT de agentes reduz latência 10.4× em relação a Browser-Use

Uma nova técnica pré-compila tarefas de agentes com múltiplas etapas em uma única chamada LLM em vez de loops sequenciais de captura-screenshot-execução, reduzindo a latência por etapa e melhorando a precisão da seleção de ferramentas. Relevante para equipes que constroem agentes de computer-use e fluxos RAG que atualmente consomem ciclos de inferência em chamadas LLM repetitivas.

Pesquisadores de Stanford demonstraram um speedup de latência 10.4× e ganho de precisão de 28 pontos percentuais em relação a Browser-Use em tarefas de agentes computer-use substituindo o loop padrão fetch-screenshot-execute por um plano de código compilado. Eles chamam essa técnica de compilação just-in-time (JIT) de agentes.

Agentes computer-use (CUAs) como Browser-Use e o CUA do OpenAI operam chamando uma LLM a cada etapa: screenshot, raciocínio, ação, repetir. Cada iteração incorre em latência de inferência e cria um ponto de alucinação. A abordagem de Stanford compila uma descrição de tarefa em código executável no momento do plano, chamando a LLM apenas onde necessário enquanto invoca ferramentas e paraleliza trabalho sem intermediários LLM a cada etapa.

O sistema tem três componentes. O JIT-Planner gera múltiplos planos de código candidatos em paralelo, valida cada um através de um grafo de fluxo de controle (CFG) em relação às especificações de ferramentas, e seleciona o candidato de custo mínimo. Em vez de ações primitivas do navegador, o planejador compõe ferramentas reutilizáveis de nível superior — funções como list_restaurants ou add_to_cart — e usa o CFG para verificar estaticamente precondições e poscondições antes da execução. O spread entre o plano de melhor latência e pior latência é 5.3×, indicando que seleção de plano por si só move a agulha. O JIT-Scheduler então explora estratégias de paralelização via estimativa Monte Carlo de distribuições de latência aprendidas, perguntando se tarefas são mais rápidas rodando serialmente, em paralelo, ou com hedge especulativo. Um protocolo de ferramenta que garante invariantes faz com que cada ferramenta declare pré e poscondições de estado, habilitando verificação composicional no tempo de compilação em vez de descoberta de erro em tempo de execução.

Resultados de benchmarks em cinco aplicações web não nomeadas: JIT-Planner alcança speedup 10.4× e +28% de precisão versus Browser-Use. JIT-Scheduler versus CUA do OpenAI alcança speedup 2.4× e +9% de precisão. Os ganhos de precisão refletem que verificação de invariantes em tempo de compilação detecta erros de seleção de ferramentas que o loop de agente padrão apenas surfaça após inferência desperdiçada.

O speedup 10.4× se destina a Browser-Use, que incorre em uma chamada LLM na maioria dos eventos do navegador. OpenAI CUA já inclui otimizações internas, então o ganho marginal de JIT-Scheduler é 2.4× — ainda significativo comercialmente em escala. A pesquisa foi publicada em 20 de maio no arXiv (2605.21470) e submetida ao ICML.

Limitações-chave: sem números de latência wall-clock, contagens de tokens, custo-por-tarefa, especificações de hardware ou dados de deployment em produção. A compilação em si requer inferência para gerar e validar planos candidatos; o artigo não quantifica como esse custo inicial se amortiza em diferentes frequências de tarefa. O protocolo de invariantes requer que autores de ferramentas especifiquem contratos, adicionando carga de integração. Ambientes web dinâmicos podem invalidar planos compilados durante a execução, e caminhos de fallback ou recompilação não são descritos.

O spread 5.3× de seleção de plano é o padrão central: qualquer loop de agente multi-etapa hoje pode gerar um punhado de planos candidatos e escolher o de custo mínimo antes da execução sem adotar a arquitetura JIT completa.

Sources

JIT-Planner achieves 10.4× speedup and +28% accuracy over Browser-Use across 5 web applications
"JIT-Planner achieves 10.4× speedup and +28% accuracy over Browser-Use, while JIT-Scheduler achieves 2.4× speedup and +9% accuracy over OpenAI CUA"
arxiv.org ↗
JIT-Scheduler achieves 2.4× speedup and +9% accuracy over OpenAI CUA
"JIT-Scheduler achieves 2.4× speedup and +9% accuracy over OpenAI CUA"
arxiv.org ↗
The spread between the best-latency and worst-latency candidate plan is 5.3×
"we find that the difference between the best-latency and worst-latency code plan candidate is 5.3× (Section 5)"
arxiv.org ↗
The system compiles natural-language task descriptions into executable code at plan-synthesis time, using cached reusable tools rather than primitive actions like click and type
"This code is built from cached, reusable tools (e.g., list_restaurants, add_to_cart) rather than primitive actions (e.g., click, type), so the LM need not be called at every step"
arxiv.org ↗
JIT-Planner generates multiple code plans, validates each against tool specifications using a CFG, and selects the minimum-cost candidate
"Cost-optimizing planner: Plans are code, enabling parallel candidate generation as well as static checking and cost estimation over a control-flow graph (CFG)"
arxiv.org ↗
JIT-Scheduler uses Monte Carlo cost estimation from learned latency distributions to select parallelization strategies
"Cost-aware scheduler: Parallelization strategy selection via Monte Carlo cost estimation from prior learned latency distributions"
arxiv.org ↗
The invariant-enforcing tool protocol specifies precondition and postcondition state requirements, enabling compositional verification at compile time
"Invariant-enforcing tool protocol: Tools specify precondition and postcondition state invariants (Section 3.1), enabling compositional verification at compilation time"
arxiv.org ↗
Current CUA implementations follow a sequential fetch-screenshot-execute loop where each iteration requires an LLM call, resulting in high latency and frequent errors from incorrect tool use
"Current implementations follow a sequential fetch-screenshot-execute loop where each iteration requires an LLM call, resulting in high latency and frequent errors from incorrect tool use"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Compilação JIT de agentes reduz latência 10.4× em relação a Browser-Use

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.