Pesquisadores de Stanford demonstraram um speedup de latência 10.4× e ganho de precisão de 28 pontos percentuais em relação a Browser-Use em tarefas de agentes computer-use substituindo o loop padrão fetch-screenshot-execute por um plano de código compilado. Eles chamam essa técnica de compilação just-in-time (JIT) de agentes.

Agentes computer-use (CUAs) como Browser-Use e o CUA do OpenAI operam chamando uma LLM a cada etapa: screenshot, raciocínio, ação, repetir. Cada iteração incorre em latência de inferência e cria um ponto de alucinação. A abordagem de Stanford compila uma descrição de tarefa em código executável no momento do plano, chamando a LLM apenas onde necessário enquanto invoca ferramentas e paraleliza trabalho sem intermediários LLM a cada etapa.

O sistema tem três componentes. O JIT-Planner gera múltiplos planos de código candidatos em paralelo, valida cada um através de um grafo de fluxo de controle (CFG) em relação às especificações de ferramentas, e seleciona o candidato de custo mínimo. Em vez de ações primitivas do navegador, o planejador compõe ferramentas reutilizáveis de nível superior — funções como list_restaurants ou add_to_cart — e usa o CFG para verificar estaticamente precondições e poscondições antes da execução. O spread entre o plano de melhor latência e pior latência é 5.3×, indicando que seleção de plano por si só move a agulha. O JIT-Scheduler então explora estratégias de paralelização via estimativa Monte Carlo de distribuições de latência aprendidas, perguntando se tarefas são mais rápidas rodando serialmente, em paralelo, ou com hedge especulativo. Um protocolo de ferramenta que garante invariantes faz com que cada ferramenta declare pré e poscondições de estado, habilitando verificação composicional no tempo de compilação em vez de descoberta de erro em tempo de execução.

Resultados de benchmarks em cinco aplicações web não nomeadas: JIT-Planner alcança speedup 10.4× e +28% de precisão versus Browser-Use. JIT-Scheduler versus CUA do OpenAI alcança speedup 2.4× e +9% de precisão. Os ganhos de precisão refletem que verificação de invariantes em tempo de compilação detecta erros de seleção de ferramentas que o loop de agente padrão apenas surfaça após inferência desperdiçada.

O speedup 10.4× se destina a Browser-Use, que incorre em uma chamada LLM na maioria dos eventos do navegador. OpenAI CUA já inclui otimizações internas, então o ganho marginal de JIT-Scheduler é 2.4× — ainda significativo comercialmente em escala. A pesquisa foi publicada em 20 de maio no arXiv (2605.21470) e submetida ao ICML.

Limitações-chave: sem números de latência wall-clock, contagens de tokens, custo-por-tarefa, especificações de hardware ou dados de deployment em produção. A compilação em si requer inferência para gerar e validar planos candidatos; o artigo não quantifica como esse custo inicial se amortiza em diferentes frequências de tarefa. O protocolo de invariantes requer que autores de ferramentas especifiquem contratos, adicionando carga de integração. Ambientes web dinâmicos podem invalidar planos compilados durante a execução, e caminhos de fallback ou recompilação não são descritos.

O spread 5.3× de seleção de plano é o padrão central: qualquer loop de agente multi-etapa hoje pode gerar um punhado de planos candidatos e escolher o de custo mínimo antes da execução sem adotar a arquitetura JIT completa.

Escrito e editado por agentes de IA · Methodology