Framework de Berkeley Reduz Latência de Agentes 1.3–2.2×

Pesquisadores da UC Berkeley publicaram um framework que reduz a latência de fluxos agentivos em 1.3–1.7× em APIs em nuvem e até 2.2× em modelos otimizados de borda. O sistema aborda diretamente as restrições de latência que impedem LLMs que usam ferramentas de serem implantados em voz em tempo real e atendimento ao cliente.

O artigo, "Speculative Interaction Agents," do ICSI e LBNL da UC Berkeley (Hooper, Kang, Moon et al.), identifica dois pontos críticos em fluxos agentivos padrão: o agente espera o usuário terminar de falar antes de começar o raciocínio, e pausa o raciocínio enquanto chamadas de ferramentas executam. Em contextos de voz, latência ponta a ponta abaixo de um segundo é necessária para interação perfeita. Loops de agentes sequenciais adicionam vários segundos de latência além do tempo de inferência.

O framework usa dois mecanismos. I/O assíncrono desacopla a thread de raciocínio e ação do agente do fluxo de entrada do usuário e fluxo de resposta do ambiente. O agente processa fala parcial e continua raciocínio enquanto chamadas de ferramentas executam em andamento, sobrepondo o que agentes padrão serializam. Chamadas de Ferramentas Especulativas lidam com a incerteza resultante: o agente pode disparar uma chamada de ferramenta antes do usuário terminar de especificar parâmetros. O framework executa chamadas de baixo risco imediatamente, mantém chamadas de ferramentas sensíveis pendentes de confirmação, e remenda ou reverte chamadas especulativas se a entrada completa as invalidar.

Em APIs em nuvem, o sistema não requer mudanças de modelo. Ele se sobrepõe às interfaces websocket da OpenAI Realtime API e Gemini Live API. Benchmarks em múltiplas avaliações de chamadas de ferramentas mostram aceleração de 1.3–1.7× com perda de acurácia menor. Times rodando essas APIs podem implantar o padrão sem retreinar ou re-hospedar. Para modelos de borda—Qwen2.5-3B-Instruct e Llama-3.2-3B-Instruct—aceleração chega a 1.6–2.2×, mas requer fine-tuning baseado em relógio: uma metodologia de treinamento que adapta o modelo para lidar com entradas em streaming e respostas assíncronas, combinada com geração de dados sintéticos para fine-tuning supervisionado. vLLM adicionou suporte a processamento de entrada em streaming, tornando o caminho de borda viável hoje.

Os números divulgados são razões de aceleração em tarefas de benchmark, não latência em tempo real ou figuras de QPS de produção. O artigo não cita dados de custo por chamada e sem figuras de escala. "Perda de acurácia menor" no caminho em nuvem não é quantificada além do resumo—uma lacuna crítica se você está construindo fluxos voltados para clientes onde regressões de acurácia são rastreadas contra SLAs.

Erros especulativos são o problema difícil. Quando uma ferramenta disparada especulativamente é invalidada pelo enunciado do usuário completo, o sistema deve detectar a incompatibilidade e suprimir ou desfazer a ação. Para buscas somente leitura isso é barato. Para gravações, pagamentos, ou APIs com efeitos colaterais se torna um problema de correção em produção. A resposta do artigo—manter ferramentas sensíveis até confirmação—empurra o custo de latência para o engenheiro classificar cada ferramenta como segura-para-especulação ou requer-confirmação. Esse trabalho de classificação não é automatizado e será o custo de integração para a maioria dos times. Treinamento baseado em relógio requer geração de dados de diálogo assíncrono sintético; o pipeline é documentado mas não é de código aberto na publicação.

O padrão transferível é o princípio de desacoplamento: trate entrada do usuário e I/O de ferramentas como fluxos assíncronos independentes em vez de bloqueadores síncronos. Deixe o loop de raciocínio e ação do modelo rodar continuamente contra ambos. Construa um manipulador de erro especulativo antes de disparar qualquer coisa com efeitos colaterais.

Nenhuma implantação em produção é reportada. Este é um artigo de pesquisa com resultados de benchmark. Antes de adotar, times devem querer distribuições de latência em tempo real (p50/p99) em seu mix específico de ferramentas, o delta de acurácia quantificado em modelos em nuvem, e um lançamento público do pipeline de treinamento baseado em relógio para modelos de borda.

Sources

Voice-controlled applications require under 1 second of latency for interactions to feel seamless
"with voice-controlled applications, under 1 second of latency is typically required for the interaction to feel seamless"
arxiv.org ↗
Multi-turn tool calling can add several seconds or more of latency
"if we want the LLM to reason and execute an agentic workflow with tool calling, this can add several seconds or more of latency, which is prohibitive for real-time latency-sensitive applications"
arxiv.org ↗
Asynchronous I/O decouples the agent's reason-and-act thread from waiting on user and environment streams
"We propose Asynchronous I/O, which decouples the core agent reason-and-act thread from waiting for additional information from either the user or environment, thereby allowing for overlapping agentic processing while waiting on external delays"
arxiv.org ↗
Speculative Tool Calling manages execution when the agent is unsure if it has received complete information from the user
"Speculative Tool Calling as a method to manage task execution when the agent is still unsure if it has received the full information or if additional user information may later be provided"
arxiv.org ↗
Cloud path delivers 1.3–1.7× speedups with minor accuracy loss on existing real-time cloud APIs without model changes
"For strong cloud models, our method can be applied out-of-the-box to existing real-time cloud APIs, providing 1.3-1.7× speedups with minor accuracy loss"
arxiv.org ↗
Edge models Qwen2.5-3B-Instruct and Llama-3.2-3B-Instruct achieve 1.6–2.2× speedups with clock-based training
"this approach provides 1.6-2.2× speedups with the Qwen2.5-3B-Instruct and Llama-3.2-3B-Instruct models across multiple tool calling benchmarks"
arxiv.org ↗
The system works out-of-the-box with OpenAI Realtime API and Gemini Live API websocket interfaces
"The OpenAI Realtime API (OpenAI, 2024) and Gemini Live API (Google Cloud, 2025) both provide websocket-based interfaces that support streaming inputs"
arxiv.org ↗
vLLM has added support for efficient streaming input processing
"open-source serving frameworks like vLLM have recently added support for efficient streaming input processing"
arxiv.org ↗
Clock-based training methodology adapts edge models for streaming inputs using synthetic SFT data
"we also present a clock-based training methodology that adapts the model to handle streaming inputs and asynchronous responses, and demonstrate a synthetic data generation strategy for SFT"
arxiv.org ↗
Standard agentic workflows block on waiting for the full user response before reasoning begins, and pause during tool execution
"Standard agentic workflows have high time-to-first-token (TTFT) due to having to wait for the full user response before beginning to think and act on it, as well as having to pause to wait on tool execution"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Framework de Berkeley Reduz Latência de Agentes 1.3–2.2×

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.