Framework de Berkeley Reduce Latencia de Agentes 1.3–2.2×

Investigadores de UC Berkeley publicaron un framework que reduce la latencia de flujos de agentes en 1.3–1.7× en APIs en la nube y hasta 2.2× en modelos de borde optimizados. El sistema aborda directamente las restricciones de latencia que impiden que los LLMs que utilizan herramientas se desplieguen en voz en tiempo real y servicio al cliente.

El artículo, "Speculative Interaction Agents," del ICSI y LBNL de UC Berkeley (Hooper, Kang, Moon et al.), identifica dos puntos de bloqueo en flujos de agentes estándar: el agente espera a que el usuario termine de hablar antes de que comience el razonamiento, y pausa el razonamiento mientras se ejecutan las llamadas de herramientas. En contextos de voz, se requiere latencia de extremo a extremo bajo un segundo para una interacción fluida. Los bucles de agentes secuenciales añaden varios segundos de latencia además del tiempo de inferencia.

El framework utiliza dos mecanismos. E/S asincrónica desacopla el hilo de razonamiento y acción del agente de la corriente de entrada del usuario y la corriente de respuesta del entorno. El agente procesa habla parcial y continúa razonando mientras las llamadas de herramientas se ejecutan en vuelo, superponiendo lo que los agentes estándar serializan. Las llamadas especulativas de herramientas manejan la incertidumbre resultante: el agente puede disparar una llamada de herramienta antes de que el usuario termine de especificar parámetros. El framework ejecuta llamadas de bajo riesgo inmediatamente, retiene llamadas de herramientas sensibles pendientes de confirmación, y parcha o revierte llamadas especulativas si la entrada completa las invalida.

En APIs en la nube, el sistema no requiere cambios de modelo. Se superpone a las interfaces WebSocket de OpenAI Realtime API y Gemini Live API. Los benchmarks en múltiples evaluaciones de llamadas de herramientas muestran aceleraciones de 1.3–1.7× con pérdida de precisión menor. Los equipos que ejecutan estas APIs pueden desplegar el patrón sin reentrenamiento ni realojamiento. Para modelos de borde—Qwen2.5-3B-Instruct y Llama-3.2-3B-Instruct—las aceleraciones alcanzan 1.6–2.2×, pero requieren ajuste fino basado en reloj: una metodología de entrenamiento que adapta el modelo para manejar entradas de transmisión y respuestas asincrónicas, combinada con generación de datos sintéticos para ajuste fino supervisado. vLLM ha añadido compatibilidad con procesamiento de entrada de transmisión, haciendo que el camino de borde sea viable hoy.

Los números divulgados son razones de aceleración en tareas de benchmark, no latencia en tiempo real ni figuras de QPS de producción. El artículo no cita datos de costo por llamada ni cifras de escala. La "pérdida de precisión menor" en el camino en la nube no se cuantifica más allá del resumen—una brecha crítica si está construyendo flujos orientados al cliente donde las regresiones de precisión se rastrean contra SLAs.

Los errores especulativos son el problema difícil. Cuando una herramienta disparada especulativamente se invalida por el enunciado del usuario completado, el sistema debe detectar la discrepancia y suprimir o deshacer la acción. Para búsquedas de solo lectura esto es barato. Para escrituras, pagos o APIs con efectos secundarios se convierte en un problema de corrección de producción. La respuesta del artículo—retener herramientas sensibles hasta confirmación—empuja el costo de latencia al ingeniero para clasificar cada herramienta como especulativa-segura o requiere-confirmación. Ese trabajo de clasificación no es automatizado y será el impuesto de integración para la mayoría de los equipos. El entrenamiento basado en reloj requiere generar datos de diálogo asincrónico sintético; la canalización se documenta pero no es de código abierto en la publicación.

El patrón transferible es el principio de desacoplamiento: trate la entrada del usuario y la E/S de herramientas como corrientes asincrónicas independientes en lugar de bloqueadores síncronos. Deje que el bucle de razonamiento y acción del modelo se ejecute continuamente contra ambos. Construya un manejador de error especulativo antes de disparar cualquier cosa con efectos secundarios.

No se reporta ningún despliegue en producción. Este es un artículo de investigación con resultados de benchmark. Antes de adoptar, los equipos deberían querer distribuciones de latencia en tiempo real (p50/p99) en su mezcla específica de herramientas, el delta de precisión cuantificado en modelos en la nube, y una versión pública de la canalización de entrenamiento basada en reloj para modelos de borde.

Sources

Voice-controlled applications require under 1 second of latency for interactions to feel seamless
"with voice-controlled applications, under 1 second of latency is typically required for the interaction to feel seamless"
arxiv.org ↗
Multi-turn tool calling can add several seconds or more of latency
"if we want the LLM to reason and execute an agentic workflow with tool calling, this can add several seconds or more of latency, which is prohibitive for real-time latency-sensitive applications"
arxiv.org ↗
Asynchronous I/O decouples the agent's reason-and-act thread from waiting on user and environment streams
"We propose Asynchronous I/O, which decouples the core agent reason-and-act thread from waiting for additional information from either the user or environment, thereby allowing for overlapping agentic processing while waiting on external delays"
arxiv.org ↗
Speculative Tool Calling manages execution when the agent is unsure if it has received complete information from the user
"Speculative Tool Calling as a method to manage task execution when the agent is still unsure if it has received the full information or if additional user information may later be provided"
arxiv.org ↗
Cloud path delivers 1.3–1.7× speedups with minor accuracy loss on existing real-time cloud APIs without model changes
"For strong cloud models, our method can be applied out-of-the-box to existing real-time cloud APIs, providing 1.3-1.7× speedups with minor accuracy loss"
arxiv.org ↗
Edge models Qwen2.5-3B-Instruct and Llama-3.2-3B-Instruct achieve 1.6–2.2× speedups with clock-based training
"this approach provides 1.6-2.2× speedups with the Qwen2.5-3B-Instruct and Llama-3.2-3B-Instruct models across multiple tool calling benchmarks"
arxiv.org ↗
The system works out-of-the-box with OpenAI Realtime API and Gemini Live API websocket interfaces
"The OpenAI Realtime API (OpenAI, 2024) and Gemini Live API (Google Cloud, 2025) both provide websocket-based interfaces that support streaming inputs"
arxiv.org ↗
vLLM has added support for efficient streaming input processing
"open-source serving frameworks like vLLM have recently added support for efficient streaming input processing"
arxiv.org ↗
Clock-based training methodology adapts edge models for streaming inputs using synthetic SFT data
"we also present a clock-based training methodology that adapts the model to handle streaming inputs and asynchronous responses, and demonstrate a synthetic data generation strategy for SFT"
arxiv.org ↗
Standard agentic workflows block on waiting for the full user response before reasoning begins, and pause during tool execution
"Standard agentic workflows have high time-to-first-token (TTFT) due to having to wait for the full user response before beginning to think and act on it, as well as having to pause to wait on tool execution"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Framework de Berkeley Reduce Latencia de Agentes 1.3–2.2×

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.