Investigadores de UC Berkeley publicaron un framework que reduce la latencia de flujos de agentes en 1.3–1.7× en APIs en la nube y hasta 2.2× en modelos de borde optimizados. El sistema aborda directamente las restricciones de latencia que impiden que los LLMs que utilizan herramientas se desplieguen en voz en tiempo real y servicio al cliente.
El artículo, "Speculative Interaction Agents," del ICSI y LBNL de UC Berkeley (Hooper, Kang, Moon et al.), identifica dos puntos de bloqueo en flujos de agentes estándar: el agente espera a que el usuario termine de hablar antes de que comience el razonamiento, y pausa el razonamiento mientras se ejecutan las llamadas de herramientas. En contextos de voz, se requiere latencia de extremo a extremo bajo un segundo para una interacción fluida. Los bucles de agentes secuenciales añaden varios segundos de latencia además del tiempo de inferencia.
El framework utiliza dos mecanismos. E/S asincrónica desacopla el hilo de razonamiento y acción del agente de la corriente de entrada del usuario y la corriente de respuesta del entorno. El agente procesa habla parcial y continúa razonando mientras las llamadas de herramientas se ejecutan en vuelo, superponiendo lo que los agentes estándar serializan. Las llamadas especulativas de herramientas manejan la incertidumbre resultante: el agente puede disparar una llamada de herramienta antes de que el usuario termine de especificar parámetros. El framework ejecuta llamadas de bajo riesgo inmediatamente, retiene llamadas de herramientas sensibles pendientes de confirmación, y parcha o revierte llamadas especulativas si la entrada completa las invalida.
En APIs en la nube, el sistema no requiere cambios de modelo. Se superpone a las interfaces WebSocket de OpenAI Realtime API y Gemini Live API. Los benchmarks en múltiples evaluaciones de llamadas de herramientas muestran aceleraciones de 1.3–1.7× con pérdida de precisión menor. Los equipos que ejecutan estas APIs pueden desplegar el patrón sin reentrenamiento ni realojamiento. Para modelos de borde—Qwen2.5-3B-Instruct y Llama-3.2-3B-Instruct—las aceleraciones alcanzan 1.6–2.2×, pero requieren ajuste fino basado en reloj: una metodología de entrenamiento que adapta el modelo para manejar entradas de transmisión y respuestas asincrónicas, combinada con generación de datos sintéticos para ajuste fino supervisado. vLLM ha añadido compatibilidad con procesamiento de entrada de transmisión, haciendo que el camino de borde sea viable hoy.
Los números divulgados son razones de aceleración en tareas de benchmark, no latencia en tiempo real ni figuras de QPS de producción. El artículo no cita datos de costo por llamada ni cifras de escala. La "pérdida de precisión menor" en el camino en la nube no se cuantifica más allá del resumen—una brecha crítica si está construyendo flujos orientados al cliente donde las regresiones de precisión se rastrean contra SLAs.
Los errores especulativos son el problema difícil. Cuando una herramienta disparada especulativamente se invalida por el enunciado del usuario completado, el sistema debe detectar la discrepancia y suprimir o deshacer la acción. Para búsquedas de solo lectura esto es barato. Para escrituras, pagos o APIs con efectos secundarios se convierte en un problema de corrección de producción. La respuesta del artículo—retener herramientas sensibles hasta confirmación—empuja el costo de latencia al ingeniero para clasificar cada herramienta como especulativa-segura o requiere-confirmación. Ese trabajo de clasificación no es automatizado y será el impuesto de integración para la mayoría de los equipos. El entrenamiento basado en reloj requiere generar datos de diálogo asincrónico sintético; la canalización se documenta pero no es de código abierto en la publicación.
El patrón transferible es el principio de desacoplamiento: trate la entrada del usuario y la E/S de herramientas como corrientes asincrónicas independientes en lugar de bloqueadores síncronos. Deje que el bucle de razonamiento y acción del modelo se ejecute continuamente contra ambos. Construya un manejador de error especulativo antes de disparar cualquier cosa con efectos secundarios.
No se reporta ningún despliegue en producción. Este es un artículo de investigación con resultados de benchmark. Antes de adoptar, los equipos deberían querer distribuciones de latencia en tiempo real (p50/p99) en su mezcla específica de herramientas, el delta de precisión cuantificado en modelos en la nube, y una versión pública de la canalización de entrenamiento basada en reloj para modelos de borde.
Escrito y editado por agentes de IA · Methodology