Modo WebSocket de OpenAI Reduce Latencia de Agentes 40 Por Ciento

OpenAI lanzó un modo de ejecución basado en WebSocket para su Responses API que reduce la latencia en flujos de trabajo agentos mediante conexiones persistentes. Esta mejora de infraestructura acelera directamente los tiempos de respuesta para implementaciones de agentes autónomos en producción—una ventaja competitiva para empresas que construyen sistemas autónomos en tiempo real.

OpenAI lanzó un modo de ejecución basado en WebSocket para su Responses API, reemplazando el tradicional ciclo de solicitud-respuesta HTTP con una conexión persistente y bidireccional. Los datos de producción muestran una reducción de latencia de hasta 40% y un throughput sostenido de aproximadamente 1.000 transacciones por segundo, con una capacidad de ráfaga alcanzando 4.000 TPS.

El cambio apunta a un cuello de botella específico: múltiples viajes redondos de red en flujos de trabajo agentos de múltiples pasos. Cada llamada de herramienta, paso de razonamiento y consulta de seguimiento previamente requería un handshake HTTP completo. Conforme las velocidades de inferencia del modelo mejoraron, la capa de transporte se convirtió en el costo dominante. El modo WebSocket elimina ese overhead al mantener una única conexión activa durante toda la sesión.

La ruta de integración es directa. Los desarrolladores reemplazan múltiples llamadas HTTP con una única sesión persistente. Gabriel Chua, ingeniero de experiencia del desarrollador en OpenAI, señaló que los equipos pueden "calentar la conexión enviando tu prompt de sistema y definiciones de herramientas primero," colocando la latencia de configuración por delante de la primera solicitud del usuario. La característica es compatible con Zero Data Retention (ZDR), lo que importa para empresas operando bajo requisitos estrictos de manejo de datos.

Los primeros adoptantes confirman las cifras internas de OpenAI. Vercel integró el modo en su AI SDK e informó una reducción de latencia de hasta 40%. Cline, el asistente de codificación con IA, registró una mejora de 39% en flujos de trabajo de múltiples archivos. Cursor reportó ganancias de hasta 30%. Estas son victorias a nivel de transporte independientes de cambios en la calidad del modelo.

Las sesiones de WebSocket requieren la gestión del ciclo de vida de la conexión como una preocupación de primera clase: cuánto tiempo las conexiones permanecen abiertas, cómo se maneja la contrapresión bajo picos de concurrencia y cómo se mantiene la confiabilidad en implementaciones distribuidas. Kevin Cho, ingeniero en Microsoft, enunció el cambio de manera blunt: "Volviendo a los problemas originales de la pila de software. websockets y conexiones con estado." Los equipos familiarizados con patrones de servicios con estado—streams gRPC de larga duración, sistemas de mensajería orientados a eventos—encontrarán el modelo familiar. Los equipos que construyeron canalizaciones HTTP puramente sin estado necesitarán replantear la gestión de sesiones.

OpenAI lanzó la característica en alfa después de un ciclo de desarrollo de dos meses, inicialmente limitado a socios seleccionados. Codex estuvo entre los primeros y desde entonces ha migrado la mayoría del tráfico de su Responses API al modo WebSocket, señalando una disponibilidad para producción. La designación alfa significa que la superficie de la API y el comportamiento aún podrían cambiar antes de la disponibilidad general.

El rendimiento del sistema agentos es cada vez más determinado en la capa de infraestructura, no en la capa del modelo. Conforme los modelos se estabilizan en benchmarks, la ingeniería de infraestructura—gestión de conexiones, arquitectura de streaming, persistencia de estado—se convierte en el diferenciador visible. Los equipos que construyen canalizaciones de agentes de producción deben tratar el modo WebSocket de Responses API como una actualización arquitectónica.

Sources

OpenAI's WebSocket-based Responses API mode shows up to 40% latency reduction and sustained throughput of ~1,000 TPS with bursts to 4,000 TPS
"OpenAI reported up to 40% latency reduction in early production use, along with sustained throughput of around 1,000 transactions per second and bursts up to 4,000 TPS."
infoq.com ↗
The WebSocket mode replaces separate HTTP requests per agentic workflow step with a persistent bidirectional connection
"The change replaces the traditional HTTP request-response pattern with a persistent, bidirectional connection between client and server, targeting latency and coordination overhead in multi-step reasoning workflows."
infoq.com ↗
Gabriel Chua (OpenAI DX engineer) confirmed connections can be pre-warmed with system prompt and tool definitions, and the feature is ZDR compatible
"You can warm up the connection by sending your system prompt and tool definitions first. It's Zero Data Retention (ZDR) compatible."
infoq.com ↗
Vercel reported up to 40% latency reduction after integrating WebSocket mode into its AI SDK
"Vercel integrated the WebSocket mode into its AI SDK and reported up to 40% latency reduction."
infoq.com ↗
Cline observed a 39% improvement in multi-file workflows using WebSocket mode
"Cline observed a 39% improvement in multi-file workflows, while Cursor reported gains of up to 30%."
infoq.com ↗
Cursor reported latency gains of up to 30% with WebSocket mode
"Cline observed a 39% improvement in multi-file workflows, while Cursor reported gains of up to 30%."
infoq.com ↗
Kevin Cho (Microsoft engineer) characterized the shift as returning to stateful websocket connection patterns
"Going back to the original software stack problems. websockets and stateful connections."
infoq.com ↗
OpenAI released the WebSocket mode in alpha after a two-month cycle; Codex has migrated most Responses API traffic to it
"OpenAI released the feature in alpha after a two-month cycle to selected partners, including Codex. Codex has since migrated most Responses API traffic to WebSocket mode, indicating production readiness."
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

Modo WebSocket de OpenAI Reduce Latencia de Agentes 40 Por Ciento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.