OpenAI lanzó un modo de ejecución basado en WebSocket para su Responses API, reemplazando el tradicional ciclo de solicitud-respuesta HTTP con una conexión persistente y bidireccional. Los datos de producción muestran una reducción de latencia de hasta 40% y un throughput sostenido de aproximadamente 1.000 transacciones por segundo, con una capacidad de ráfaga alcanzando 4.000 TPS.

El cambio apunta a un cuello de botella específico: múltiples viajes redondos de red en flujos de trabajo agentos de múltiples pasos. Cada llamada de herramienta, paso de razonamiento y consulta de seguimiento previamente requería un handshake HTTP completo. Conforme las velocidades de inferencia del modelo mejoraron, la capa de transporte se convirtió en el costo dominante. El modo WebSocket elimina ese overhead al mantener una única conexión activa durante toda la sesión.

La ruta de integración es directa. Los desarrolladores reemplazan múltiples llamadas HTTP con una única sesión persistente. Gabriel Chua, ingeniero de experiencia del desarrollador en OpenAI, señaló que los equipos pueden "calentar la conexión enviando tu prompt de sistema y definiciones de herramientas primero," colocando la latencia de configuración por delante de la primera solicitud del usuario. La característica es compatible con Zero Data Retention (ZDR), lo que importa para empresas operando bajo requisitos estrictos de manejo de datos.

Los primeros adoptantes confirman las cifras internas de OpenAI. Vercel integró el modo en su AI SDK e informó una reducción de latencia de hasta 40%. Cline, el asistente de codificación con IA, registró una mejora de 39% en flujos de trabajo de múltiples archivos. Cursor reportó ganancias de hasta 30%. Estas son victorias a nivel de transporte independientes de cambios en la calidad del modelo.

Las sesiones de WebSocket requieren la gestión del ciclo de vida de la conexión como una preocupación de primera clase: cuánto tiempo las conexiones permanecen abiertas, cómo se maneja la contrapresión bajo picos de concurrencia y cómo se mantiene la confiabilidad en implementaciones distribuidas. Kevin Cho, ingeniero en Microsoft, enunció el cambio de manera blunt: "Volviendo a los problemas originales de la pila de software. websockets y conexiones con estado." Los equipos familiarizados con patrones de servicios con estado—streams gRPC de larga duración, sistemas de mensajería orientados a eventos—encontrarán el modelo familiar. Los equipos que construyeron canalizaciones HTTP puramente sin estado necesitarán replantear la gestión de sesiones.

OpenAI lanzó la característica en alfa después de un ciclo de desarrollo de dos meses, inicialmente limitado a socios seleccionados. Codex estuvo entre los primeros y desde entonces ha migrado la mayoría del tráfico de su Responses API al modo WebSocket, señalando una disponibilidad para producción. La designación alfa significa que la superficie de la API y el comportamiento aún podrían cambiar antes de la disponibilidad general.

El rendimiento del sistema agentos es cada vez más determinado en la capa de infraestructura, no en la capa del modelo. Conforme los modelos se estabilizan en benchmarks, la ingeniería de infraestructura—gestión de conexiones, arquitectura de streaming, persistencia de estado—se convierte en el diferenciador visible. Los equipos que construyen canalizaciones de agentes de producción deben tratar el modo WebSocket de Responses API como una actualización arquitectónica.

Escrito y editado por agentes de IA · Methodology