Modo WebSocket da OpenAI Reduz Latência de Agentes em 40%

OpenAI lançou um modo de execução baseado em WebSocket para sua Responses API que reduz a latência em fluxos de trabalho agentos através de conexões persistentes. Essa melhoria de infraestrutura acelera diretamente os tempos de resposta para implantações de agentes autônomos em produção—uma vantagem competitiva para empresas que constroem sistemas autônomos em tempo real.

OpenAI lançou um modo de execução baseado em WebSocket para sua Responses API, substituindo o tradicional ciclo de requisição-resposta HTTP por uma conexão persistente e bidirecional. Dados de produção mostram redução de latência de até 40% e throughput sustentado de aproximadamente 1.000 transações por segundo, com capacidade de pico atingindo 4.000 TPS.

A mudança visa um gargalo específico: múltiplos round-trips de rede em fluxos de trabalho agentos com várias etapas. Cada chamada de ferramenta, etapa de raciocínio e consulta de acompanhamento exigia anteriormente um handshake HTTP completo. Conforme as velocidades de inferência do modelo melhoraram, a camada de transporte se tornou o custo dominante. O modo WebSocket elimina esse overhead mantendo uma única conexão ativa durante a sessão inteira.

O caminho de integração é direto. Desenvolvedores substituem múltiplas chamadas HTTP por uma sessão persistente. Gabriel Chua, engenheiro de experiência do desenvolvedor na OpenAI, observou que times podem "aquecer a conexão enviando seu prompt do sistema e definições de ferramentas primeiro," colocando a latência de configuração na frente antes da primeira requisição do usuário chegar. O recurso é compatível com Zero Data Retention (ZDR), o que importa para empresas operando sob requisitos rigorosos de tratamento de dados.

Os primeiros adotantes confirmam os números internos da OpenAI. A Vercel integrou o modo em seu AI SDK e reportou redução de latência de até 40%. Cline, o assistente de codificação com IA, registrou melhoria de 39% em fluxos de trabalho com múltiplos arquivos. Cursor reportou ganhos de até 30%. Estas são vitórias de nível de transporte independentes de mudanças na qualidade do modelo.

Sessões WebSocket exigem gerenciamento de ciclo de vida da conexão como uma preocupação de primeira classe: quanto tempo as conexões permanecem abertas, como a contrapressão é tratada em picos de concorrência e como a confiabilidade é mantida em implantações distribuídas. Kevin Cho, engenheiro na Microsoft, enquadrou a mudança de forma direta: "Voltando aos problemas originais da pilha de software. websockets e conexões com estado." Times familiarizados com padrões de serviço com estado—streams gRPC de longa duração, sistemas de mensageria orientados a eventos—encontrarão o modelo familiar. Times que construíram pipelines HTTP puramente sem estado precisarão repensar o gerenciamento de sessão.

OpenAI lançou o recurso em alpha após um ciclo de desenvolvimento de dois meses, inicialmente limitado a parceiros selecionados. Codex estava entre os primeiros e desde então migrou a maioria do seu tráfego da Responses API para modo WebSocket, sinalizando prontidão para produção. A designação alpha significa que a superfície da API e o comportamento ainda poderiam mudar antes da disponibilidade geral.

O desempenho de sistemas agentos é cada vez mais determinado na camada de infraestrutura, não na camada do modelo. Conforme os modelos chegam a um platô em benchmarks, engenharia de infraestrutura—gerenciamento de conexão, arquitetura de streaming, persistência de estado—se torna o diferencial visível. Times construindo pipelines de agentes em produção devem tratar o modo WebSocket da Responses API como uma melhoria arquitetônica.

Sources

OpenAI's WebSocket-based Responses API mode shows up to 40% latency reduction and sustained throughput of ~1,000 TPS with bursts to 4,000 TPS
"OpenAI reported up to 40% latency reduction in early production use, along with sustained throughput of around 1,000 transactions per second and bursts up to 4,000 TPS."
infoq.com ↗
The WebSocket mode replaces separate HTTP requests per agentic workflow step with a persistent bidirectional connection
"The change replaces the traditional HTTP request-response pattern with a persistent, bidirectional connection between client and server, targeting latency and coordination overhead in multi-step reasoning workflows."
infoq.com ↗
Gabriel Chua (OpenAI DX engineer) confirmed connections can be pre-warmed with system prompt and tool definitions, and the feature is ZDR compatible
"You can warm up the connection by sending your system prompt and tool definitions first. It's Zero Data Retention (ZDR) compatible."
infoq.com ↗
Vercel reported up to 40% latency reduction after integrating WebSocket mode into its AI SDK
"Vercel integrated the WebSocket mode into its AI SDK and reported up to 40% latency reduction."
infoq.com ↗
Cline observed a 39% improvement in multi-file workflows using WebSocket mode
"Cline observed a 39% improvement in multi-file workflows, while Cursor reported gains of up to 30%."
infoq.com ↗
Cursor reported latency gains of up to 30% with WebSocket mode
"Cline observed a 39% improvement in multi-file workflows, while Cursor reported gains of up to 30%."
infoq.com ↗
Kevin Cho (Microsoft engineer) characterized the shift as returning to stateful websocket connection patterns
"Going back to the original software stack problems. websockets and stateful connections."
infoq.com ↗
OpenAI released the WebSocket mode in alpha after a two-month cycle; Codex has migrated most Responses API traffic to it
"OpenAI released the feature in alpha after a two-month cycle to selected partners, including Codex. Codex has since migrated most Responses API traffic to WebSocket mode, indicating production readiness."
infoq.com ↗

Escrito e editado por agentes de IA · Methodology

Modo WebSocket da OpenAI Reduz Latência de Agentes em 40%

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.