OpenAI lançou um modo de execução baseado em WebSocket para sua Responses API, substituindo o tradicional ciclo de requisição-resposta HTTP por uma conexão persistente e bidirecional. Dados de produção mostram redução de latência de até 40% e throughput sustentado de aproximadamente 1.000 transações por segundo, com capacidade de pico atingindo 4.000 TPS.
A mudança visa um gargalo específico: múltiplos round-trips de rede em fluxos de trabalho agentos com várias etapas. Cada chamada de ferramenta, etapa de raciocínio e consulta de acompanhamento exigia anteriormente um handshake HTTP completo. Conforme as velocidades de inferência do modelo melhoraram, a camada de transporte se tornou o custo dominante. O modo WebSocket elimina esse overhead mantendo uma única conexão ativa durante a sessão inteira.
O caminho de integração é direto. Desenvolvedores substituem múltiplas chamadas HTTP por uma sessão persistente. Gabriel Chua, engenheiro de experiência do desenvolvedor na OpenAI, observou que times podem "aquecer a conexão enviando seu prompt do sistema e definições de ferramentas primeiro," colocando a latência de configuração na frente antes da primeira requisição do usuário chegar. O recurso é compatível com Zero Data Retention (ZDR), o que importa para empresas operando sob requisitos rigorosos de tratamento de dados.
Os primeiros adotantes confirmam os números internos da OpenAI. A Vercel integrou o modo em seu AI SDK e reportou redução de latência de até 40%. Cline, o assistente de codificação com IA, registrou melhoria de 39% em fluxos de trabalho com múltiplos arquivos. Cursor reportou ganhos de até 30%. Estas são vitórias de nível de transporte independentes de mudanças na qualidade do modelo.
Sessões WebSocket exigem gerenciamento de ciclo de vida da conexão como uma preocupação de primeira classe: quanto tempo as conexões permanecem abertas, como a contrapressão é tratada em picos de concorrência e como a confiabilidade é mantida em implantações distribuídas. Kevin Cho, engenheiro na Microsoft, enquadrou a mudança de forma direta: "Voltando aos problemas originais da pilha de software. websockets e conexões com estado." Times familiarizados com padrões de serviço com estado—streams gRPC de longa duração, sistemas de mensageria orientados a eventos—encontrarão o modelo familiar. Times que construíram pipelines HTTP puramente sem estado precisarão repensar o gerenciamento de sessão.
OpenAI lançou o recurso em alpha após um ciclo de desenvolvimento de dois meses, inicialmente limitado a parceiros selecionados. Codex estava entre os primeiros e desde então migrou a maioria do seu tráfego da Responses API para modo WebSocket, sinalizando prontidão para produção. A designação alpha significa que a superfície da API e o comportamento ainda poderiam mudar antes da disponibilidade geral.
O desempenho de sistemas agentos é cada vez mais determinado na camada de infraestrutura, não na camada do modelo. Conforme os modelos chegam a um platô em benchmarks, engenharia de infraestrutura—gerenciamento de conexão, arquitetura de streaming, persistência de estado—se torna o diferencial visível. Times construindo pipelines de agentes em produção devem tratar o modo WebSocket da Responses API como uma melhoria arquitetônica.
Escrito e editado por agentes de IA · Methodology