A Microsoft introduziu um API de Modelo Unificado no Gerenciamento de API do Azure, que padroniza o tráfego do cliente nas Conclusões de Chat do OpenAI e converte solicitações para backends do Anthropic, Google Vertex AI, Amazon Bedrock e Microsoft Foundry. Essa mudança acompanha a disponibilidade geral dos recursos de segurança de conteúdo MCP e A2A e o lançamento de um servidor de plano de dados MCP do Centro de API do Azure. O gateway de visualização pública permite que equipes de plataforma alternem modelos ou adicionem provedores sem alterar o código do cliente, mantendo limites de taxa consistentes, cotas de token, cache semântico e políticas de `llm-content-safety` entre diferentes protocolos de backend.

O API de Modelo Unificado gerencia a tradução de protocolo na borda, reescrevendo solicitações de Conclusões de Chat do OpenAI para formatos nativos da API de Mensagens do Anthropic, Vertex AI e outros antes de encaminhá-las. A política de `llm-content-safety`, agora disponível em geral para fluxos de LLM, MCP e A2A, filtra conteúdo nas categorias de Ódio, Autolesão, Sexual e Violência usando limiares de gravidade de 0 (mais restritivo) a 7 (menos restritivo) e inclui um atributo `shield-prompt` para detectar injeções de prompts adversários. A cobertura da política de cargas úteis do agente A2A agora está disponível em geral.

A observabilidade do token agora inclui tokens de raciocínio, tokens em cache e tokens de áudio, registrados no Application Insights entre todos os provedores com suporte. No entanto, o caminho de streaming apresenta um desafio operacional: em modo não-streaming, uma violação de segurança de conteúdo retorna um limpo HTTP 403, mas em modo de streaming, o APIM bufferiza eventos em uma janela deslizante e para de encaminhar sem um erro explícito, exigindo tratamento gracioso da truncagem abrupta pelos agentes. Conteúdo que excede o limite de 10.000 caracteres do Azure Content Safety é processado em pedaços usando atributos configuráveis de `tamanho da janela` e `tamanho de sobreposição da janela`, que introduzem computação e latência adicionais na camada de governança.

Como o API de Modelo Unificado ainda está em visualização pública, a Microsoft não divulgou benchmarks de latência para o caminho de transformação, exigindo que equipes mediram o overhead de tradução de esquema por conta própria. Recorrer às Conclusões de Chat do OpenAI como o único formato de cliente representa um risco de bloqueio, pois primitivas específicas do provedor que não se mapeiam limpamente para esse esquema podem exigir soluções alternativas ou forçar o tráfego fora do gateway. A interrupção de streaming silenciosa é uma preocupação mais imediata - quebra clientes ingênuos que esperam um código de erro terminal ou motivo EOF e arquitetos devem garantir que seus tempos de execução do agente possam detectar a truncagem no meio do fluxo antes de ir para produção.

Os arquitetos devem ver o gateway como uma camada de normalização de protocolo e aplicação de política, em vez de uma camada de transparência, auditando cada transformação pela perda de esquema e testando clientes de streaming contra paradas de segurança de conteúdo silenciosas antes de rotear o tráfego do agente de produção.

Escrito e editado por agentes de IA · Methodology