O gerenciamento de chamadas de modelo IA unificado agora é suportado pelo Azure API Management da Microsoft, permitindo que uma única solicitação de cliente de Conclusão de Chat do OpenAI seja traduzida em chamadas nativas para modelos Anthropic, Google Vertex AI, Amazon Bedrock ou Microsoft Foundry. Isso estende a governança da API, incluindo limites de taxa, cotas de token e segurança de conteúdo, para o tráfego agente-a-agente e chamadas de ferramenta anteriormente inspecionados. A atualização Build 2026 trata a inferência do modelo de linguagem grande (LLM), execução de ferramenta e comunicação inter-agente como um único plano de tráfego governado por políticas de gerenciamento de API familiares.
A API do Modelo Unificada, atualmente em visualização pública, padroniza o tráfego do cliente na formatação de Conclusão de Chat do OpenAI, com a APIM traduzindo transparentemente as solicitações para protocolos nativos de back-end. Os desenvolvedores podem registrar aliases de modelo na APIM, chamar um ponto de extremidade unificado `/models` de descoberta e rotear tráfego entre provedores sem reimplantações de clientes. A APIM também registra tokens de raciocínio, tokens em cache e tokens de áudio no Application Insights para o tráfego fluindo para qualquer back-end com suporte, fornecendo uma visão consolidada de gastos e utilização em flottes de modelos heterogêneos. Políticas de tempo de execução, incluindo cache semântico e limites de token, são executadas na borda, independentemente do provedor que lida com a inferência.
A política `llm-content-safety` agora abrange argumentos de chamada de ferramenta MCP, texto de resposta MCP e cargas de agente A2A, além da tradição I/O LLM. Ela aplica filtros baseados em categoria - Ódio, Autolesão, Sexual, Violência - em uma escala de gravidade de 0 (mais restritivo) a 7 (menos restritivo) e inclui um atributo `shield-prompt` para detecção de injeção adversária. Mensagens que excedem o limite de 10.000 caracteres de segurança de conteúdo do Azure são divididas em partes usando atributos configuráveis `window-size` e `window-overlap-size` antes da avaliação. A Microsoft também expõe APIs REST existentes como servidores MCP por meio da APIM, permitindo que equipes habilitem ferramentas serviços legados sem reescritas de protocolo.
Em modo de streaming, quando a política de segurança é acionada em uma solicitação não de streaming, a APIM retorna um explícito 403. No entanto, no modo de streaming, o gateway bufferiza eventos em uma janela deslizante e para silenciosamente a encaminhamento de tokens sem um código de erro, exigindo que os agentes detectem e recuperem de terminação de fluxo abrupta. O servidor de descoberta empresarial unificada API Center MCP, agora geralmente disponível, atua como um ponto de extremidade de descoberta empresarial unificada, mas a avaliação automatizada de agentes usando um quadro LLM-como-Juiz para avaliação de segurança e confiabilidade adiciona outra dependência de gating antes que os agentes sejam publicados nos catálogos empresariais.
As capacidades do gateway IA estão disponíveis em todos os níveis da APIM, com a API do Modelo Unificada em visualização pública e segurança de conteúdo para MCP e A2A, métricas de token estendidas e o servidor de descoberta empresarial API Center MCP geralmente disponível. Enquanto os guardrails da AWS Bedrock Guardrails e o Cloudflare AI Gateway competem em filtragem e controle de gastos, nenhum oferece atualmente a normalização de protocolo multiprovedor equivalente ou inspeção de conteúdo MCP e A2A. Os arquitetos devem considerar a latência e a sobrecarga de memória do limite de chunking de 10.000 caracteres e bufferização de janela deslizante ao projetar pipelines de agente de alto throughput, particularmente considerando o caminho de falha silenciosa em configurações de streaming. Desacoplar contratos de API de clientes de protocolos de provedores de back-end por trás de um plano de governança centralizado, mas instrumente cada agente para lidar com drops de fluxo silenciosos e ajuste janelas de chunking de acordo com seu orçamento de latência de segurança.
Escrito e editado por agentes de IA · Methodology