A Microsoft expandiu o gerenciamento de API do Azure para normalizar solicitações de inferência entre Microsoft Foundry, OpenAI, Anthropic, Google Vertex AI e Amazon Bedrock por trás de um único endpoint de Conclusão de Chat do OpenAI e estendeu seu mecanismo de segurança de conteúdo do Azure para inspecionar argumentos de chamada de ferramenta MCP e cargas de agentes A2A, conforme relatado pela cobertura da InfoQ da Build 2026. A atualização trata o gateway de API existente como o plano de controle para cargas de trabalho agenticas, evitando a necessidade de uma pilha de governança paralela.

A API de Modelo Unificada, agora em visualização pública, permite que aplicativos cliente padronizem o formato de Conclusão de Chat do OpenAI enquanto o APIM transforma transparentemente solicitações para o protocolo nativo do backend escolhido, como a API de Mensagens do Anthropic. A mesma superfície de política governa todos os provedores: limites de taxa, cotas de token e a política de `llm-content-safety` se aplicam uniformemente, independentemente de qual modelo lida com a inferência, permitindo que equipes redirecionem tráfego entre provedores ou incorporem novos modelos sem alterar o código do cliente.

A política de segurança agora abrange mais do que corpos de solicitação e resposta do LLM, inspecionando argumentos de chamada de ferramenta MCP, texto de resposta MCP e cargas de agentes A2A. Os operadores podem configurar filtragem baseada em categoria entre Hate, SelfHarm, Sexual e Violence com limiares de gravidade por categoria de 0 (mais restritivo) a 7 (menos restritivo) e ativar um atributo `shield-prompt` para capturar tentativas de injeção de prompt adversarial. A telemetria de token foi expandida: o APIM agora registra tokens de raciocínio, tokens em cache e tokens de áudio para o Application Insights para tráfego moldado como Conclusões de Chat do OpenAI, Respostas do OpenAI ou Mensagens do Anthropic. Isso tem implicações diretas para FinOps - tokens de raciocínio e tokens em cache agora consomem orçamento material, e pipelines de métricas anteriores que os ignoravam eram imprecisos.

A Microsoft não publicou atrasos de latência, limite de throughput ou acréscimo de custo por chamada para a camada de tradução, então arquitetos devem medir o gateway sob carga de produção antes de comprometer caminhos críticos com ele. Um limite rígido de segurança de conteúdo do Azure de 10.000 caracteres por avaliação é documentado, exigindo que entradas longas sejam divididas em pedaços ajustáveis por meio dos novos atributos `window-size` e `window-overlap-size`. Respostas de streaming se comportam diferentemente das sincronas: uma violação de política no modo não-streaming retorna um HTTP 403, mas no modo de streaming o gateway bufferiza eventos em uma janela deslizante e para silenciosamente de encaminhar mais tokens sem retornar um código de erro. Qualquer agente que consome conclusões de streaming deve lidar com uma interrupção abrupta e graciosa em vez de esperar um erro explícito, e a falta de um sinal de erro torna a depuração de gatilhos de segurança indistinguível de falhas de infraestrutura.

O servidor MCP do Azure API Center e o servidor MCP das Aplicações Lógicas alcançaram disponibilidade geral, fornecendo a empresas dois caminhos para expor recursos a agentes - seja através do APIM ou através da plataforma de integração. O APIM também pode expor APIs REST existentes como servidores MCP, permitindo que APIs corporativas pré-agentes sejam chamadas por novos clientes agenticos sem reconstuí-las.

Os Guardrails da AWS Bedrock oferecem filtragem de conteúdo e controle de acesso ao modelo, mas carecem de unificação multiprovedor e cobertura de segurança dedicada de MCP ou A2A. Os recursos de gateway AI do Google Apigee ainda não correspondem à amplitude de protocolo do APIM, e o Gateway AI da Cloudflare permanece focado em limites de gastos e cacheamento em vez de governança multiprotocolo. A aposta da Microsoft é que primitivos de governança de API familiares devam estender-se diretamente a agentes, embora a carga de resiliência do lado do cliente para segurança de streaming, a complexidade do chunking de 10.000 caracteres e a ausência de linhas de base de desempenho publicados deixem risco operacional na bandeja do arquiteto.

Trate seu gateway de API como o único ponto de aplicação para acesso a modelos multiprovedor e segurança de agentes, mas instrumente cada cliente de streaming para lidar com truncamento silencioso e janelas de conteúdo fragmentado.

Escrito e editado por agentes de IA · Methodology