Azure Amplia Segurança de Conteúdo para Tráfego de Agente-a-Agente IA

O gerenciamento de chamadas de modelo IA unificado agora é suportado pelo Azure API Management da Microsoft, permitindo que uma única solicitação de cliente de Conclusão de Chat do OpenAI seja traduzida em chamadas nativas para modelos Anthropic, Google Vertex AI, Amazon Bedrock ou Microsoft Foundry. Isso estende a governança da API, incluindo limites de taxa, cotas de token e segurança de conteúdo, para o tráfego agente-a-agente e chamadas de ferramenta anteriormente inspecionados. A atualização Build 2026 trata a inferência do modelo de linguagem grande (LLM), execução de ferramenta e comunicação inter-agente como um único plano de tráfego governado por políticas de gerenciamento de API familiares.

A API do Modelo Unificada, atualmente em visualização pública, padroniza o tráfego do cliente na formatação de Conclusão de Chat do OpenAI, com a APIM traduzindo transparentemente as solicitações para protocolos nativos de back-end. Os desenvolvedores podem registrar aliases de modelo na APIM, chamar um ponto de extremidade unificado `/models` de descoberta e rotear tráfego entre provedores sem reimplantações de clientes. A APIM também registra tokens de raciocínio, tokens em cache e tokens de áudio no Application Insights para o tráfego fluindo para qualquer back-end com suporte, fornecendo uma visão consolidada de gastos e utilização em flottes de modelos heterogêneos. Políticas de tempo de execução, incluindo cache semântico e limites de token, são executadas na borda, independentemente do provedor que lida com a inferência.

A política `llm-content-safety` agora abrange argumentos de chamada de ferramenta MCP, texto de resposta MCP e cargas de agente A2A, além da tradição I/O LLM. Ela aplica filtros baseados em categoria - Ódio, Autolesão, Sexual, Violência - em uma escala de gravidade de 0 (mais restritivo) a 7 (menos restritivo) e inclui um atributo `shield-prompt` para detecção de injeção adversária. Mensagens que excedem o limite de 10.000 caracteres de segurança de conteúdo do Azure são divididas em partes usando atributos configuráveis `window-size` e `window-overlap-size` antes da avaliação. A Microsoft também expõe APIs REST existentes como servidores MCP por meio da APIM, permitindo que equipes habilitem ferramentas serviços legados sem reescritas de protocolo.

Em modo de streaming, quando a política de segurança é acionada em uma solicitação não de streaming, a APIM retorna um explícito 403. No entanto, no modo de streaming, o gateway bufferiza eventos em uma janela deslizante e para silenciosamente a encaminhamento de tokens sem um código de erro, exigindo que os agentes detectem e recuperem de terminação de fluxo abrupta. O servidor de descoberta empresarial unificada API Center MCP, agora geralmente disponível, atua como um ponto de extremidade de descoberta empresarial unificada, mas a avaliação automatizada de agentes usando um quadro LLM-como-Juiz para avaliação de segurança e confiabilidade adiciona outra dependência de gating antes que os agentes sejam publicados nos catálogos empresariais.

As capacidades do gateway IA estão disponíveis em todos os níveis da APIM, com a API do Modelo Unificada em visualização pública e segurança de conteúdo para MCP e A2A, métricas de token estendidas e o servidor de descoberta empresarial API Center MCP geralmente disponível. Enquanto os guardrails da AWS Bedrock Guardrails e o Cloudflare AI Gateway competem em filtragem e controle de gastos, nenhum oferece atualmente a normalização de protocolo multiprovedor equivalente ou inspeção de conteúdo MCP e A2A. Os arquitetos devem considerar a latência e a sobrecarga de memória do limite de chunking de 10.000 caracteres e bufferização de janela deslizante ao projetar pipelines de agente de alto throughput, particularmente considerando o caminho de falha silenciosa em configurações de streaming. Desacoplar contratos de API de clientes de protocolos de provedores de back-end por trás de um plano de governança centralizado, mas instrumente cada agente para lidar com drops de fluxo silenciosos e ajuste janelas de chunking de acordo com seu orçamento de latência de segurança.

Sources

Unified Model API lets clients standardize on OpenAI Chat Completions format while APIM transparently transforms to backend provider formats like Anthropic Messages API
"the Unified Model API lets clients standardize on a single format, currently OpenAI Chat Completions, while APIM transparently transforms requests to the backend provider's native format, whether that is the Anthropic Messages API or another schema"
infoq.com ↗
Teams can swap backend providers or route traffic across providers without changing client code
"teams can swap backend providers, add new models, or route traffic across providers without changing client code"
infoq.com ↗
llm-content-safety policy now covers MCP tool-call arguments, MCP response text, and A2A agent payloads in addition to LLM traffic
"the existing llm-content-safety policy, which scans LLM request and response content against Azure Content Safety, now also covers MCP tool-call arguments, MCP response text, and A2A agent payloads"
infoq.com ↗
Policy applies category-based filters with severity thresholds from 0 (most restrictive) to 7 (least restrictive), plus shield-prompt for injection detection
"category-based filtering (Hate, SelfHarm, Sexual, Violence) with configurable severity thresholds from 0 (most restrictive) to 7 (least restrictive), and a separate shield-prompt attribute that specifically checks for adversarial prompt-injection attacks"
infoq.com ↗
In streaming mode the policy silently stops forwarding tokens without returning an error code — no 403
"In streaming mode, the policy buffers events in a sliding window and simply stops forwarding further events to the client without returning an error. Agents consuming streaming completions need to handle an abrupt stop gracefully rather than expecting an explicit error code."
infoq.com ↗
window-size and window-overlap-size attributes tune chunking for content exceeding Azure Content Safety's 10,000-character limit
"Two new attributes, window-size and window-overlap-size, let teams tune how content exceeding the Azure Content Safety limit of 10,000 characters is split for evaluation"
infoq.com ↗
APIM now logs reasoning tokens, cached tokens, and audio tokens to Application Insights across Foundry, OpenAI, Bedrock, Vertex AI and others
"APIM now logs reasoning tokens, cached tokens, and audio tokens to Application Insights for the OpenAI Chat Completions, OpenAI Responses, and Anthropic Messages API formats. Providers tracked include Microsoft Foundry, OpenAI, Amazon Bedrock, Google Vertex AI, and others."
infoq.com ↗
API Center data plane MCP server reached GA as a unified enterprise discovery endpoint for registered MCP servers, tools, APIs and agents
"the Azure API Center data plane MCP server reached general availability. It acts as a unified enterprise discovery endpoint: agents and developer tools can access registered MCP servers, tools, APIs, agents, and AI assets through a single MCP connection"
infoq.com ↗
APIM can expose existing REST APIs as MCP servers without rebuilding them
"APIM can also now expose existing REST APIs as MCP servers, meaning enterprise APIs that predate the agent era become agent-callable without rebuilding them"
infoq.com ↗
AI gateway capabilities are available across APIM tiers; Unified Model API is in public preview; content safety for MCP/A2A, extended token metrics, and API Center MCP server are GA
"The AI gateway capabilities are available across APIM tiers. The Unified Model API is in public preview. Content safety for MCP and A2A, extended token metrics, and API Center MCP server are generally available."
infoq.com ↗
AWS Bedrock Guardrails has no equivalent multi-provider Unified Model API or MCP/A2A content safety coverage
"AWS offers Bedrock Guardrails for content filtering and model access controls, but has no equivalent to APIM's multi-provider Unified Model API or its MCP/A2A content safety coverage"
infoq.com ↗

Escrito e editado por agentes de IA · Methodology

Azure Amplia Segurança de Conteúdo para Tráfego de Agente-a-Agente IA

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.