Azure Amplía la Seguridad de Contenido al Tráfico de Agente a Agente de IA

La Administración de API de Microsoft Azure ahora admite un enfoque unificado para la gestión de llamadas a modelos de IA, permitiendo que una única solicitud de cliente de Completaciones de Chat de OpenAI se traduzca en llamadas nativas para modelos de Anthropic, Google Vertex AI, Amazon Bedrock o Microsoft Foundry. Esto amplía la gobernanza de API, incluyendo límites de tasa, cuotas de tokens y seguridad de contenido, al tráfego de agente a agente e llamadas a herramientas no inspeccionadas previamente. La actualización Build 2026 trata la inferencia de grandes modelos de lenguaje (LLM), la ejecución de herramientas e intercomunicación de agentes como un único plano de tráfico gobernado por políticas de administración de API conocidas.

La API de Modelo Unificada, actualmente en vista previa pública, estandariza el tráfico de clientes en el formato de Completaciones de Chat de OpenAI, con APIM traduciendo de forma transparente las solicitudes a protocolos nativos de back-end. Los desarrolladores pueden registrar alias de modelos en APIM, llamar a un punto final unificado `/models` de detección y enrutar el tráfico entre proveedores sin la reimplementación del cliente. APIM también registra tokens de razonamiento, tokens en caché y tokens de audio en Application Insights para el tráfico que fluye hacia cualquier back-end compatible, proporcionando una vista consolidada del gasto y la utilización entre flotas de modelos heterogéneos. Las políticas en tiempo de ejecución, incluidas el almacenamiento en caché semántico y los límites de tokens, se ejecutan en el borde independientemente del proveedor que maneje la inferencia.

La política `llm-content-safety` ahora cubre argumentos de llamadas a herramientas MCP, texto de respuesta MCP y cargas útiles de agentes A2A, además de la tradición I/O de LLM. Aplica filtros basados en categorías -Odio, Autolesión, Sexual, Violencia- en una escala de gravedad de 0 (más restrictivo) a 7 (menos restrictivo) e incluye un atributo `shield-prompt` para la detección de inyección adversarial. Los mensajes que superan el límite de 10,000 caracteres de Azure Content Safety se fragmentan utilizando atributos configurables `window-size` y `window-overlap-size` antes de la evaluación. Microsoft también expone las API REST existentes como servidores MCP a través de APIM, permitiendo a los equipos habilitar herramientas para servicios heredados sin reescribir protocolos.

En modo de streaming, cuando la política de seguridad se activa en una solicitud no de streaming, APIM devuelve un 403 explícito. Sin embargo, en el modo de streaming, la pasarela almacena en búfer eventos en una ventana deslizante y deja de reenviar tokens sin un código de error, lo que requiere que los agentes detecten y se recuperen de la terminación abrupta de la secuencia. El servidor de API Center MCP, ahora disponible generalmente, actúa como un punto final de detección empresarial unificado, pero la evaluación automatizada de agentes utilizando un marco LLM-as-a-Judge para la evaluación de seguridad y confiabilidad agrega otra dependencia de control antes de que los agentes se publiquen en catálogos empresariales.

Las capacidades de la pasarela de IA están disponibles en todos los niveles de APIM, con la API de Modelo Unificada en vista previa pública y la seguridad de contenido para MCP y A2A, métricas de tokens extendidas y el servidor de API Center MCP disponibles generalmente. Si bien AWS Bedrock Guardrails y Cloudflare AI Gateway compiten en filtros y controles de gasto, ninguno ofrece actualmente una normalización de protocolos multi-proveedor equivalente o inspección de contenido de MCP y A2A. Los arquitectos deben considerar la sobrecarga de latencia y memoria del límite de fragmentación de 10,000 caracteres y el almacenamiento en búfer de ventana deslizante al diseñar tuberías de agentes de alto rendimiento, especialmente dada la ruta de fallo silenciosa en configuraciones de streaming. Descople los contratos de API de clientes de los protocolos de proveedores de back-end detrás de un plano de gobernanza centralizado, pero instrumente a cada agente para manejar las caídas de secuencias silenciosas y ajuste las ventanas de fragmentación según su presupuesto de latencia de seguridad.

Sources

Unified Model API lets clients standardize on OpenAI Chat Completions format while APIM transparently transforms to backend provider formats like Anthropic Messages API
"the Unified Model API lets clients standardize on a single format, currently OpenAI Chat Completions, while APIM transparently transforms requests to the backend provider's native format, whether that is the Anthropic Messages API or another schema"
infoq.com ↗
Teams can swap backend providers or route traffic across providers without changing client code
"teams can swap backend providers, add new models, or route traffic across providers without changing client code"
infoq.com ↗
llm-content-safety policy now covers MCP tool-call arguments, MCP response text, and A2A agent payloads in addition to LLM traffic
"the existing llm-content-safety policy, which scans LLM request and response content against Azure Content Safety, now also covers MCP tool-call arguments, MCP response text, and A2A agent payloads"
infoq.com ↗
Policy applies category-based filters with severity thresholds from 0 (most restrictive) to 7 (least restrictive), plus shield-prompt for injection detection
"category-based filtering (Hate, SelfHarm, Sexual, Violence) with configurable severity thresholds from 0 (most restrictive) to 7 (least restrictive), and a separate shield-prompt attribute that specifically checks for adversarial prompt-injection attacks"
infoq.com ↗
In streaming mode the policy silently stops forwarding tokens without returning an error code — no 403
"In streaming mode, the policy buffers events in a sliding window and simply stops forwarding further events to the client without returning an error. Agents consuming streaming completions need to handle an abrupt stop gracefully rather than expecting an explicit error code."
infoq.com ↗
window-size and window-overlap-size attributes tune chunking for content exceeding Azure Content Safety's 10,000-character limit
"Two new attributes, window-size and window-overlap-size, let teams tune how content exceeding the Azure Content Safety limit of 10,000 characters is split for evaluation"
infoq.com ↗
APIM now logs reasoning tokens, cached tokens, and audio tokens to Application Insights across Foundry, OpenAI, Bedrock, Vertex AI and others
"APIM now logs reasoning tokens, cached tokens, and audio tokens to Application Insights for the OpenAI Chat Completions, OpenAI Responses, and Anthropic Messages API formats. Providers tracked include Microsoft Foundry, OpenAI, Amazon Bedrock, Google Vertex AI, and others."
infoq.com ↗
API Center data plane MCP server reached GA as a unified enterprise discovery endpoint for registered MCP servers, tools, APIs and agents
"the Azure API Center data plane MCP server reached general availability. It acts as a unified enterprise discovery endpoint: agents and developer tools can access registered MCP servers, tools, APIs, agents, and AI assets through a single MCP connection"
infoq.com ↗
APIM can expose existing REST APIs as MCP servers without rebuilding them
"APIM can also now expose existing REST APIs as MCP servers, meaning enterprise APIs that predate the agent era become agent-callable without rebuilding them"
infoq.com ↗
AI gateway capabilities are available across APIM tiers; Unified Model API is in public preview; content safety for MCP/A2A, extended token metrics, and API Center MCP server are GA
"The AI gateway capabilities are available across APIM tiers. The Unified Model API is in public preview. Content safety for MCP and A2A, extended token metrics, and API Center MCP server are generally available."
infoq.com ↗
AWS Bedrock Guardrails has no equivalent multi-provider Unified Model API or MCP/A2A content safety coverage
"AWS offers Bedrock Guardrails for content filtering and model access controls, but has no equivalent to APIM's multi-provider Unified Model API or its MCP/A2A content safety coverage"
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

Azure Amplía la Seguridad de Contenido al Tráfico de Agente a Agente de IA

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.