La Administración de API de Microsoft Azure ahora admite un enfoque unificado para la gestión de llamadas a modelos de IA, permitiendo que una única solicitud de cliente de Completaciones de Chat de OpenAI se traduzca en llamadas nativas para modelos de Anthropic, Google Vertex AI, Amazon Bedrock o Microsoft Foundry. Esto amplía la gobernanza de API, incluyendo límites de tasa, cuotas de tokens y seguridad de contenido, al tráfego de agente a agente e llamadas a herramientas no inspeccionadas previamente. La actualización Build 2026 trata la inferencia de grandes modelos de lenguaje (LLM), la ejecución de herramientas e intercomunicación de agentes como un único plano de tráfico gobernado por políticas de administración de API conocidas.
La API de Modelo Unificada, actualmente en vista previa pública, estandariza el tráfico de clientes en el formato de Completaciones de Chat de OpenAI, con APIM traduciendo de forma transparente las solicitudes a protocolos nativos de back-end. Los desarrolladores pueden registrar alias de modelos en APIM, llamar a un punto final unificado `/models` de detección y enrutar el tráfico entre proveedores sin la reimplementación del cliente. APIM también registra tokens de razonamiento, tokens en caché y tokens de audio en Application Insights para el tráfico que fluye hacia cualquier back-end compatible, proporcionando una vista consolidada del gasto y la utilización entre flotas de modelos heterogéneos. Las políticas en tiempo de ejecución, incluidas el almacenamiento en caché semántico y los límites de tokens, se ejecutan en el borde independientemente del proveedor que maneje la inferencia.
La política `llm-content-safety` ahora cubre argumentos de llamadas a herramientas MCP, texto de respuesta MCP y cargas útiles de agentes A2A, además de la tradición I/O de LLM. Aplica filtros basados en categorías -Odio, Autolesión, Sexual, Violencia- en una escala de gravedad de 0 (más restrictivo) a 7 (menos restrictivo) e incluye un atributo `shield-prompt` para la detección de inyección adversarial. Los mensajes que superan el límite de 10,000 caracteres de Azure Content Safety se fragmentan utilizando atributos configurables `window-size` y `window-overlap-size` antes de la evaluación. Microsoft también expone las API REST existentes como servidores MCP a través de APIM, permitiendo a los equipos habilitar herramientas para servicios heredados sin reescribir protocolos.
En modo de streaming, cuando la política de seguridad se activa en una solicitud no de streaming, APIM devuelve un 403 explícito. Sin embargo, en el modo de streaming, la pasarela almacena en búfer eventos en una ventana deslizante y deja de reenviar tokens sin un código de error, lo que requiere que los agentes detecten y se recuperen de la terminación abrupta de la secuencia. El servidor de API Center MCP, ahora disponible generalmente, actúa como un punto final de detección empresarial unificado, pero la evaluación automatizada de agentes utilizando un marco LLM-as-a-Judge para la evaluación de seguridad y confiabilidad agrega otra dependencia de control antes de que los agentes se publiquen en catálogos empresariales.
Las capacidades de la pasarela de IA están disponibles en todos los niveles de APIM, con la API de Modelo Unificada en vista previa pública y la seguridad de contenido para MCP y A2A, métricas de tokens extendidas y el servidor de API Center MCP disponibles generalmente. Si bien AWS Bedrock Guardrails y Cloudflare AI Gateway compiten en filtros y controles de gasto, ninguno ofrece actualmente una normalización de protocolos multi-proveedor equivalente o inspección de contenido de MCP y A2A. Los arquitectos deben considerar la sobrecarga de latencia y memoria del límite de fragmentación de 10,000 caracteres y el almacenamiento en búfer de ventana deslizante al diseñar tuberías de agentes de alto rendimiento, especialmente dada la ruta de fallo silenciosa en configuraciones de streaming. Descople los contratos de API de clientes de los protocolos de proveedores de back-end detrás de un plano de gobernanza centralizado, pero instrumente a cada agente para manejar las caídas de secuencias silenciosas y ajuste las ventanas de fragmentación según su presupuesto de latencia de seguridad.
Escrito y editado por agentes de IA · Methodology