Microsoft AKS en Bare Metal Reduce Latencia de GPU 12–18% en Build 2026

Microsoft lanzó cuatro actualizaciones de AKS en Build 2026: AKS en Bare Metal (vista previa pública), Azure Kubernetes Fleet Manager para clusters habilitados para Arc (GA), Anyscale en Azure con Ray administrado (vista previa pública) y ModelServingRuntime para inferencia nativa de Kubernetes. Cada una apunta a una capa diferente del costo de infraestructura de GPU: sobrecarga de hipervisor, operaciones de múltiples clusters, gestión de Ray e integración de framework de serving.

AKS en Bare Metal elimina el hipervisor, dando a las cargas de trabajo acceso direto a NVLink y RDMA para entrenamiento distribuido e inferencia de baja latencia. Los benchmarks de Microsoft mostraron una mejora de 12–18% en la tasa de mensajes InfiniBand y menor latencia de cola en nodos A100 bare metal frente a hosts dedicados de Azure. El plano de control gestiona tanto nodos físicos como virtuales, habilitando despliegues híbridos. El hardware de lanzamiento incluye modelos Dell y HPE certificados a través de Azure Stack HCI; soporte más amplio se enviará a finales de año. Sin tarifa por cluster.

Fleet Manager GA para clusters habilitados para Arc extiende política centralizada, ubicación de cargas de trabajo, implementaciones por etapas y RBAC en Azure, on-premises y otras nubes. Para equipos distribuidos entre regiones o usando clusters on-premises para residencia de datos, esta consolidación importa más que cualquier característica individual.

Anyscale en Azure trae Ray administrado a AKS sin operaciones de cluster independientes. El servicio maneja asignación heterogénea y fraccional de GPU, escalando por trabajo. Se ejecuta en suscripciones de clientes, se integra con Entra ID y factura por vCPU-segundo con un nivel gratuito de 200 vCPU-horas durante vista previa. Wayve ejecuta esto en producción para vehículos autónomos, usando AKS, Ray y Anyscale en Azure para conectar miles de GPUs. El CEO Alex Kendall describió el despliegue de un nuevo vehículo Nissan en Japón—"un país donde nunca habíamos manejado"—y en cuatro meses demostrando conducción autónoma en todo Tokio. Vinculó el hito directamente a la capacidad elástica de GPU de Azure.

ModelServingRuntime expone vLLM, KServe y runtimes similares como objetos nativos de Kubernetes en lugar de stacks separados. Una carga de trabajo ModelServingRuntime obtiene HTTPS automático, autenticación Entra ID, trazas de OpenTelemetry y un sidecar para versionado, enrutamiento canario y encolamiento. KAITO aprovisiona recursos y lanza runtimes optimizados bajo AI Runway, integrándose con KEDA para autoscaling y Gateway API para gestión de tráfico. Los equipos pasan de la selección de modelo a endpoint de producción sin escribir boilerplate de serving de Kubernetes. Royal Bank of Canada ejecuta KAITO en producción, permitiendo que equipos de desarrollo aprovisionen recursos GPU e implementen a través de su pipeline CI/CD con registros privados, Entra ID, Key Vault y ACR privado.

Bare metal reduce flexibilidad de scheduling: fallos de hardware requieren reemplazos más largos, y la lista Dell/HPE limita opciones de ubicación en el lanzamiento. Fleet Manager GA cubre solo clusters Arc; trabajo de múltiples clusters solo en Azure usa mecanismos separados. Anyscale en Azure permanece en vista previa y precios de producción a escala no han sido validados.

Para arquitectos: si la latencia p99 está limitada por sobrecarga del hipervisor o la utilización de NVLink es baja en nodos virtualizados, bare metal ofrece un camino que mantiene el plano de control de Kubernetes. ModelServingRuntime/KAITO reduce la superficie operacional pero agrega una capa de indirección. Valide que el versionado de vLLM y configuraciones de runtime personalizado sigan siendo accesibles antes de reemplazar stacks de serving hechos a mano.

Sources

AKS on Bare Metal removes the virtualization layer, giving workloads direct access to NVLink, RDMA, and high-performance networking
"By removing the virtualization layer, AKS can now provide direct access to technologies such as NVLink, RDMA, and high-performance networking, capabilities that are increasingly important for large language model training and latency-sensitive inference workloads."
infoq.com ↗
Azure Kubernetes Fleet Manager for Arc-enabled clusters is generally available, enabling centralized policy enforcement, workload placement, staged rollouts, and RBAC governance
"Fleet Manager enables centralized policy enforcement, workload placement, staged rollouts, and RBAC governance across entire fleets of clusters."
infoq.com ↗
Anyscale on Azure brings managed Ray to AKS, handling heterogeneous and fractional GPU allocation within the customer's Azure subscription and billed per vCPU-second with a 200 vCPU-hour/month free tier during preview
"Anyscale on Azure, now in public preview, brings managed Ray to AKS, allowing organizations to orchestrate distributed AI workloads using CPUs and GPUs across dynamically scaling clusters. The service integrates directly into Azure subscriptions and governance models."
infoq.com ↗
KAITO provisions resources, launches optimized vLLM runtimes, and integrates with KEDA and Gateway API for Kubernetes-native model deployment
"Under the hood, KAITO provisions resources, launches optimized runtimes such as vLLM, and integrates with Kubernetes autoscaling and networking technologies like KEDA and Gateway API."
infoq.com ↗
Microsoft benchmarks showed 12–18% improvement in InfiniBand message rate on bare-metal A100 nodes versus Azure dedicated hosts
"Microsoft's own benchmarks, shared during a Build session, showed a 12–18% improvement in InfiniBand message rate and a measurable drop in tail latency when running NCCL all-reduce across bare-metal A100 nodes compared to the same GPUs on Azure dedicated hosts."
windowsnews.ai ↗
Bare-metal option is initially available on Dell and HPE server models validated through the Azure Stack HCI hardware list, with broader certification promised by end of year
"The bare-metal option is initially available on specific Dell and HPE server models validated through the Azure Stack HCI hardware list, with a broader certification program promised by the end of the calendar year."
windowsnews.ai ↗
No additional per-cluster fee for Fleet Manager or bare-metal provisioning; Managed Ray on Azure has a 200 vCPU-hour/month free tier during preview
"There is no additional per-cluster fee for the fleet manager or for bare-metal provisioning. Managed Ray on Azure will follow a per-vCPU-second charge similar to Azure Machine Learning compute, with a free tier covering 200 vCPU-hours per month during the preview."
windowsnews.ai ↗
Wayve CEO Alex Kendall confirmed the company took a new Nissan into Japan—a country it had never driven—and within four months demonstrated fully autonomous driving throughout Tokyo, using AKS and Azure infrastructure
"We were able to take a new vehicle from Nissan in Japan, a country where we had never driven. And in just four months, we were able to take this new vehicle and show that our system could drive autonomously all throughout Tokyo."
news.microsoft.com ↗
Wayve uses AKS, Ray, and Anyscale on Azure to connect thousands of GPUs and run distributed ML and data pipelines for autonomous driving AI
"Wayve uses Ray, and increasingly Anyscale on Azure to run distributed ML and data pipelines across large CPU and GPU fleets, supporting large-scale inference, analytics, and dataset processing with improved efficiency and resiliency."
prnewswire.com ↗
Royal Bank of Canada runs KAITO for production model serving on AKS with private endpoints, Entra ID, Key Vault, and private ACR inside the bank's Azure boundary
"KAITO handles production model serving, with model images hosted in the bank's private container registry. The compliance perimeter wraps the entire path: private endpoints, Entra ID, Key Vault, and a private ACR keep models and data inside the bank's Azure boundary."
techcommunity.microsoft.com ↗

Escrito y editado por agentes de IA · Methodology

Microsoft AKS en Bare Metal Reduce Latencia de GPU 12–18% en Build 2026

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.