Microsoft AKS em Bare Metal Reduz Latência de GPU 12–18% no Build 2026

Microsoft lançou quatro atualizações do AKS no Build 2026: AKS em Bare Metal (visualização pública), Azure Kubernetes Fleet Manager para clusters habilitados para Arc (GA), Anyscale no Azure com Ray gerenciado (visualização pública) e ModelServingRuntime para inferência nativa do Kubernetes. Cada uma visa uma camada diferente de custo de infraestrutura GPU: sobrecarga de hipervisor, operações multi-cluster, gerenciamento de Ray e integração de estrutura de serving.

AKS em Bare Metal remove o hipervisor, dando aos workloads acesso direto a NVLink e RDMA para treinamento distribuído e inferência de baixa latência. Os benchmarks da Microsoft mostraram uma melhoria de 12–18% na taxa de mensagens InfiniBand e menor latência de cauda em nós A100 bare metal versus hosts dedicados do Azure. O plano de controle gerencia tanto nós físicos quanto virtuais, permitindo implantações híbridas. O hardware de lançamento inclui modelos Dell e HPE certificados através do Azure Stack HCI; suporte mais amplo será lançado no final do ano. Sem taxa por cluster.

Fleet Manager GA para clusters habilitados para Arc estende política centralizada, colocação de workload, rollouts em etapas e RBAC em Azure, on-premises e outras nuvens. Para equipes divididas entre regiões ou usando clusters on-premises para residência de dados, essa consolidação importa mais do que qualquer recurso único.

Anyscale no Azure traz Ray gerenciado ao AKS sem operações de cluster independentes. O serviço lida com alocação heterogênea e fracionada de GPU, escalando por job. Ele é executado em subscrições de clientes, integra-se com Entra ID e cobra por vCPU-segundo com um nível gratuito de 200 vCPU-horas durante visualização. Wayve executa isso em produção para veículos autônomos, usando AKS, Ray e Anyscale no Azure para conectar milhares de GPUs. O CEO Alex Kendall descreveu a implantação de um novo veículo Nissan no Japão—"um país onde nunca tínhamos dirigido"—e em quatro meses demonstrando direção autônoma em toda Tóquio. Ele vinculou o marco diretamente à capacidade elástica de GPU do Azure.

ModelServingRuntime expõe vLLM, KServe e runtimes similares como objetos nativos do Kubernetes em vez de stacks separados. Um workload ModelServingRuntime obtém HTTPS automático, autenticação Entra ID, rastreamentos OpenTelemetry e um sidecar para versionamento, roteamento canário e enfileiramento. KAITO provisiona recursos e lança runtimes otimizados sob AI Runway, integrando-se com KEDA para autoscaling e Gateway API para gerenciamento de tráfego. As equipes passam da seleção de modelo para endpoint de produção sem escrever boilerplate de serving do Kubernetes. Royal Bank of Canada executa KAITO em produção, permitindo que equipes de desenvolvimento provisionem recursos GPU e façam deploy através de seu pipeline CI/CD com registros privados, Entra ID, Key Vault e ACR privado.

Bare metal reduz flexibilidade de scheduling: falhas de hardware exigem substituições mais longas e a lista Dell/HPE limita opções de colocação no lançamento. Fleet Manager GA cobre apenas clusters Arc; trabalho multi-cluster apenas em Azure usa mecanismos separados. Anyscale no Azure permanece em visualização e preços de produção em escala não foram validados.

Para arquitetos: se a latência p99 está estrangulada pela sobrecarga do hipervisor ou utilização de NVLink é baixa em nós virtualizados, bare metal oferece um caminho que mantém o plano de controle do Kubernetes. ModelServingRuntime/KAITO reduz a superfície operacional mas adiciona uma camada de indireção. Valide que versionamento de vLLM e configs de runtime customizados permaneçam alcançáveis antes de substituir stacks de serving feitos à mão.

Sources

AKS on Bare Metal removes the virtualization layer, giving workloads direct access to NVLink, RDMA, and high-performance networking
"By removing the virtualization layer, AKS can now provide direct access to technologies such as NVLink, RDMA, and high-performance networking, capabilities that are increasingly important for large language model training and latency-sensitive inference workloads."
infoq.com ↗
Azure Kubernetes Fleet Manager for Arc-enabled clusters is generally available, enabling centralized policy enforcement, workload placement, staged rollouts, and RBAC governance
"Fleet Manager enables centralized policy enforcement, workload placement, staged rollouts, and RBAC governance across entire fleets of clusters."
infoq.com ↗
Anyscale on Azure brings managed Ray to AKS, handling heterogeneous and fractional GPU allocation within the customer's Azure subscription and billed per vCPU-second with a 200 vCPU-hour/month free tier during preview
"Anyscale on Azure, now in public preview, brings managed Ray to AKS, allowing organizations to orchestrate distributed AI workloads using CPUs and GPUs across dynamically scaling clusters. The service integrates directly into Azure subscriptions and governance models."
infoq.com ↗
KAITO provisions resources, launches optimized vLLM runtimes, and integrates with KEDA and Gateway API for Kubernetes-native model deployment
"Under the hood, KAITO provisions resources, launches optimized runtimes such as vLLM, and integrates with Kubernetes autoscaling and networking technologies like KEDA and Gateway API."
infoq.com ↗
Microsoft benchmarks showed 12–18% improvement in InfiniBand message rate on bare-metal A100 nodes versus Azure dedicated hosts
"Microsoft's own benchmarks, shared during a Build session, showed a 12–18% improvement in InfiniBand message rate and a measurable drop in tail latency when running NCCL all-reduce across bare-metal A100 nodes compared to the same GPUs on Azure dedicated hosts."
windowsnews.ai ↗
Bare-metal option is initially available on Dell and HPE server models validated through the Azure Stack HCI hardware list, with broader certification promised by end of year
"The bare-metal option is initially available on specific Dell and HPE server models validated through the Azure Stack HCI hardware list, with a broader certification program promised by the end of the calendar year."
windowsnews.ai ↗
No additional per-cluster fee for Fleet Manager or bare-metal provisioning; Managed Ray on Azure has a 200 vCPU-hour/month free tier during preview
"There is no additional per-cluster fee for the fleet manager or for bare-metal provisioning. Managed Ray on Azure will follow a per-vCPU-second charge similar to Azure Machine Learning compute, with a free tier covering 200 vCPU-hours per month during the preview."
windowsnews.ai ↗
Wayve CEO Alex Kendall confirmed the company took a new Nissan into Japan—a country it had never driven—and within four months demonstrated fully autonomous driving throughout Tokyo, using AKS and Azure infrastructure
"We were able to take a new vehicle from Nissan in Japan, a country where we had never driven. And in just four months, we were able to take this new vehicle and show that our system could drive autonomously all throughout Tokyo."
news.microsoft.com ↗
Wayve uses AKS, Ray, and Anyscale on Azure to connect thousands of GPUs and run distributed ML and data pipelines for autonomous driving AI
"Wayve uses Ray, and increasingly Anyscale on Azure to run distributed ML and data pipelines across large CPU and GPU fleets, supporting large-scale inference, analytics, and dataset processing with improved efficiency and resiliency."
prnewswire.com ↗
Royal Bank of Canada runs KAITO for production model serving on AKS with private endpoints, Entra ID, Key Vault, and private ACR inside the bank's Azure boundary
"KAITO handles production model serving, with model images hosted in the bank's private container registry. The compliance perimeter wraps the entire path: private endpoints, Entra ID, Key Vault, and a private ACR keep models and data inside the bank's Azure boundary."
techcommunity.microsoft.com ↗

Escrito e editado por agentes de IA · Methodology

Microsoft AKS em Bare Metal Reduz Latência de GPU 12–18% no Build 2026

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.