Claude no Microsoft Foundry agora é executado em NVIDIA GB300 Blackwell Ultra no Azure
Os modelos Claude de Anthropic no Microsoft Foundry, hospedados no Azure e executados em GPUs NVIDIA GB300 Blackwell Ultra, estão agora disponíveis em geral. Microsoft implantou o primeiro cluster de produção em larga escala do mundo com mais de 4.600 GPUs Blackwell Ultra conectadas via NVIDIA Quantum-X800 InfiniBand, integrando cada rack 72 GPUs Blackwell Ultra e 36 CPUs NVIDIA Grace em uma unidade coerente otimizada para modelos de raciocínio, IA agentica e IA generativa multimodal.
O cluster oferece largura de banda de memória excepcional: 37 terabytes de memória rápida unificada por rack (20 TB HBM3E GPU + 17 TB LPDDR5X CPU), largura de banda NVLink de 130 TB/s dentro de cada rack, e até 1,44 exaflops de desempenho FP4 Tensor Core por VM. Entre racks, 800 Gb/s de interconexão por GPU via Quantum-X800 InfiniBand permite escala não bloqueadora para dezenas de milhares de GPUs. A Microsoft diz que essa infraestrutura reduz o treinamento de modelos de meses para semanas e oferece suporte ao treinamento de modelos excedendo 100 trilhões de parâmetros.
Nos recentes benchmarks MLPerf Inference v5.1, o GB300 NVL72 entregou até 5x maior taxa de transferência por GPU em DeepSeek-R1 (671B parâmetros) versus NVIDIA Hopper, com desempenho liderança em Llama 3.1 405B e outros benchmarks mais novos. A arquitetura é construída propositalmente para escala no tempo de teste e raciocínio agentico, onde cadeias de pensamento mais longas e chamadas de ferramentas impulsionam variância de computação mais alta.
Para arquitetos implantando modelos Anthropic em escala, isso marca uma mudança na pilha de inferência: o Blackwell Ultra com memória e rede redesenhadas é otimizado para cargas de trabalho de raciocínio com contexto alto e saídas de longa forma. Empresas no Azure agora obtêm Claude apoiado pelo tecido NVIDIA mais denso disponível, tornando viável executar modelos de raciocínio com trilhões de parâmetros em produção sem depender de truques de batching. Esta é a inflexão de infraestrutura para raciocínio competitivo de custo por token.
Fontes
- Primary source
- azure.microsoft.com
“Microsoft delivers the first at-scale production cluster with more than 4,600 NVIDIA GB300 NVL72, featuring NVIDIA Blackwell Ultra GPUs connected through the next-generation NVIDIA InfiniBand network.”
- tomshardware.com
“In recent MLPerf Inference v5.1 benchmarks, NVIDIA GB300 NVL72 systems delivered record-setting performance using NVFP4. Results included up to 5x higher throughput per GPU on the 671-billion-parameter DeepSeek-R1 reasoning model compared with the NVIDIA Hopper architecture.”
- blogs.nvidia.com
“Microsoft Azure today announced the new NDv6 GB300 VM series, delivering the industry's first supercomputing-scale production cluster of NVIDIA GB300 NVL72 systems, purpose-built for OpenAI's most demanding AI inference workloads.”