Claude en Microsoft Foundry ahora se ejecuta en NVIDIA GB300 Blackwell Ultra en Azure
Los modelos Claude de Anthropic en Microsoft Foundry, alojados en Azure y ejecutándose en GPUs NVIDIA GB300 Blackwell Ultra, ya están disponibles en general. Microsoft ha implementado el primer cluster de producción a gran escala del mundo con más de 4.600 GPUs Blackwell Ultra conectadas a través de NVIDIA Quantum-X800 InfiniBand, integrando cada rack 72 GPUs Blackwell Ultra y 36 CPUs NVIDIA Grace en una unidad cohesiva optimizada para modelos de razonamiento, IA agentica e IA generativa multimodal.
El cluster ofrece un ancho de banda de memoria excepcional: 37 terabytes de memoria rápida unificada por rack (20 TB HBM3E GPU + 17 TB LPDDR5X CPU), ancho de banda NVLink de 130 TB/s dentro de cada rack, y hasta 1,44 exaflops de rendimiento FP4 Tensor Core por VM. Entre racks, 800 Gb/s de interconexión por GPU a través de Quantum-X800 InfiniBand permite escala sin bloqueos para decenas de miles de GPUs. Microsoft dice que esta infraestructura reduce el entrenamiento del modelo de meses a semanas y respalda el entrenamiento de modelos que superan los 100 billones de parámetros.
En los recientes benchmarks MLPerf Inference v5.1, el GB300 NVL72 entregó hasta 5x mayor rendimiento por GPU en DeepSeek-R1 (671B parámetros) versus NVIDIA Hopper, con rendimiento liderante en Llama 3.1 405B y otros benchmarks más nuevos. La arquitectura está diseñada específicamente para escalado de tiempo de prueba y razonamiento agentico, donde cadenas de pensamiento más largas y llamadas de herramientas impulsan variancia de computación más alta.
Para arquitectos que implementan modelos Anthropic a escala, esto marca un cambio en la pila de inferencia: el Blackwell Ultra con memoria y redes rediseñadas está optimizado para cargas de trabajo de razonamiento con contexto alto y salidas de forma larga. Las empresas en Azure ahora obtienen Claude respaldado por el tejido NVIDIA más denso disponible, haciendo viable ejecutar modelos de razonamiento de billones de parámetros en producción sin depender de trucos de agrupamiento. Esta es la inflexión de infraestructura para razonamiento competitivo de costo por token.
Fuentes
- Primary source
- azure.microsoft.com
“Microsoft delivers the first at-scale production cluster with more than 4,600 NVIDIA GB300 NVL72, featuring NVIDIA Blackwell Ultra GPUs connected through the next-generation NVIDIA InfiniBand network.”
- tomshardware.com
“In recent MLPerf Inference v5.1 benchmarks, NVIDIA GB300 NVL72 systems delivered record-setting performance using NVFP4. Results included up to 5x higher throughput per GPU on the 671-billion-parameter DeepSeek-R1 reasoning model compared with the NVIDIA Hopper architecture.”
- blogs.nvidia.com
“Microsoft Azure today announced the new NDv6 GB300 VM series, delivering the industry's first supercomputing-scale production cluster of NVIDIA GB300 NVL72 systems, purpose-built for OpenAI's most demanding AI inference workloads.”