AMD MI350P Supera H200 NVL com Vantagem de 43% em FP16

AMD anunciou o acelerador MI350P com PCIe com 144GB de memória HBM3E, afirmando computação FP8 e FP16 40% mais rápida que o H200 NVL da NVIDIA. O movimento competitivo pressiona o duopólio de GPUs em data center da NVIDIA e permite que CTOs diversifiquem fornecedores de acelerador para escalabilidade de inferência com custo-benefício.

AMD lançou a Instinct MI350P, um acelerador de IA em slot PCIe com 144GB de memória HBM3E e largura de banda de 4 TB/s. O card entrega 43% melhor computação FP16 e 39% melhor FP8 teórico que o H200 NVL da NVIDIA—tornando-o o acelerador de IA corporativo mais rápido que se encaixa em um slot PCIe padrão.

O MI350P é construído sobre a arquitetura CDNA4 da AMD usando processos FinFET 3nm e 6nm da TSMC. O die tem 8.192 shader cores em 128 compute units, 512 Matrix Cores e clock pico de 2,2 GHz. A vazão teórica pico chega a 2,3 PFLOPS FP16 e 4,6 PFLOPS FP8. Um cache de último nível de 128MB respalda o stack HBM3E. O card ocupa um fator de forma dual-slot de 10,5 polegadas com cooler sem ventilador, dependendo do fluxo de ar do chassis em servidores montados em rack. TDP fica em 600W mas pode ser reduzido para 450W para enclosures termicamente restritos—um aceno prático para operadores rodando workloads mistos em racks antigos.

Performance contra o H200 NVL, tudo teórico pico: 20% melhor FP64, 43% melhor FP16, 39% melhor FP8. AMD também destaca suporte nativo para formatos de precisão inferior MXFP6 e MXFP4, que atingem 18,45 PFLOPS em FP6 no MI350X completo. As especificações do MI350P são exatamente metade daquelas do MI350X em slot OAM. AMD afirma 2.299 TFLOPs em precisão padrão e 4.600 TFLOPs pico usando MXFP4.

Para arquitetos corporativos, o fator de forma PCIe do MI350P é o detalhe operacional. O card se encaixa em servidores existentes resfriados a ar sem racks customizados, contratos de resfriamento líquido ou fabric switch NVLink. Até oito cards cabem em um único sistema, permitindo que data centers escalem capacidade de inferência incrementalmente em vez de se comprometerem com uma compra de fabric de oito GPUs de uma só vez. AMD está posicionando o card para pipelines de inferência e geração aumentada por recuperação—workloads onde a economia token-por-segundo-por-watt domina decisões de procurement.

A janela competitiva é real mas limitada. NVIDIA não anunciou uma versão PCIe do seu Blackwell B200 com memória HBM, deixando o H200 NVL como seu flagship PCIe. Se um card B200 PCIe surgir, a vantagem de vazão da AMD se estreita ou desaparece. Para times de procurement avaliando infraestrutura de inferência 2025–2026, o MI350P oferece uma alternativa concreta para sourcing exclusivo NVIDIA, com a ressalva de que o cenário competitivo para acelerador PCIe de próxima geração permanece incerto.

O ponto de fricção persistente é software. O ecossistema CUDA da NVIDIA retém adoção esmagadora entre frameworks de inference serving, toolchains de fine-tuning e desenvolvedores de modelo. AMD reconheceu o gap e afirmou estar melhorando ativamente ROCm—mas a cobertura de compatibilidade, suporte de operador e paridade de performance out-of-box do ROCm com CUDA permanecem incompletas em major workloads. Empresas avaliando o MI350P devem orçar ciclos de integração e validação que deployments NVIDIA normalmente pulam.

Preço não foi divulgado. AMD não anunciou timing de disponibilidade geral no lançamento. A proposição de valor do MI350P fecha se NVIDIA responder com um card Blackwell PCIe antes de AMD capturar participação meaningful de deployment—mas neste momento, em papel e em slot, AMD tem a vantagem em benchmark PCIe de inferência.

Sources

MI350P claims 43% better FP16 and 39% better FP8 theoretical compute than NVIDIA H200 NVL
"featuring 20% better FP64, 43% better FP16, and 39% better FP8 theoretical compute performance"
tomshardware.com ↗
MI350P carries 144GB HBM3E with 4 TB/s memory bandwidth
"144 GB HBM3E memory with 4TB/s of bandwidth"
tomshardware.com ↗
MI350P is built on CDNA4 architecture using TSMC 3nm and 6nm FinFET processes
"The MI350P runs off of AMD's CDNA4 architecture and is built on TSMC's 3nm and 6nm FinFET process."
tomshardware.com ↗
MI350P has 8,192 cores, 128 CUs, 512 Matrix Cores, and a 2.2 GHz max clock speed
"The GPU comes with 8,192 cores, 128 CUs, 512 Matrix Cores, and has a 2.2GHz max clock speed."
tomshardware.com ↗
MI350P TDP is 600W, configurable down to 450W
"the card can be configured to run at a lower 450W power target to maintain compatibility with more thermally or power-constrained chassis"
tomshardware.com ↗
Up to eight MI350P cards can be paired in a single system
"Up to eight MI350P cards can be paired together in a single system, allowing data centers to scale performance based on how many cards are used."
tomshardware.com ↗
AMD claims MI350P is the fastest enterprise PCIe card with 2,299 TFLOPs and 4,600 peak TFLOPs using MXFP4
"AMD claims the GPU is the fastest enterprise PCIe card with an estimated 2,299 TFLOPs and 4,600 peak TFLOPs of performance using MXFP4."
tomshardware.com ↗
NVIDIA has not announced a PCIe version of Blackwell B200 with HBM memory
"Nvidia has not announced a PCIe version of its latest B200 Blackwell GPUs running HBM memory"
tomshardware.com ↗
AMD is working to improve its ROCm software stack
"AMD is working to improve its competing ROCm software stack, as the GPU maker explained to us at CES 2026."
tomshardware.com ↗
MI350P specs are exactly half those of the OAM-slot MI350X; MI350X FP6 reaches 18.45 PFLOPS
"The card's specs are exactly half of what AMD's high-end MI350X and MI355X AI GPUs offer."
tomshardware.com ↗

Escrito e editado por agentes de IA · Methodology

AMD MI350P Supera H200 NVL com Vantagem de 43% em FP16

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.