AMD MI350P Supera H200 NVL con Ventaja de 43% en FP16

AMD anunció el acelerador MI350P PCIe con 144GB de memoria HBM3E, afirmando computación FP8 y FP16 40% más rápida que el H200 NVL de NVIDIA. El movimiento competitivo presiona el duopolio de GPU en centro de datos de NVIDIA y permite que los CTOs diversifiquen proveedores de acelerador para escalabilidad de inferencia con relación costo-beneficio.

AMD lanzó la Instinct MI350P, un acelerador de IA en slot PCIe con 144GB de memoria HBM3E y ancho de banda de 4 TB/s. La tarjeta entrega 43% mejor computación FP16 y 39% mejor FP8 teórico que el H200 NVL de NVIDIA—convirtiéndola en el acelerador de IA empresarial más rápido que se ajusta a un slot PCIe estándar.

El MI350P está construido sobre la arquitectura CDNA4 de AMD usando procesos FinFET 3nm y 6nm de TSMC. El die cuenta con 8.192 shader cores en 128 compute units, 512 Matrix Cores y reloj pico de 2,2 GHz. El throughput teórico pico alcanza 2,3 PFLOPS FP16 y 4,6 PFLOPS FP8. Un caché de último nivel de 128MB respalda el stack HBM3E. La tarjeta ocupa un factor de forma dual-slot de 10,5 pulgadas con enfriador sin ventilador, dependiendo del flujo de aire del chasis en servidores montados en rack. TDP se sitúa en 600W pero puede reducirse a 450W para enclosures térmicamente restringidos—un guiño práctico para operadores ejecutando workloads mixtos en racks antiguos.

Desempeño contra el H200 NVL, todo teórico pico: 20% mejor FP64, 43% mejor FP16, 39% mejor FP8. AMD también destaca soporte nativo para formatos de precisión inferior MXFP6 y MXFP4, que alcanzan 18,45 PFLOPS en FP6 en el MI350X completo. Las especificaciones del MI350P son exactamente la mitad de las del MI350X en slot OAM. AMD afirma 2.299 TFLOPs en precisión estándar y 4.600 TFLOPs pico utilizando MXFP4.

Para arquitectos empresariales, el factor de forma PCIe del MI350P es el detalle operacional. La tarjeta se ajusta a servidores existentes enfriados por aire sin racks personalizados, contratos de enfriamiento líquido o fabric switch NVLink. Hasta ocho tarjetas caben en un solo sistema, permitiendo que los centros de datos escalen capacidad de inferencia incrementalmente en lugar de comprometerse con una compra de fabric de ocho GPUs de una sola vez. AMD está posicionando la tarjeta para pipelines de inferencia y generación aumentada por recuperación—workloads donde la economía token-por-segundo-por-vatio domina decisiones de procurement.

La ventana competitiva es real pero limitada. NVIDIA no ha anunciado una versión PCIe de su Blackwell B200 con memoria HBM, dejando el H200 NVL como su flagship PCIe. Si una tarjeta B200 PCIe surge, la ventaja de throughput de AMD se estrecha o desaparece. Para equipos de procurement evaluando infraestructura de inferencia 2025–2026, el MI350P ofrece una alternativa concreta al sourcing exclusivo de NVIDIA, con la salvedad de que el panorama competitivo para aceleradores PCIe de próxima generación permanece incierto.

El punto de fricción persistente es el software. El ecosistema CUDA de NVIDIA retiene adopción abrumadora entre frameworks de inference serving, toolchains de fine-tuning y desarrolladores de modelos. AMD ha reconocido la brecha y afirmado que está mejorando activamente ROCm—pero la cobertura de compatibilidad, soporte de operadores y paridad de desempeño out-of-box de ROCm con CUDA permanecen incompletos en major workloads. Las empresas evaluando el MI350P deben presupuestar ciclos de integración y validación que los deployments de NVIDIA típicamente omiten.

El precio no ha sido divulgado. AMD no anunció timing de disponibilidad general en el lanzamiento. La proposición de valor del MI350P se cierra si NVIDIA responde con una tarjeta Blackwell PCIe antes de que AMD capture participación significativa de deployment—pero en este momento, en papel y en slot, AMD tiene la ventaja en benchmark PCIe de inferencia.

Sources

MI350P claims 43% better FP16 and 39% better FP8 theoretical compute than NVIDIA H200 NVL
"featuring 20% better FP64, 43% better FP16, and 39% better FP8 theoretical compute performance"
tomshardware.com ↗
MI350P carries 144GB HBM3E with 4 TB/s memory bandwidth
"144 GB HBM3E memory with 4TB/s of bandwidth"
tomshardware.com ↗
MI350P is built on CDNA4 architecture using TSMC 3nm and 6nm FinFET processes
"The MI350P runs off of AMD's CDNA4 architecture and is built on TSMC's 3nm and 6nm FinFET process."
tomshardware.com ↗
MI350P has 8,192 cores, 128 CUs, 512 Matrix Cores, and a 2.2 GHz max clock speed
"The GPU comes with 8,192 cores, 128 CUs, 512 Matrix Cores, and has a 2.2GHz max clock speed."
tomshardware.com ↗
MI350P TDP is 600W, configurable down to 450W
"the card can be configured to run at a lower 450W power target to maintain compatibility with more thermally or power-constrained chassis"
tomshardware.com ↗
Up to eight MI350P cards can be paired in a single system
"Up to eight MI350P cards can be paired together in a single system, allowing data centers to scale performance based on how many cards are used."
tomshardware.com ↗
AMD claims MI350P is the fastest enterprise PCIe card with 2,299 TFLOPs and 4,600 peak TFLOPs using MXFP4
"AMD claims the GPU is the fastest enterprise PCIe card with an estimated 2,299 TFLOPs and 4,600 peak TFLOPs of performance using MXFP4."
tomshardware.com ↗
NVIDIA has not announced a PCIe version of Blackwell B200 with HBM memory
"Nvidia has not announced a PCIe version of its latest B200 Blackwell GPUs running HBM memory"
tomshardware.com ↗
AMD is working to improve its ROCm software stack
"AMD is working to improve its competing ROCm software stack, as the GPU maker explained to us at CES 2026."
tomshardware.com ↗
MI350P specs are exactly half those of the OAM-slot MI350X; MI350X FP6 reaches 18.45 PFLOPS
"The card's specs are exactly half of what AMD's high-end MI350X and MI355X AI GPUs offer."
tomshardware.com ↗

Escrito y editado por agentes de IA · Methodology

AMD MI350P Supera H200 NVL con Ventaja de 43% en FP16

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.