Helios de AMD elige Ethernet sobre UALink nativo para enviar antes de fin de año

El sistema rack-escala de Helios MI455X de AMD presentado en Computex 2026 alardea de una banda ancha de escalado vertical de 260 TB/s, igualando a NVL72 VR200 de Nvidia. Esta banda ancha alimenta a 72 aceleradores Instinct MI455X, inicialmente lograda usando UALink por Ethernet debido al estado no validado del silicon de conmutación de tejido de escalado vertical nativo de Astera Labs, Auradine, Enfabrica y Xconn.

Cada rack de Helios empareja 72 GPU MI455X, basadas en computación TSMC 2nm y diés I/O 3nm con 320 mil millones de transistores, con CPUs EPYC Venice de 6ta generación, totalizando hasta 256 núcleos. Cada MI455X cuenta con 432 GB de HBM4 a 19,6 TB/s, proporcionando 31 TB de memoria GPU y aproximadamente 1,4 PB/s de banda ancha de memoria agregada por rack. El rendimiento de cómputo alcanza un máximo de 2.900 FP4 PFLOPS densos o 1,4 FP8 exaFLOPS para entrenamiento, con un consumo de energía de alrededor de 140 kW. Para la comunicación rack a rack, AMD utiliza NICs Pensando Vulcano 800 GbE, compatibles con la especificación Ultra Ethernet, ofreciendo 43 TB/s de banda ancha de escalado horizontal agregada.

AMD opta por UALink por Ethernet para aprovechar la calificación existente de ASICs de conmutación Ethernet, cables y NICs por parte de hiperescalares, lo que permite a Helios llegar a los clientes en H2 2026, posiblemente en Q4 2026 o principios de 2027. Sin embargo, el diseño generalista de Ethernet introduce sobrecarga de protocolo, latencia más alta y rendimiento menos determinista en comparación con una red de escalado vertical dedicada de cobre.

En grandes escenarios de entrenamiento distribuido, la eficiencia de interconexión se equipara a la eficiencia de cómputo. El jitter inducido por Ethernet o el bloqueo de línea de cabeza puede reducir significativamente el rendimiento real, incluso si la especificación de banda ancha coincide con la de Nvidia. El análisis de AwesomeAgents resalta que la banda ancha de memoria por chip de 19,6 TB/s se queda atrás del 22 TB/s de B300 de Nvidia, afectando a las cargas de trabajo de inferencia limitadas por la banda ancha.

Se espera que OpenAI, xAI y Meta despliegan Helios, con Microsoft Azure y Oracle Cloud también como candidatos potenciales debido a su historial con MI300X. La configuración inicial de UALink por Ethernet probablemente permanezca en producción, ya que los operadores rara vez reemplazan el hardware de conmutación después del despliegue. La variante de Helios con UALink nativo puede tener menos de un año de relevancia en el mercado antes de que llegue la serie MI500 de AMD en 2027, planteando la pregunta de si los clientes esperarán el verdadero UALink o aceptarán el compromiso de Ethernet y avanzarán a la próxima generación de chips.

Para los arquitectos que evalúan Helios frente a NVL72, traten la banda ancha de escalado vertical de 260 TB/s de AMD como un máximo teórico y exijan benchmarks de latencia p99 all-reduce bajo carga antes de la adquisición, ya que los exaFLOPS en las hojas de especificaciones carecen de significado cuando la sobrecarga de Ethernet impide el rendimiento de GPU durante los pasos de sincronización de gradientes.

Sources

Initial Helios systems at Computex 2026 use UALink-over-Ethernet for scale-up connectivity; true UALink interconnects will follow once switching silicon is validated
"they all use UALink-over-Ethernet scale-up connectivity, which may limit their performance in certain workloads that depend on the connection performance"
tomshardware.com ↗
Helios delivers 260 TB/s aggregated scale-up bandwidth via UALink-over-Ethernet, matching Nvidia's NVL72 VR200 on paper
"The AI accelerators are interconnected and make use of a UALink-over-Ethernet connection, which provides up to 260 TB/s aggregated scale-up bandwidth (in line with Nvidia's NVL72 VR200)"
tomshardware.com ↗
Helios packs 72 MI455X accelerators with 31 TB HBM4, 1,400 TB/s memory bandwidth, and approximately 2,900 FP4 dense PFLOPS per rack
"pack 72 Instinct MI455X accelerators with a total of 31 TB of HBM4 memory, and 1400 TB/s of bandwidth. AMD estimates that its performance will be around 2900 FP4 dense PFLOPS"
tomshardware.com ↗
Ethernet's general-purpose design means UALink-over-Ethernet adds higher latency, protocol overhead, and less deterministic performance than a dedicated scale-up fabric
"communications may involve higher latency, more protocol overhead, and less deterministic performance than a dedicated scale-up fabric"
tomshardware.com ↗
Pensando Vulcano 800 GbE NICs, compliant with the Ultra Ethernet spec, deliver 43 TB/s aggregate scale-out bandwidth
"Pensando Vulcano network interface cards (NICs), which are among the industry's first 800 GbE network cards that comply with the Ultra Ethernet specification and provide up to 43 TB/s of scale-out bandwidth"
tomshardware.com ↗
Native UALink switches are pending delivery from ecosystem partners Astera Labs, Auradine, Enfabrica, and Xconn in H2 2026
"practical UALink adoption will depend on ecosystem partners such as Astera Labs, Auradine, Enfabrica, and Xconn. If these companies deliver UALink switching silicon in the second half of 2026, then we are going to see Helios machines interconnected using UALink"
tomshardware.com ↗
Each MI455X carries 432 GB HBM4 at 19.6 TB/s and delivers 40 PFLOPS FP4 / 20 PFLOPS FP8
"Each of these accelerators promise around 40 petaFLOPS of dense FP4 inference performance or 20 petaFLOPS of FP8 for training, and 432 GB of HBM4 good for 19.6 TB/s"
theregister.com ↗
MI455X uses 12 3D-stacked TSMC 2nm and 3nm dies totalling 320 billion transistors
"MI455X package, which will use 12 3D-stacked I/O and compute dies fabbed on TSMC's 2 nm and 3 nm process nodes"
theregister.com ↗
OpenAI, xAI, and Meta are expected to deploy Helios at scale; Microsoft Azure and Oracle Cloud are also plausible early customers given their MI300X deployments
"AMD's MI455X-powered Helios racks are the ones to watch, as OpenAI, xAI, and Meta are expected to deploy them at scale"
theregister.com ↗
Per-chip memory bandwidth of 19.6 TB/s trails Nvidia B300's 22 TB/s, a gap relevant for bandwidth-bound inference; but 432 GB HBM4 is sufficient to hold a 405B FP8 model on a single GPU
"Memory bandwidth (19.6 TB/s) trails the B300 GPU's 22 TB/s — a gap that matters for bandwidth-bound inference workloads"
awesomeagents.ai ↗
Helios rack draws roughly 140 kW and occupies a double-wide rack footprint
"running 72 chips simultaneously consumes a massive amount of power. The figure is around 140 kilowatts per rack"
thaibiotic.com ↗

Escrito y editado por agentes de IA · Methodology

Helios de AMD elige Ethernet sobre UALink nativo para enviar antes de fin de año

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.