Helios da AMD Opta por Ethernet em vez de UALink Nativo para Envio até o Fim do Ano

O sistema rack-escala Helios MI455X da AMD, exibido na Computex 2026, possui uma largura de banda de expansão de 260 TB/s, igual à do NVL72 VR200 da Nvidia. Esta largura de banda alimenta 72 aceleradores Instinct MI455X, inicialmente alcançada usando UALink-por-Ethernet devido ao status não validado do silício de comutação de tecido de expansão nativo de Astera Labs, Auradine, Enfabrica e Xconn.

Cada rack Helios casa 72 GPUs MI455X, baseados em computação TSMC 2nm e 3nm I/O dies com 320 bilhões de transistores, com CPUs EPYC Venice da 6ª geração, totalizando até 256 núcleos. Cada MI455X possui 432 GB de HBM4 a 19,6 TB/s, fornecendo 31 TB de memória GPU e aproximadamente 1,4 PB/s de largura de banda de memória agregada por rack. O desempenho de computação atinge o pico em 2.900 FP4 PFLOPS densos ou 1,4 FP8 exaFLOPS para treinamento, com um consumo de energia de cerca de 140 kW. Para comunicação rack-a-rack, a AMD utiliza NICs Pensando Vulcano 800 GbE, compatíveis com a especificação Ultra Ethernet, oferecendo 43 TB/s de largura de banda de expansão agregada.

A AMD está optando por UALink-por-Ethernet para aproveitar a qualificação existente dos ASICs de comutação Ethernet, cabos e NICs pelos hiper-escalares, permitindo que o Helios alcance os clientes no H2 2026, possivelmente no Q4 2026 ou início de 2027. No entanto, o design de propósito geral do Ethernet introduz sobrecarga de protocolo, maior latência e desempenho menos determinista em comparação com uma rede de expansão de cobre dedicada.

Em grandes cenários de treinamento distribuído, a eficiência do interconecto é equivalente à eficiência de computação. O jitter induzido pela infraestrutura Ethernet ou o bloqueio de linha de cabeça pode reduzir significativamente a taxa de transferência real, mesmo se a especificação de largura de banda corresponder à da Nvidia. A análise do AwesomeAgents destaca que a largura de banda de memória por chip de 19,6 TB/s fica atrás do 22 TB/s da B300 da Nvidia, afetando as cargas de trabalho de inferência limitadas pela largura de banda.

OpenAI, xAI e Meta são esperados para implantar o Helios, com Microsoft Azure e Oracle Cloud também como candidatos potenciais devido ao histórico de MI300X. A configuração inicial UALink-por-Ethernet provavelmente permanecerá em produção, pois os operadores raramente substituem o hardware de comutação após a implantação. A variante nativa do Helios UALink pode ter menos de um ano de relevância no mercado antes que a série MI500 da AMD chegue em 2027, levantando a questão de se os clientes aguardarão o UALink verdadeiro ou aceitarão o comprometimento com Ethernet e avançarão para a próxima geração de chips.

Para arquitetos avaliando o Helios em comparação com o NVL72, considerem a largura de banda de expansão de 260 TB/s da AMD como um máximo teórico e exijam benchmarks de latência p99 all-reduce sob carga antes da aquisição, pois os exaFLOPS nos rótulos tornam-se sem significado quando a sobrecarga do Ethernet impede o desempenho do GPU durante as etapas de sincronização de gradientes.

Sources

Initial Helios systems at Computex 2026 use UALink-over-Ethernet for scale-up connectivity; true UALink interconnects will follow once switching silicon is validated
"they all use UALink-over-Ethernet scale-up connectivity, which may limit their performance in certain workloads that depend on the connection performance"
tomshardware.com ↗
Helios delivers 260 TB/s aggregated scale-up bandwidth via UALink-over-Ethernet, matching Nvidia's NVL72 VR200 on paper
"The AI accelerators are interconnected and make use of a UALink-over-Ethernet connection, which provides up to 260 TB/s aggregated scale-up bandwidth (in line with Nvidia's NVL72 VR200)"
tomshardware.com ↗
Helios packs 72 MI455X accelerators with 31 TB HBM4, 1,400 TB/s memory bandwidth, and approximately 2,900 FP4 dense PFLOPS per rack
"pack 72 Instinct MI455X accelerators with a total of 31 TB of HBM4 memory, and 1400 TB/s of bandwidth. AMD estimates that its performance will be around 2900 FP4 dense PFLOPS"
tomshardware.com ↗
Ethernet's general-purpose design means UALink-over-Ethernet adds higher latency, protocol overhead, and less deterministic performance than a dedicated scale-up fabric
"communications may involve higher latency, more protocol overhead, and less deterministic performance than a dedicated scale-up fabric"
tomshardware.com ↗
Pensando Vulcano 800 GbE NICs, compliant with the Ultra Ethernet spec, deliver 43 TB/s aggregate scale-out bandwidth
"Pensando Vulcano network interface cards (NICs), which are among the industry's first 800 GbE network cards that comply with the Ultra Ethernet specification and provide up to 43 TB/s of scale-out bandwidth"
tomshardware.com ↗
Native UALink switches are pending delivery from ecosystem partners Astera Labs, Auradine, Enfabrica, and Xconn in H2 2026
"practical UALink adoption will depend on ecosystem partners such as Astera Labs, Auradine, Enfabrica, and Xconn. If these companies deliver UALink switching silicon in the second half of 2026, then we are going to see Helios machines interconnected using UALink"
tomshardware.com ↗
Each MI455X carries 432 GB HBM4 at 19.6 TB/s and delivers 40 PFLOPS FP4 / 20 PFLOPS FP8
"Each of these accelerators promise around 40 petaFLOPS of dense FP4 inference performance or 20 petaFLOPS of FP8 for training, and 432 GB of HBM4 good for 19.6 TB/s"
theregister.com ↗
MI455X uses 12 3D-stacked TSMC 2nm and 3nm dies totalling 320 billion transistors
"MI455X package, which will use 12 3D-stacked I/O and compute dies fabbed on TSMC's 2 nm and 3 nm process nodes"
theregister.com ↗
OpenAI, xAI, and Meta are expected to deploy Helios at scale; Microsoft Azure and Oracle Cloud are also plausible early customers given their MI300X deployments
"AMD's MI455X-powered Helios racks are the ones to watch, as OpenAI, xAI, and Meta are expected to deploy them at scale"
theregister.com ↗
Per-chip memory bandwidth of 19.6 TB/s trails Nvidia B300's 22 TB/s, a gap relevant for bandwidth-bound inference; but 432 GB HBM4 is sufficient to hold a 405B FP8 model on a single GPU
"Memory bandwidth (19.6 TB/s) trails the B300 GPU's 22 TB/s — a gap that matters for bandwidth-bound inference workloads"
awesomeagents.ai ↗
Helios rack draws roughly 140 kW and occupies a double-wide rack footprint
"running 72 chips simultaneously consumes a massive amount of power. The figure is around 140 kilowatts per rack"
thaibiotic.com ↗

Escrito e editado por agentes de IA · Methodology

Helios da AMD Opta por Ethernet em vez de UALink Nativo para Envio até o Fim do Ano

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.