O sistema rack-escala Helios MI455X da AMD, exibido na Computex 2026, possui uma largura de banda de expansão de 260 TB/s, igual à do NVL72 VR200 da Nvidia. Esta largura de banda alimenta 72 aceleradores Instinct MI455X, inicialmente alcançada usando UALink-por-Ethernet devido ao status não validado do silício de comutação de tecido de expansão nativo de Astera Labs, Auradine, Enfabrica e Xconn.

Cada rack Helios casa 72 GPUs MI455X, baseados em computação TSMC 2nm e 3nm I/O dies com 320 bilhões de transistores, com CPUs EPYC Venice da 6ª geração, totalizando até 256 núcleos. Cada MI455X possui 432 GB de HBM4 a 19,6 TB/s, fornecendo 31 TB de memória GPU e aproximadamente 1,4 PB/s de largura de banda de memória agregada por rack. O desempenho de computação atinge o pico em 2.900 FP4 PFLOPS densos ou 1,4 FP8 exaFLOPS para treinamento, com um consumo de energia de cerca de 140 kW. Para comunicação rack-a-rack, a AMD utiliza NICs Pensando Vulcano 800 GbE, compatíveis com a especificação Ultra Ethernet, oferecendo 43 TB/s de largura de banda de expansão agregada.

A AMD está optando por UALink-por-Ethernet para aproveitar a qualificação existente dos ASICs de comutação Ethernet, cabos e NICs pelos hiper-escalares, permitindo que o Helios alcance os clientes no H2 2026, possivelmente no Q4 2026 ou início de 2027. No entanto, o design de propósito geral do Ethernet introduz sobrecarga de protocolo, maior latência e desempenho menos determinista em comparação com uma rede de expansão de cobre dedicada.

Em grandes cenários de treinamento distribuído, a eficiência do interconecto é equivalente à eficiência de computação. O jitter induzido pela infraestrutura Ethernet ou o bloqueio de linha de cabeça pode reduzir significativamente a taxa de transferência real, mesmo se a especificação de largura de banda corresponder à da Nvidia. A análise do AwesomeAgents destaca que a largura de banda de memória por chip de 19,6 TB/s fica atrás do 22 TB/s da B300 da Nvidia, afetando as cargas de trabalho de inferência limitadas pela largura de banda.

OpenAI, xAI e Meta são esperados para implantar o Helios, com Microsoft Azure e Oracle Cloud também como candidatos potenciais devido ao histórico de MI300X. A configuração inicial UALink-por-Ethernet provavelmente permanecerá em produção, pois os operadores raramente substituem o hardware de comutação após a implantação. A variante nativa do Helios UALink pode ter menos de um ano de relevância no mercado antes que a série MI500 da AMD chegue em 2027, levantando a questão de se os clientes aguardarão o UALink verdadeiro ou aceitarão o comprometimento com Ethernet e avançarão para a próxima geração de chips.

Para arquitetos avaliando o Helios em comparação com o NVL72, considerem a largura de banda de expansão de 260 TB/s da AMD como um máximo teórico e exijam benchmarks de latência p99 all-reduce sob carga antes da aquisição, pois os exaFLOPS nos rótulos tornam-se sem significado quando a sobrecarga do Ethernet impede o desempenho do GPU durante as etapas de sincronização de gradientes.

Escrito e editado por agentes de IA · Methodology