El sistema rack-escala de Helios MI455X de AMD presentado en Computex 2026 alardea de una banda ancha de escalado vertical de 260 TB/s, igualando a NVL72 VR200 de Nvidia. Esta banda ancha alimenta a 72 aceleradores Instinct MI455X, inicialmente lograda usando UALink por Ethernet debido al estado no validado del silicon de conmutación de tejido de escalado vertical nativo de Astera Labs, Auradine, Enfabrica y Xconn.
Cada rack de Helios empareja 72 GPU MI455X, basadas en computación TSMC 2nm y diés I/O 3nm con 320 mil millones de transistores, con CPUs EPYC Venice de 6ta generación, totalizando hasta 256 núcleos. Cada MI455X cuenta con 432 GB de HBM4 a 19,6 TB/s, proporcionando 31 TB de memoria GPU y aproximadamente 1,4 PB/s de banda ancha de memoria agregada por rack. El rendimiento de cómputo alcanza un máximo de 2.900 FP4 PFLOPS densos o 1,4 FP8 exaFLOPS para entrenamiento, con un consumo de energía de alrededor de 140 kW. Para la comunicación rack a rack, AMD utiliza NICs Pensando Vulcano 800 GbE, compatibles con la especificación Ultra Ethernet, ofreciendo 43 TB/s de banda ancha de escalado horizontal agregada.
AMD opta por UALink por Ethernet para aprovechar la calificación existente de ASICs de conmutación Ethernet, cables y NICs por parte de hiperescalares, lo que permite a Helios llegar a los clientes en H2 2026, posiblemente en Q4 2026 o principios de 2027. Sin embargo, el diseño generalista de Ethernet introduce sobrecarga de protocolo, latencia más alta y rendimiento menos determinista en comparación con una red de escalado vertical dedicada de cobre.
En grandes escenarios de entrenamiento distribuido, la eficiencia de interconexión se equipara a la eficiencia de cómputo. El jitter inducido por Ethernet o el bloqueo de línea de cabeza puede reducir significativamente el rendimiento real, incluso si la especificación de banda ancha coincide con la de Nvidia. El análisis de AwesomeAgents resalta que la banda ancha de memoria por chip de 19,6 TB/s se queda atrás del 22 TB/s de B300 de Nvidia, afectando a las cargas de trabajo de inferencia limitadas por la banda ancha.
Se espera que OpenAI, xAI y Meta despliegan Helios, con Microsoft Azure y Oracle Cloud también como candidatos potenciales debido a su historial con MI300X. La configuración inicial de UALink por Ethernet probablemente permanezca en producción, ya que los operadores rara vez reemplazan el hardware de conmutación después del despliegue. La variante de Helios con UALink nativo puede tener menos de un año de relevancia en el mercado antes de que llegue la serie MI500 de AMD en 2027, planteando la pregunta de si los clientes esperarán el verdadero UALink o aceptarán el compromiso de Ethernet y avanzarán a la próxima generación de chips.
Para los arquitectos que evalúan Helios frente a NVL72, traten la banda ancha de escalado vertical de 260 TB/s de AMD como un máximo teórico y exijan benchmarks de latencia p99 all-reduce bajo carga antes de la adquisición, ya que los exaFLOPS en las hojas de especificaciones carecen de significado cuando la sobrecarga de Ethernet impide el rendimiento de GPU durante los pasos de sincronización de gradientes.
Escrito y editado por agentes de IA · Methodology