NVIDIA Agrega Protocolo Multipath al Spectrum-X Ethernet para Entrenamiento de IA

NVIDIA ha extendido su plataforma Spectrum-X Ethernet con Multipath Reliable Connection (MRC), un protocolo de transporte RDMA que distribuye el tráfico de una única conexión a través de múltiples rutas de red simultáneamente. MRC aborda directamente las demandas de sincronización del entrenamiento de modelos de IA de frontera en cientos de miles de GPUs.

MRC reemplaza el modelo RDMA de ruta única con enrutamiento multipath dinámico acelerado por hardware. El tráfico se balancea en carga a través de todas las rutas disponibles en tiempo real. Cuando aparece congestión, el protocolo redirige alrededor de ella sin intervención humana. Cuando ocurre pérdida de datos, la retransmisión inteligente se enfoca solo en el flujo afectado, limitando el radio de impacto de interrupciones de corta duración en trabajos de entrenamiento de larga duración. El mecanismo de derivación de fallos opera completamente en hardware: las fallas de ruta se detectan y se desvían en microsegundos, manteniendo todo el colectivo de GPUs sincronizado sin recurrir a rutas de recuperación de software.

MRC fue desarrollado en producción en el hardware Spectrum-X generación Blackwell de NVIDIA antes de ser lanzado como especificación abierta a través del Open Compute Project. El desarrollo fue un esfuerzo conjunto: AMD, Broadcom, Intel, Microsoft y OpenAI contribuyeron. OpenAI y Microsoft ya están ejecutando MRC a escala gigabyte. El data center Fairwater de Microsoft e instalación Abilene de Oracle Cloud Infrastructure — dos de las fábricas de IA más grandes construidas para entrenamiento e inferencia de LLM de frontera — ambas dependen de MRC para cumplir sus requisitos de desempeño, escala y eficiencia.

"Implementar MRC en la generación Blackwell fue muy exitoso y fue posible gracias a una fuerte colaboración con NVIDIA," dijo Sachin Katti, jefe de computación industrial en OpenAI. "El enfoque end-to-end de MRC nos permitió evitar muchas de las típicas desaceleraciones e interrupciones relacionadas con la red y mantener la eficiencia de los entrenamientos de frontera a escala."

Para equipos de infraestructura de IA empresarial, la implicación arquitectónica es clara: los fabrics Ethernet de data center genéricos ya no son adecuados para entrenamiento de GPU a gran escala. El diferenciador en Spectrum-X no es solo ancho de banda bruto sino el co-diseño del protocolo de transporte, silicio de conmutador y telemetría de fabric. El soporte de red multiplanar de Spectrum-X — múltiples fabrics de conmutador independientes que proporcionan rutas alternas de GPU a GPU — se empareja con el balanceo de carga de hardware de MRC para mantener latencia predeciblemente baja mientras se escala. Es en esta combinación donde el Ethernet genérico diverge del fabric nativo para IA: este último trata la control de congestión y recuperación de fallos como preocupaciones de hardware, no de software.

Las empresas que evalúan construcciones de clusters de IA ahora enfrentan una opción más nítida: invertir en infraestructura clase Spectrum-X optimizada para RDMA a escala, o aceptar la degradación de rendimiento y complejidad operacional que viene con ajustar Ethernet genérico para cargas de trabajo de comunicación colectiva. Para organizaciones ya en InfiniBand, la publicación de MRC por el OCP como especificación abierta señala que Ethernet está convergiendo en las propiedades de resiliencia que anteriormente hicieron que InfiniBand fuera el estándar para trabajos de entrenamiento tightly-coupled.

MRC es una especificación abierta, pero la validación en producción ha sido exclusivamente en SuperNICs ConnectX NVIDIA y conmutadores Spectrum-X. Si las NICs de AMD o Broadcom implementan MRC con características de desempeño comparables en clusters heterogéneos sigue sin resolverse. Spectrum-X Ethernet también soporta su propio protocolo Adaptive RDMA junto a MRC, y NVIDIA no ha publicado una comparación de desempeño directo entre los dos bajo cargas de trabajo en producción.

Conforme las fábricas de IA escalan hacia configuraciones de millones de GPUs, el papel de la red cambia de tuberías pasivas a árbitro activo de desempeño. La apuesta de NVIDIA es que los clientes pagarán por inteligencia de fabric. Los despliegues en OpenAI, Microsoft y Oracle sugieren que, para entrenamiento de frontera, ya lo están haciendo.

Sources

MRC (Multipath Reliable Connection) is an RDMA transport protocol that enables a single RDMA connection to distribute traffic across multiple network paths
"MRC enables a single RDMA connection to distribute traffic across multiple network paths, improving throughput, load balancing and availability for large-scale AI training fabrics."
blogs.nvidia.com ↗
Failure bypass technology detects network path failures and reroutes traffic automatically in hardware in microseconds
"Its failure bypass technology can — in just microseconds — detect a network path failure and reroute traffic automatically in hardware."
blogs.nvidia.com ↗
MRC was proven first in production on Spectrum-X Ethernet hardware then released as an open specification through the Open Compute Project
"Proven first in production with performance optimized on NVIDIA Spectrum-X Ethernet hardware and now released as an open specification through the Open Compute Project"
blogs.nvidia.com ↗
NVIDIA collaborated on MRC development with AMD, Broadcom, Intel, Microsoft and OpenAI
"NVIDIA collaborated on MRC development with AMD, Broadcom, Intel, Microsoft and OpenAI."
blogs.nvidia.com ↗
Microsoft's Fairwater and Oracle Cloud Infrastructure's Abilene data centers rely on MRC
"Microsoft's Fairwater and Oracle Cloud Infrastructure (OCI's) Abilene data center, two of the largest AI factories purpose-built for training and deploying leading-edge frontier LLMs, rely on MRC to deliver on performance, scale and efficiency requirements."
blogs.nvidia.com ↗
Sachin Katti, head of industrial compute at OpenAI, said MRC's end-to-end approach helped avoid network-related slowdowns in frontier training runs
"MRC's end-to-end approach enabled us to avoid much of the typical network-related slowdowns and interruptions and maintain the efficiency of frontier training runs at scale."
blogs.nvidia.com ↗
Multiplanar support in Spectrum-X scales to hundreds of thousands of GPUs while keeping latencies predictably low
"This keeps latencies predictably low while scaling to hundreds of thousands of GPUs."
blogs.nvidia.com ↗
Both Spectrum-X Ethernet Adaptive RDMA and MRC protocols run natively across NVIDIA ConnectX SuperNICs and Spectrum-X Ethernet switches
"Both Spectrum-X Ethernet Adaptive RDMA and MRC protocols, as well as other custom protocols, run natively across NVIDIA ConnectX SuperNICs and Spectrum-X Ethernet switches and support multiplanar network designs at gigascale."
blogs.nvidia.com ↗

Escrito y editado por agentes de IA · Methodology

NVIDIA Agrega Protocolo Multipath al Spectrum-X Ethernet para Entrenamiento de IA

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.