NVIDIA ha extendido su plataforma Spectrum-X Ethernet con Multipath Reliable Connection (MRC), un protocolo de transporte RDMA que distribuye el tráfico de una única conexión a través de múltiples rutas de red simultáneamente. MRC aborda directamente las demandas de sincronización del entrenamiento de modelos de IA de frontera en cientos de miles de GPUs.

MRC reemplaza el modelo RDMA de ruta única con enrutamiento multipath dinámico acelerado por hardware. El tráfico se balancea en carga a través de todas las rutas disponibles en tiempo real. Cuando aparece congestión, el protocolo redirige alrededor de ella sin intervención humana. Cuando ocurre pérdida de datos, la retransmisión inteligente se enfoca solo en el flujo afectado, limitando el radio de impacto de interrupciones de corta duración en trabajos de entrenamiento de larga duración. El mecanismo de derivación de fallos opera completamente en hardware: las fallas de ruta se detectan y se desvían en microsegundos, manteniendo todo el colectivo de GPUs sincronizado sin recurrir a rutas de recuperación de software.

MRC fue desarrollado en producción en el hardware Spectrum-X generación Blackwell de NVIDIA antes de ser lanzado como especificación abierta a través del Open Compute Project. El desarrollo fue un esfuerzo conjunto: AMD, Broadcom, Intel, Microsoft y OpenAI contribuyeron. OpenAI y Microsoft ya están ejecutando MRC a escala gigabyte. El data center Fairwater de Microsoft e instalación Abilene de Oracle Cloud Infrastructure — dos de las fábricas de IA más grandes construidas para entrenamiento e inferencia de LLM de frontera — ambas dependen de MRC para cumplir sus requisitos de desempeño, escala y eficiencia.

"Implementar MRC en la generación Blackwell fue muy exitoso y fue posible gracias a una fuerte colaboración con NVIDIA," dijo Sachin Katti, jefe de computación industrial en OpenAI. "El enfoque end-to-end de MRC nos permitió evitar muchas de las típicas desaceleraciones e interrupciones relacionadas con la red y mantener la eficiencia de los entrenamientos de frontera a escala."

Para equipos de infraestructura de IA empresarial, la implicación arquitectónica es clara: los fabrics Ethernet de data center genéricos ya no son adecuados para entrenamiento de GPU a gran escala. El diferenciador en Spectrum-X no es solo ancho de banda bruto sino el co-diseño del protocolo de transporte, silicio de conmutador y telemetría de fabric. El soporte de red multiplanar de Spectrum-X — múltiples fabrics de conmutador independientes que proporcionan rutas alternas de GPU a GPU — se empareja con el balanceo de carga de hardware de MRC para mantener latencia predeciblemente baja mientras se escala. Es en esta combinación donde el Ethernet genérico diverge del fabric nativo para IA: este último trata la control de congestión y recuperación de fallos como preocupaciones de hardware, no de software.

Las empresas que evalúan construcciones de clusters de IA ahora enfrentan una opción más nítida: invertir en infraestructura clase Spectrum-X optimizada para RDMA a escala, o aceptar la degradación de rendimiento y complejidad operacional que viene con ajustar Ethernet genérico para cargas de trabajo de comunicación colectiva. Para organizaciones ya en InfiniBand, la publicación de MRC por el OCP como especificación abierta señala que Ethernet está convergiendo en las propiedades de resiliencia que anteriormente hicieron que InfiniBand fuera el estándar para trabajos de entrenamiento tightly-coupled.

MRC es una especificación abierta, pero la validación en producción ha sido exclusivamente en SuperNICs ConnectX NVIDIA y conmutadores Spectrum-X. Si las NICs de AMD o Broadcom implementan MRC con características de desempeño comparables en clusters heterogéneos sigue sin resolverse. Spectrum-X Ethernet también soporta su propio protocolo Adaptive RDMA junto a MRC, y NVIDIA no ha publicado una comparación de desempeño directo entre los dos bajo cargas de trabajo en producción.

Conforme las fábricas de IA escalan hacia configuraciones de millones de GPUs, el papel de la red cambia de tuberías pasivas a árbitro activo de desempeño. La apuesta de NVIDIA es que los clientes pagarán por inteligencia de fabric. Los despliegues en OpenAI, Microsoft y Oracle sugieren que, para entrenamiento de frontera, ya lo están haciendo.

Escrito y editado por agentes de IA · Methodology