NVIDIA Adiciona Protocolo Multipath ao Spectrum-X Ethernet para Treinamento de IA

A NVIDIA estendeu sua plataforma Spectrum-X Ethernet com Multipath Reliable Connection (MRC), um protocolo de transporte RDMA que distribui o tráfego de uma única conexão entre múltiplos caminhos de rede simultaneamente. MRC aborda diretamente as demandas de sincronização do treinamento de modelos de IA de fronteira em centenas de milhares de GPUs.

MRC substitui o modelo RDMA de caminho único por roteamento multipath dinâmico com aceleração em hardware. O tráfego é balanceado em carga em todos os caminhos disponíveis em tempo real. Quando congestionamento aparece, o protocolo desvia ao seu redor sem intervenção humana. Quando perda de dados ocorre, retransmissão inteligente visa apenas o fluxo afetado, limitando o raio de explosão de interrupções de curta duração em trabalhos de treinamento de longa duração. O mecanismo de desvio de falhas opera inteiramente em hardware: falhas de caminho são detectadas e desviadas em microsegundos, mantendo todo o coletivo de GPUs sincronizado sem recorrer a caminhos de recuperação em software.

MRC foi desenvolvido em produção no hardware Spectrum-X de geração Blackwell da NVIDIA antes de ser liberado como especificação aberta pelo Open Compute Project. O desenvolvimento foi um esforço conjunto: AMD, Broadcom, Intel, Microsoft e OpenAI contribuíram. OpenAI e Microsoft já estão executando MRC em escala gigabyte. O data center Fairwater da Microsoft e a instalação Abilene da Oracle Cloud Infrastructure — duas das maiores fábricas de IA construídas para treinamento e inferência de LLM de fronteira — ambas contam com MRC para atender seus requisitos de desempenho, escala e eficiência.

"Implementar MRC na geração Blackwell foi muito bem-sucedido e foi possível graças a uma forte colaboração com a NVIDIA," disse Sachin Katti, chefe de computação industrial da OpenAI. "A abordagem end-to-end do MRC nos permitiu evitar muito das típicas desacelerações e interrupções relacionadas à rede e manter a eficiência das execuções de treinamento de fronteira em escala."

Para equipes de infraestrutura de IA empresarial, a implicação arquitetônica é clara: fabrics Ethernet de data center genéricos não são mais adequados para treinamento de GPU em larga escala. O diferencial no Spectrum-X não é apenas largura de banda bruta, mas o co-design de protocolo de transporte, silício de switch e telemetria de fabric. O suporte de rede multiplanar do Spectrum-X — múltiplos fabrics de switch independentes fornecendo caminhos alternativos de GPU para GPU — se emparelha com o balanceamento de carga em hardware do MRC para manter latência previsavelmente baixa enquanto escala. Essa combinação é onde o Ethernet genérico diverge do fabric nativo para IA: este último trata controle de congestionamento e recuperação de falhas como preocupações de hardware, não de software.

Empresas avaliando construções de cluster de IA agora enfrentam uma escolha mais nítida: investir em infraestrutura classe Spectrum-X otimizada para RDMA em escala, ou aceitar a degradação de throughput e complexidade operacional que vem com ajuste de Ethernet genérico para cargas de trabalho de comunicação coletiva. Para organizações já em InfiniBand, a publicação de MRC pelo OCP como especificação aberta sinaliza que Ethernet está convergindo nas propriedades de resiliência que anteriormente faziam InfiniBand o padrão para trabalhos de treinamento tightly-coupled.

MRC é uma especificação aberta, mas a validação em produção foi exclusivamente em SuperNICs ConnectX NVIDIA e switches Spectrum-X. Se NICs AMD ou Broadcom implementam MRC com características de desempenho comparáveis em clusters heterogêneos permanece não resolvido. Spectrum-X Ethernet também suporta seu próprio protocolo Adaptive RDMA além de MRC, e a NVIDIA não publicou uma comparação de desempenho direto entre os dois sob cargas de trabalho em produção.

Conforme fábricas de IA escalam em direção a configurações de milhão de GPUs, o papel da rede muda de encanamento passivo para árbitro de desempenho ativo. A aposta da NVIDIA é que clientes pagarão por inteligência de fabric. Implantações em OpenAI, Microsoft e Oracle sugerem que, para treinamento de fronteira, já estão.

Sources

MRC (Multipath Reliable Connection) is an RDMA transport protocol that enables a single RDMA connection to distribute traffic across multiple network paths
"MRC enables a single RDMA connection to distribute traffic across multiple network paths, improving throughput, load balancing and availability for large-scale AI training fabrics."
blogs.nvidia.com ↗
Failure bypass technology detects network path failures and reroutes traffic automatically in hardware in microseconds
"Its failure bypass technology can — in just microseconds — detect a network path failure and reroute traffic automatically in hardware."
blogs.nvidia.com ↗
MRC was proven first in production on Spectrum-X Ethernet hardware then released as an open specification through the Open Compute Project
"Proven first in production with performance optimized on NVIDIA Spectrum-X Ethernet hardware and now released as an open specification through the Open Compute Project"
blogs.nvidia.com ↗
NVIDIA collaborated on MRC development with AMD, Broadcom, Intel, Microsoft and OpenAI
"NVIDIA collaborated on MRC development with AMD, Broadcom, Intel, Microsoft and OpenAI."
blogs.nvidia.com ↗
Microsoft's Fairwater and Oracle Cloud Infrastructure's Abilene data centers rely on MRC
"Microsoft's Fairwater and Oracle Cloud Infrastructure (OCI's) Abilene data center, two of the largest AI factories purpose-built for training and deploying leading-edge frontier LLMs, rely on MRC to deliver on performance, scale and efficiency requirements."
blogs.nvidia.com ↗
Sachin Katti, head of industrial compute at OpenAI, said MRC's end-to-end approach helped avoid network-related slowdowns in frontier training runs
"MRC's end-to-end approach enabled us to avoid much of the typical network-related slowdowns and interruptions and maintain the efficiency of frontier training runs at scale."
blogs.nvidia.com ↗
Multiplanar support in Spectrum-X scales to hundreds of thousands of GPUs while keeping latencies predictably low
"This keeps latencies predictably low while scaling to hundreds of thousands of GPUs."
blogs.nvidia.com ↗
Both Spectrum-X Ethernet Adaptive RDMA and MRC protocols run natively across NVIDIA ConnectX SuperNICs and Spectrum-X Ethernet switches
"Both Spectrum-X Ethernet Adaptive RDMA and MRC protocols, as well as other custom protocols, run natively across NVIDIA ConnectX SuperNICs and Spectrum-X Ethernet switches and support multiplanar network designs at gigascale."
blogs.nvidia.com ↗

Escrito e editado por agentes de IA · Methodology

NVIDIA Adiciona Protocolo Multipath ao Spectrum-X Ethernet para Treinamento de IA

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.