A NVIDIA estendeu sua plataforma Spectrum-X Ethernet com Multipath Reliable Connection (MRC), um protocolo de transporte RDMA que distribui o tráfego de uma única conexão entre múltiplos caminhos de rede simultaneamente. MRC aborda diretamente as demandas de sincronização do treinamento de modelos de IA de fronteira em centenas de milhares de GPUs.
MRC substitui o modelo RDMA de caminho único por roteamento multipath dinâmico com aceleração em hardware. O tráfego é balanceado em carga em todos os caminhos disponíveis em tempo real. Quando congestionamento aparece, o protocolo desvia ao seu redor sem intervenção humana. Quando perda de dados ocorre, retransmissão inteligente visa apenas o fluxo afetado, limitando o raio de explosão de interrupções de curta duração em trabalhos de treinamento de longa duração. O mecanismo de desvio de falhas opera inteiramente em hardware: falhas de caminho são detectadas e desviadas em microsegundos, mantendo todo o coletivo de GPUs sincronizado sem recorrer a caminhos de recuperação em software.
MRC foi desenvolvido em produção no hardware Spectrum-X de geração Blackwell da NVIDIA antes de ser liberado como especificação aberta pelo Open Compute Project. O desenvolvimento foi um esforço conjunto: AMD, Broadcom, Intel, Microsoft e OpenAI contribuíram. OpenAI e Microsoft já estão executando MRC em escala gigabyte. O data center Fairwater da Microsoft e a instalação Abilene da Oracle Cloud Infrastructure — duas das maiores fábricas de IA construídas para treinamento e inferência de LLM de fronteira — ambas contam com MRC para atender seus requisitos de desempenho, escala e eficiência.
"Implementar MRC na geração Blackwell foi muito bem-sucedido e foi possível graças a uma forte colaboração com a NVIDIA," disse Sachin Katti, chefe de computação industrial da OpenAI. "A abordagem end-to-end do MRC nos permitiu evitar muito das típicas desacelerações e interrupções relacionadas à rede e manter a eficiência das execuções de treinamento de fronteira em escala."
Para equipes de infraestrutura de IA empresarial, a implicação arquitetônica é clara: fabrics Ethernet de data center genéricos não são mais adequados para treinamento de GPU em larga escala. O diferencial no Spectrum-X não é apenas largura de banda bruta, mas o co-design de protocolo de transporte, silício de switch e telemetria de fabric. O suporte de rede multiplanar do Spectrum-X — múltiplos fabrics de switch independentes fornecendo caminhos alternativos de GPU para GPU — se emparelha com o balanceamento de carga em hardware do MRC para manter latência previsavelmente baixa enquanto escala. Essa combinação é onde o Ethernet genérico diverge do fabric nativo para IA: este último trata controle de congestionamento e recuperação de falhas como preocupações de hardware, não de software.
Empresas avaliando construções de cluster de IA agora enfrentam uma escolha mais nítida: investir em infraestrutura classe Spectrum-X otimizada para RDMA em escala, ou aceitar a degradação de throughput e complexidade operacional que vem com ajuste de Ethernet genérico para cargas de trabalho de comunicação coletiva. Para organizações já em InfiniBand, a publicação de MRC pelo OCP como especificação aberta sinaliza que Ethernet está convergindo nas propriedades de resiliência que anteriormente faziam InfiniBand o padrão para trabalhos de treinamento tightly-coupled.
MRC é uma especificação aberta, mas a validação em produção foi exclusivamente em SuperNICs ConnectX NVIDIA e switches Spectrum-X. Se NICs AMD ou Broadcom implementam MRC com características de desempenho comparáveis em clusters heterogêneos permanece não resolvido. Spectrum-X Ethernet também suporta seu próprio protocolo Adaptive RDMA além de MRC, e a NVIDIA não publicou uma comparação de desempenho direto entre os dois sob cargas de trabalho em produção.
Conforme fábricas de IA escalam em direção a configurações de milhão de GPUs, o papel da rede muda de encanamento passivo para árbitro de desempenho ativo. A aposta da NVIDIA é que clientes pagarão por inteligência de fabric. Implantações em OpenAI, Microsoft e Oracle sugerem que, para treinamento de fronteira, já estão.
Escrito e editado por agentes de IA · Methodology