MLPerf Training v6.0: NVIDIA Blackwell varre, AMD dentro de 5-6% no treinamento de LLM denso
O conjunto de benchmarks MLPerf Training v6.0, lançado pelo MLCommons em 16 de junho de 2026, mostra que NVIDIA Blackwell alcançou o tempo de treinamento mais rápido em todos os workloads testados, com a empresa submetendo resultados em todos os sete benchmarks—o único fornecedor a fazer isso. O sistema GB300 NVL72 (Blackwell Ultra) da NVIDIA alcançou desempenho líder por acelerador e em escala completa nos workloads LLM densos legados e nos novos modelos de mistura de especialistas (MoE) de 671 bilhões de parâmetros adicionados nesta rodada: DeepSeek-V3 e GPT-OSS-20B. CoreWeave, executando infraestrutura de nuvem, alcançou o tempo mais rápido do DeepSeek-V3 em 8.192 GPUs: 2,02 minutos.
O MI355X da AMD ficou dentro de 5% no fine-tuning do Llama 2-70B e 6% no pré-treinamento do Llama 3.1-8B versus NVIDIA B200 usando receitas de precisão FP4 comparáveis (MXFP4 vs. NVFP4). No entanto, AMD não submeteu resultados nos novos benchmarks MoE; todas as entradas para DeepSeek-V3 eram apenas NVIDIA, deixando a imagem competitiva incompleta no treinamento de modelos esparsos em escala. Microsoft Azure escalou Llama 3.1 405B (denso, 405B parâmetros) para 8.192 GPUs Blackwell em 7,07 minutos, um trabalho de treinamento em escala recorde.
Para profissionais, o título abrange duas camadas: hardware e software. No nível de hardware, a limpeza de stack completo da NVIDIA e o status de único fornecedor em todos os testes sinalizam maturidade de plataforma para treinamento de grande escala em produção. No nível de software, NVIDIA relata que GB300 entregou ganhos de throughput de 1,3x no DeepSeek-V3 versus GB200 em seis meses impulsionados puramente por otimização de software (gráficos CUDA, fusões de kernel, melhorias de roteador MoE)—nenhuma mudança de hardware. Isso indica que empresas com GPUs NVIDIA atuais podem esperar ganhos de desempenho entre ciclos de geração de hardware. Submissões em nuvem dobraram versus a rodada anterior (v5.1), sinalizando uma mudança estrutural em direção ao treinamento como serviço em vez de aquisição de GPU no local. Para equipes de aquisição de chips e planejamento de provedor de inferência, a paridade de 5-6% da AMD em modelos densos a torna uma alternativa de nó, mas a falta de resultados MoE deixa incerteza sobre competitividade nos workloads de arquitetura esparsa se tornando padrão da indústria.
Fontes
- Primary source
- digitalapplied.com
“NVIDIA Blackwell tops every workload it entered, AMD lands within a handful of percent, and cloud submissions double”
- developer.nvidia.com
“NVIDIA achieved leading results in MLPerf Training v6.0 by winning every benchmark, setting records in both overall and per-accelerator performance, and uniquely submitting across all new and existing tests”
- amd.com
“AMD Instinct MI355X GPUs also demonstrated competitive performance against NVIDIA B200 platforms on two important MLPerf Training 6.0 workloads: Llama 2-70B fine-tuning and Llama 3.1-8B pre-training, coming within 5% on Llama 2-70B fine-tuning and within 6% on Llama 3.1-8B pre-training”