NVIDIA barre MLPerf Training 6.0; GB300 ejecuta DeepSeek-V3 en 2,02 minutos en 8.192 GPUs
NVIDIA dominó MLPerf Training v6.0, el benchmark de estándar de la industria publicado el 16 de junio, publicando el tiempo más rápido para entrenar en cada benchmark y el más alto desempeño por acelerador en todas las pruebas. La empresa fue el único proveedor en enviar resultados en los siete benchmarks del suite, incluidas nuevas pruebas de preentrenamiento de mezcla de expertos (MoE) para DeepSeek-V3 y GPT-OSS-20B que reflejan tendencias actuales en el desarrollo de modelos a escala.
CoreWeave logró el tiempo de entrenamiento más rápido en el modelo más grande de la suite: DeepSeek-V3 671B entrenado hasta el objetivo de calidad en 2,02 minutos a escala de 8.192 GPUs usando sistemas GB300 NVL72 conectados con redes Spectrum-X. Microsoft Azure escaló Llama 3.1 405B a 8.192 GPUs usando GB200 NVL72, alcanzando el objetivo de referencia en 7,07 minutos. Los sistemas Blackwell Ultra GB300 de NVIDIA demostraron un rendimiento 60% más rápido que GB200 en el mismo factor de forma NVL72.
Para equipos de infraestructura de IA, el barrido limpio valida la arquitectura de pila completa de Blackwell (hardware, conmutación NVLink, redes Spectrum-X y pilas de software CUDA) a escala de miles de GPUs. La ausencia de envíos competitivos en cargas de trabajo MoE señala que otros proveedores de GPU carecen de madurez de software para entrenar a escala en arquitecturas de modelo de próxima generación. El desempeño a escala de rack ahora es tan importante como las métricas por acelerador: los hiperscalers se preocupan por el rendimiento por kilovatio y el tiempo de preparación del modelo, no sólo por FLOPS brutos.
Fuentes
- Primary source
- developer.nvidia.com
“NVIDIA achieved leading results by winning every benchmark, setting records in both overall and per-accelerator performance, scaling up to 8,192 Blackwell Ultra GPUs”
- wccftech.com
“CoreWeave delivered the fastest time to train for DeepSeek-V3 671B, reaching the quality target in 2.02 minutes at 8,192-GPU scale using GB300 NVL72 systems”