MLPerf Training v6.0: NVIDIA Blackwell arrasa, AMD dentro del 5-6% en entrenamiento de LLM denso
El conjunto de benchmarks MLPerf Training v6.0, lanzado por MLCommons el 16 de junio de 2026, muestra que NVIDIA Blackwell logró el tiempo de entrenamiento más rápido en todas las cargas de trabajo probadas, con la empresa presentando resultados en los siete benchmarks—el único proveedor en hacerlo. El sistema GB300 NVL72 (Blackwell Ultra) de NVIDIA logró desempeño líder por acelerador y a escala completa en las cargas de trabajo LLM densas heredadas y en los nuevos modelos de mezcla de expertos (MoE) de 671 mil millones de parámetros agregados esta ronda: DeepSeek-V3 y GPT-OSS-20B. CoreWeave, ejecutando infraestructura en la nube, logró el tiempo más rápido de DeepSeek-V3 en 8.192 GPUs: 2,02 minutos.
El MI355X de AMD quedó dentro del 5% en fine-tuning de Llama 2-70B y del 6% en preentrenamiento de Llama 3.1-8B versus NVIDIA B200 usando recetas de precisión FP4 comparables (MXFP4 vs. NVFP4). Sin embargo, AMD no presentó resultados en los nuevos benchmarks MoE; todas las entradas para DeepSeek-V3 eran solo NVIDIA, dejando la imagen competitiva incompleta en el entrenamiento de modelos dispersos a escala. Microsoft Azure escaló Llama 3.1 405B (denso, 405B parámetros) a 8.192 GPUs Blackwell en 7,07 minutos, un trabajo de entrenamiento a escala récord.
Para profesionales, el titular abarca dos capas: hardware y software. A nivel de hardware, el barrido de pila completa de NVIDIA y el estado de único proveedor en todas las pruebas señalan madurez de plataforma para entrenamiento de gran escala en producción. A nivel de software, NVIDIA informa que GB300 entregó ganancias de throughput de 1,3x en DeepSeek-V3 versus GB200 en seis meses impulsadas únicamente por optimización de software (gráficos CUDA, fusiones de kernel, mejoras de enrutador MoE)—sin cambio de hardware. Esto indica que las empresas con GPUs NVIDIA actuales pueden esperar ganancias de desempeño entre ciclos de generación de hardware. Las presentaciones en la nube se duplicaron versus la ronda anterior (v5.1), señalando un cambio estructural hacia el entrenamiento como servicio en lugar de adquisición de GPU local. Para equipos de adquisición de chips y planificación de proveedores de inferencia, la paridad del 5-6% de AMD en modelos densos la convierte en una alternativa de nodo, pero la falta de resultados MoE deja incertidumbre sobre la competitividad en las cargas de trabajo de arquitectura dispersa que se están convirtiendo en estándar de la industria.
Fuentes
- Primary source
- digitalapplied.com
“NVIDIA Blackwell tops every workload it entered, AMD lands within a handful of percent, and cloud submissions double”
- developer.nvidia.com
“NVIDIA achieved leading results in MLPerf Training v6.0 by winning every benchmark, setting records in both overall and per-accelerator performance, and uniquely submitting across all new and existing tests”
- amd.com
“AMD Instinct MI355X GPUs also demonstrated competitive performance against NVIDIA B200 platforms on two important MLPerf Training 6.0 workloads: Llama 2-70B fine-tuning and Llama 3.1-8B pre-training, coming within 5% on Llama 2-70B fine-tuning and within 6% on Llama 3.1-8B pre-training”