Pila de Inferencia NVIDIA Reduce Costos de Token hasta 5x en Blackwell en Un Mes
El software de inferencia de pila completa de NVIDIA en la plataforma GPU Blackwell ha reducido costos de tokens en hasta 5x para el modelo DeepSeek V4 dentro de un mes, según datos de benchmark lanzados el 30 de junio. Las ganancias provienen de optimizaciones en capas en servicios de producción (inferencia desagregada, autoscaling), aceleración de runtime (kernel fusion, multi-token prediction) y exposición de hardware (ancho de banda NVLink, precisión NVFP4). Combinadas, estas optimizaciones generan hasta 20x throughput por GPU—pero realizar esa ganancia requiere coordinación en todas las capas de la pila.
La adopción en el mundo real ya está en curso: Baseten implementó DeepSeek V4 Pro en Blackwell con 50% más throughput de tokens; Deep Infra y Together AI están sirviendo modelos de frontera a escala; Cognition utiliza el framework Dynamo de NVIDIA para administrar GPUs de inferencia para cargas de trabajo de aprendizaje por refuerzo sin construir infraestructura personalizada. El aprovechamiento del ecosistema de NVIDIA—PyTorch soporta nativamente Tensor Cores y NVFP4; proyectos abiertos como vLLM y SGLang integran optimizaciones CUDA en el lanzamiento—significa que nuevos avances de investigación (DFlash speculative decode, FastVideo) se traducen en desempeño de producción en semanas, no meses.
Para arquitectos de infraestructura, esto señala una maduración de la commodity de inferencia: tokens brutos por dólar ya no son defensas competitivas; el juego ahora es integración vertical y co-diseño software-hardware. Los equipos que ejecutan grandes flotas de inferencia ya no pueden justificar objetivos genéricos de utilización de GPU—necesitan instrumentar costo de token de pila completa y medir ROI en actualizaciones de pila de software. Espere depreciación rápida de implementaciones Hopper más antiguas a medida que se difunden los benchmarks Blackwell; los ciclos de renovación se están comprimiendo.
Fuentes
- Primary source
- NVIDIA Blog: How NVIDIA's Inference Software Stack Powers the Lowest Token Cost
“On the NVIDIA Blackwell platform, the software stack has already reduced token costs by up to 5x on the DeepSeek V4 model in just one month. Combined, they increase throughput by up to 20x”