Pilha de Inferência NVIDIA Reduz Custos de Token em até 5x no Blackwell em Um Mês
O software de inferência de pilha completa da NVIDIA na plataforma GPU Blackwell reduziu custos de token em até 5x para o modelo DeepSeek V4 dentro de um único mês, de acordo com dados de benchmark lançados em 30 de junho. Os ganhos vêm de otimizações em camadas no serving de produção (inferência desagregada, autoscaling), aceleração de runtime (kernel fusion, multi-token prediction) e exposição de hardware (largura de banda NVLink, precisão NVFP4). Combinadas, essas otimizações produzem até 20x throughput por GPU—mas realizar esse ganho requer coordenação em todas as camadas da pilha.
A adoção no mundo real já está em andamento: Baseten implantou DeepSeek V4 Pro no Blackwell com 50% mais throughput de tokens; Deep Infra e Together AI estão servindo modelos de fronteira em escala; Cognition usa o framework Dynamo da NVIDIA para gerenciar GPUs de inferência para cargas de trabalho de aprendizado por reforço sem construir infraestrutura personalizada. A alavancagem do ecossistema da NVIDIA—PyTorch suporta nativamente Tensor Cores e NVFP4; projetos abertos como vLLM e SGLang integram otimizações CUDA no lançamento—significa que novos avanços de pesquisa (DFlash speculative decode, FastVideo) se traduzem em desempenho de produção em semanas, não meses.
Para arquitetos de infraestrutura, isso sinaliza uma maturação da commodity de inferência: tokens brutos por dólar não são mais moats competitivos; o jogo agora é integração vertical e co-design software-hardware. Equipes que executam grandes frotas de inferência não podem mais justificar metas genéricas de utilização de GPU—elas precisam instrumentar custo de token de pilha completa e medir ROI em atualizações de pilha de software. Espere depreciação rápida de implementações Hopper mais antigas conforme benchmarks Blackwell se espalham; ciclos de renovação estão se comprimindo.
Fontes
- Primary source
- NVIDIA Blog: How NVIDIA's Inference Software Stack Powers the Lowest Token Cost
“On the NVIDIA Blackwell platform, the software stack has already reduced token costs by up to 5x on the DeepSeek V4 model in just one month. Combined, they increase throughput by up to 20x”