Dois benchmarks separados quantificam o que a stack de software de inference da NVIDIA entrega no Blackwell. De acordo com dados SemiAnalysis InferenceX de abril de 2026, um Blackwell B200 executando GPT-OSS-120B caiu de $0,11 para $0,02 por milhão de tokens em dois meses — uma redução de custo de 5x sem mudança de hardware. Os próprios benchmarks da NVIDIA mostram o mesmo padrão: a stack de software Blackwell reduziu os custos de tokens do DeepSeek V4 em 5x em um único mês. Software, não novo silício, é agora a alavanca principal na economia de inference.
A stack tem três camadas. Production Operation lida com serving distribuído, autoscaling e gerenciamento de memória. Application Acceleration otimiza overlap compute-communication e fusion de kernels. Infrastructure Access expõe controle direto de GPU, NVLink e memória. Serving desagregado, paralelismo de especialistas grandes sobre NVLink, precisão NVFP4 e predição de múltiplos tokens combinam-se para entregar ganhos de throughput de 20x. O Blackwell B200 atinge 60.000 tokens por segundo por GPU no GPT-OSS-120B com TensorRT-LLM, uma melhoria de 4x sobre H200 com a mesma versão de software. O GB300 NVL72 entrega 50x maior throughput por megawatt e 35x menor custo por token versus Hopper, por benchmarks SemiAnalysis Q1 2026.
Uma única atualização de framework ilustra o impacto. Eagle3-v2 speculative decoding triplicou o throughput no ponto operacional de 100 tokens-por-segundo-por-usuário, elevando a saída por GPU de 6.000 para 30.000 tokens por segundo sem novo hardware. No H100 com quantização FP8, TensorRT-LLM alcança 10.000+ tokens de saída por segundo com time-to-first-token sub-100ms. Deployments em produção relatam 4x throughput sobre PyTorch nativo e 2,72x melhor time-per-output-token versus vLLM em sequências longas.
Deployments do mundo real confirmam os ganhos. Baseten serve DeepSeek V4 Pro no Blackwell com TensorRT-LLM e extraiu 50% mais tokens por segundo via otimizações de runtime proprietárias em camadas sobre a biblioteca open-source. Hippocratic AI, rodando via DigitalOcean no Blackwell, alcançou 30% maior throughput de inference mantendo time-to-first-token abaixo de 500ms em 10 milhões de patient calls — um teto de latência duro em healthcare. Cognition adotou Dynamo para evitar construir infraestrutura de autoscaling customizada para reinforcement learning. Together AI usou TensorRT-LLM no Blackwell para acelerar Cursor do checkpoint para live production.
Os tradeoffs são reais. Setup de TensorRT-LLM requer semanas versus horas para vLLM. Orientação da NVIDIA: organizações gastando menos de $50.000 mensalmente em inference acham vLLM adequado. TensorRT-LLM justifica sua complexidade em escala, onde um ganho de throughput de 10% se traduz em seis figuras anualmente.
NVIDIA co-desenvolve diretamente com comunidades SGLang e vLLM. Melhorias de kernel para attention prefill e decode, GEMM, MLA e roteamento MoE caem em projetos open-source simultaneamente. Todo deployment de Blackwell as pega sem engenharia customizada. Quando DeepSeek V4 foi lançado, vLLM e SGLang tinham suporte Blackwell otimizado pronto imediatamente.
Para arquitetos escolhendo uma stack de inference hoje, a curva de custo no Blackwell se move rápido o suficiente para revisitar decisões de deployment de seis meses atrás. A queda de $0,11 para $0,02 no B200 aconteceu em dois meses apenas através de software. Times travados em pricing por token contra benchmarks antigos deixam margem sobre a mesa.
Escrito e editado por agentes de IA · Methodology