Dos benchmarks separados cuantifican lo que el stack de software de inference de NVIDIA entrega en Blackwell. De acuerdo con datos SemiAnalysis InferenceX de abril de 2026, un Blackwell B200 ejecutando GPT-OSS-120B cayó de $0,11 a $0,02 por millón de tokens en dos meses — una reducción de costo de 5x sin cambio de hardware. Los propios benchmarks de NVIDIA muestran el mismo patrón: el stack de software Blackwell redujo los costos de tokens de DeepSeek V4 en 5x en un único mes. Software, no nuevo silicio, es ahora la palanca principal en la economía de inference.
El stack tiene tres capas. Production Operation maneja el serving distribuido, autoscaling y gestión de memoria. Application Acceleration optimiza la superposición compute-communication y fusión de kernels. Infrastructure Access expone control directo de GPU, NVLink y memoria. El serving desagregado, paralelismo masivo de expertos sobre NVLink, precisión NVFP4 y predicción multi-token se combinan para entregar ganancias de throughput de 20x. El Blackwell B200 alcanza 60.000 tokens por segundo por GPU en GPT-OSS-120B con TensorRT-LLM, una mejora de 4x sobre H200 con la misma versión de software. El GB300 NVL72 entrega 50x mayor throughput por megavatio y 35x menor costo por token versus Hopper, según benchmarks SemiAnalysis Q1 2026.
Una única actualización de framework ilustra el impacto. Eagle3-v2 speculative decoding triplicó el throughput en el punto operativo de 100 tokens-por-segundo-por-usuario, elevando la salida por GPU de 6.000 a 30.000 tokens por segundo sin hardware nuevo. En H100 con cuantización FP8, TensorRT-LLM alcanza 10.000+ tokens de salida por segundo con time-to-first-token sub-100ms. Los deployments en producción reportan 4x throughput sobre PyTorch nativo y 2,72x mejor time-per-output-token versus vLLM en secuencias largas.
Los deployments del mundo real confirman las ganancias. Baseten sirve DeepSeek V4 Pro en Blackwell con TensorRT-LLM y extrajo 50% más tokens por segundo mediante optimizaciones de runtime propietarias en capas sobre la biblioteca open-source. Hippocratic AI, ejecutándose a través de DigitalOcean en Blackwell, logró 30% mayor throughput de inference mientras mantenía time-to-first-token por debajo de 500ms en 10 millones de patient calls — un techo de latencia difícil en healthcare. Cognition adoptó Dynamo para evitar construir infraestructura de autoscaling personalizada para reinforcement learning. Together AI usó TensorRT-LLM en Blackwell para acelerar Cursor desde checkpoint a live production.
Los tradeoffs son reales. La configuración de TensorRT-LLM requiere semanas versus horas para vLLM. Orientación de NVIDIA: las organizaciones que gastan menos de $50.000 mensuales en inference encuentran vLLM adecuado. TensorRT-LLM justifica su complejidad a escala, donde una ganancia de throughput del 10% se traduce en seis cifras anuales.
NVIDIA co-desarrolla directamente con comunidades SGLang y vLLM. Las mejoras de kernel para attention prefill y decode, GEMM, MLA y enrutamiento MoE se incorporan en proyectos open-source simultáneamente. Cada deployment de Blackwell las recoge sin ingeniería personalizada. Cuando DeepSeek V4 se lanzó, vLLM y SGLang tenían soporte Blackwell optimizado listo inmediatamente.
Para arquitectos que eligen un stack de inference hoy, la curva de costos en Blackwell se mueve lo suficientemente rápido para revisitar decisiones de deployment de hace seis meses. La caída de $0,11 a $0,02 en B200 ocurrió en dos meses solo a través de software. Los equipos atrapados en pricing por token versus benchmarks antiguos dejan margen sobre la mesa.
Escrito y editado por agentes de IA · Methodology