EN VIVO · MIÉ, 01 JUL 2026 --:--:-- ET

Edición Nº 71 GASTO TOTAL $14636.58 ARTÍCULOS HOY 12 TOKENS TOTAL 9.27B

En vivo

Market Las acciones de AMD se disparan a un máximo histórico; Wells Fargo eleva objetivo de precio a $615, ve que Venice CPU supera a Nvidia Vera en unidades en 2027 Funding Ex-socio Speedinvest Rick Hao cierra fondo solo GP de $50M para startups deeptech Funding Tapestry VC cierra fondo de $80M respaldando fundadores europeos repetidos Research OpenAI lanza GeneBench-Pro; prueba el juicio de IA en 129 problemas genómicos multietapa; GPT-5.6 Sol alcanza 31,5% Chips Las naves espaciales ahora fusionan la gestión térmica y la telemetría basada en IA para monitoreo autónomo de salud Market Las empresas se arrepienten de despidos por IA y recontrata conforme los sistemas resultan incapaces de operar sin supervisión humana Market Model Context Protocol alcanza 97M descargas mensuales de SDK; 78% de los equipos de IA empresarial en producción Breaking Elastic abre código Atlas, sistema de memoria de agente con enfoque de ciencia cognitiva para contexto a largo plazo Breaking Databricks abre código Lakebase, Postgres sin servidor con separación de almacenamiento nativo de nube Breaking Google DeepMind envía Nano Banana 2 Lite, modelo de imagen más rápido a $0.034 por 1K imágenes Funding Exejecutivos de Meta y OpenAI buscan $400M para nuevo laboratorio de IA Aire Breaking Model Context Protocol Alcanza 97M Descargas de SDK Mensuales; Principales Proveedores Estandarizan MCP como Capa de Integración de Agentes Funding Aire, Nuevo Laboratorio de IA Respaldado por Alumni de Meta y OpenAI, Busca $400 Millones en Financiamiento Funding Omnea Lanza Fondo de Futuros Fundadores: Cheques de Seed de $250K para Empleados que se Convirtieron en Emprendedores Chips AMD Confirma Núcleos de Baja Potencia en Futuros Procesadores Zen, Siguiendo el Modelo de Arquitectura Heterogénea de Intel Market Pila de Inferencia NVIDIA Reduce Costos de Token hasta 5x en Blackwell en Un Mes Chips Kit de Agentes BioNeMo de NVIDIA se Integra con Claude Science de Anthropic para Flujos de Trabajo de Biología Acelerada Policy Trump Levanta Controles de Exportación en Modelos Fable 5 y Mythos 5 de Anthropic Breaking Google lanza Nano Banana 2 Lite ($0,034/1K imágenes, latencia de 4s) y API de vídeo Gemini Omni Flash Policy Corea del Sur anuncia megainversión de IA y chips de US$ 1T+, liderada por Samsung y SK Hynix hasta 2035 Market Las acciones de AMD se disparan a un máximo histórico; Wells Fargo eleva objetivo de precio a $615, ve que Venice CPU supera a Nvidia Vera en unidades en 2027 Funding Ex-socio Speedinvest Rick Hao cierra fondo solo GP de $50M para startups deeptech Funding Tapestry VC cierra fondo de $80M respaldando fundadores europeos repetidos Research OpenAI lanza GeneBench-Pro; prueba el juicio de IA en 129 problemas genómicos multietapa; GPT-5.6 Sol alcanza 31,5% Chips Las naves espaciales ahora fusionan la gestión térmica y la telemetría basada en IA para monitoreo autónomo de salud Market Las empresas se arrepienten de despidos por IA y recontrata conforme los sistemas resultan incapaces de operar sin supervisión humana Market Model Context Protocol alcanza 97M descargas mensuales de SDK; 78% de los equipos de IA empresarial en producción Breaking Elastic abre código Atlas, sistema de memoria de agente con enfoque de ciencia cognitiva para contexto a largo plazo Breaking Databricks abre código Lakebase, Postgres sin servidor con separación de almacenamiento nativo de nube Breaking Google DeepMind envía Nano Banana 2 Lite, modelo de imagen más rápido a $0.034 por 1K imágenes Funding Exejecutivos de Meta y OpenAI buscan $400M para nuevo laboratorio de IA Aire Breaking Model Context Protocol Alcanza 97M Descargas de SDK Mensuales; Principales Proveedores Estandarizan MCP como Capa de Integración de Agentes Funding Aire, Nuevo Laboratorio de IA Respaldado por Alumni de Meta y OpenAI, Busca $400 Millones en Financiamiento Funding Omnea Lanza Fondo de Futuros Fundadores: Cheques de Seed de $250K para Empleados que se Convirtieron en Emprendedores Chips AMD Confirma Núcleos de Baja Potencia en Futuros Procesadores Zen, Siguiendo el Modelo de Arquitectura Heterogénea de Intel Market Pila de Inferencia NVIDIA Reduce Costos de Token hasta 5x en Blackwell en Un Mes Chips Kit de Agentes BioNeMo de NVIDIA se Integra con Claude Science de Anthropic para Flujos de Trabajo de Biología Acelerada Policy Trump Levanta Controles de Exportación en Modelos Fable 5 y Mythos 5 de Anthropic Breaking Google lanza Nano Banana 2 Lite ($0,034/1K imágenes, latencia de 4s) y API de vídeo Gemini Omni Flash Policy Corea del Sur anuncia megainversión de IA y chips de US$ 1T+, liderada por Samsung y SK Hynix hasta 2035

Market miércoles, 1 de julio de 2026, 01:33

Pila de Inferencia NVIDIA Reduce Costos de Token hasta 5x en Blackwell en Un Mes

El software de inferencia de pila completa de NVIDIA en la plataforma GPU Blackwell ha reducido costos de tokens en hasta 5x para el modelo DeepSeek V4 dentro de un mes, según datos de benchmark lanzados el 30 de junio. Las ganancias provienen de optimizaciones en capas en servicios de producción (inferencia desagregada, autoscaling), aceleración de runtime (kernel fusion, multi-token prediction) y exposición de hardware (ancho de banda NVLink, precisión NVFP4). Combinadas, estas optimizaciones generan hasta 20x throughput por GPU—pero realizar esa ganancia requiere coordinación en todas las capas de la pila.

La adopción en el mundo real ya está en curso: Baseten implementó DeepSeek V4 Pro en Blackwell con 50% más throughput de tokens; Deep Infra y Together AI están sirviendo modelos de frontera a escala; Cognition utiliza el framework Dynamo de NVIDIA para administrar GPUs de inferencia para cargas de trabajo de aprendizaje por refuerzo sin construir infraestructura personalizada. El aprovechamiento del ecosistema de NVIDIA—PyTorch soporta nativamente Tensor Cores y NVFP4; proyectos abiertos como vLLM y SGLang integran optimizaciones CUDA en el lanzamiento—significa que nuevos avances de investigación (DFlash speculative decode, FastVideo) se traducen en desempeño de producción en semanas, no meses.

Para arquitectos de infraestructura, esto señala una maduración de la commodity de inferencia: tokens brutos por dólar ya no son defensas competitivas; el juego ahora es integración vertical y co-diseño software-hardware. Los equipos que ejecutan grandes flotas de inferencia ya no pueden justificar objetivos genéricos de utilización de GPU—necesitan instrumentar costo de token de pila completa y medir ROI en actualizaciones de pila de software. Espere depreciación rápida de implementaciones Hopper más antiguas a medida que se difunden los benchmarks Blackwell; los ciclos de renovación se están comprimiendo.

Fuentes

Primary source
NVIDIA Blog: How NVIDIA's Inference Software Stack Powers the Lowest Token Cost
“On the NVIDIA Blackwell platform, the software stack has already reduced token costs by up to 5x on the DeepSeek V4 model in just one month. Combined, they increase throughput by up to 20x”