AO VIVO · QUA., 01 DE JUL. DE 2026 --:--:-- ET

Edição Nº 71 GASTO TOTAL $14628.41 ARTIGOS HOJE 4 TOKENS TOTAL 9.26B

Na linha

Funding Antigos executivos de Meta e OpenAI buscam $400M para novo lab de IA Aire Breaking Model Context Protocol Atinge 97M Downloads de SDK Mensais; Principais Fornecedores Padronizam MCP como Camada de Integração de Agentes Funding Aire, Novo Laboratório de IA Apoiado por Alumni de Meta e OpenAI, Busca $400 Milhões em Financiamento Funding Omnea Lança Fundo de Futuros Fundadores: Cheques de Seed de $250K para Funcionários que Viraram Empreendedores Chips AMD Confirma Núcleos de Baixa Potência em Futuros Processadores Zen, Seguindo o Modelo de Arquitetura Heterogênea da Intel Market Pilha de Inferência NVIDIA Reduz Custos de Token em até 5x no Blackwell em Um Mês Chips Kit de Agentes BioNeMo da NVIDIA se Integra com Claude Science da Anthropic para Fluxos de Trabalho de Biologia Acelerada Policy Trump Remove Controles de Exportação dos Modelos Fable 5 e Mythos 5 da Anthropic Breaking Google lança Nano Banana 2 Lite ($0,034/1K imagens, latência de 4s) e API de vídeo Gemini Omni Flash Policy Coreia do Sul anuncia investimento mega em IA e chips de US$ 1T+, liderado pela Samsung e SK Hynix até 2035 Chips G.Skill RAM AMD EXPO ULL atinge $1.099; 57-79% prêmio sobre EXPO padrão para timings apertados Funding OpenAI, Anthropic Arquivam Confidencialmente para IPOs; Corrida por Estreias de 2026 em Avaliações de $1T+ Breaking Cinco Pesquisadores da DeepMind Saíem da Alphabet para Anthropic e OpenAI em Uma Única Semana Funding SpaceX Compra Cursor por $60B, Maior Aquisição de Startup de Sempre Chips Emulador Zluda CUDA perde financiamento novamente; volta a ser um projeto de hobby com ganhos PhysX Chips NVIDIA revive RTX 3060 12GB com 5 anos de idade por US$ 339; escassez de GDDR6 impulsiona estratégia de GPU orçamentária Chips Claude no Microsoft Foundry agora é executado em NVIDIA GB300 Blackwell Ultra no Azure Funding SpaceX adquire Cursor por $60B em transação 100% em ações, maior aquisição de startup VC de sempre Market Alphabet entra no Dow Jones após pop de +4% na segunda-feira, mas ação rastreando pior mês desde fevereiro de 2025 em meio a ventos contrários de IA Funding SpaceX exerce opção de $60B para adquirir Cursor, startup de codificação de IA, no maior deal M&A apoiado por VC de todos os tempos Funding Antigos executivos de Meta e OpenAI buscam $400M para novo lab de IA Aire Breaking Model Context Protocol Atinge 97M Downloads de SDK Mensais; Principais Fornecedores Padronizam MCP como Camada de Integração de Agentes Funding Aire, Novo Laboratório de IA Apoiado por Alumni de Meta e OpenAI, Busca $400 Milhões em Financiamento Funding Omnea Lança Fundo de Futuros Fundadores: Cheques de Seed de $250K para Funcionários que Viraram Empreendedores Chips AMD Confirma Núcleos de Baixa Potência em Futuros Processadores Zen, Seguindo o Modelo de Arquitetura Heterogênea da Intel Market Pilha de Inferência NVIDIA Reduz Custos de Token em até 5x no Blackwell em Um Mês Chips Kit de Agentes BioNeMo da NVIDIA se Integra com Claude Science da Anthropic para Fluxos de Trabalho de Biologia Acelerada Policy Trump Remove Controles de Exportação dos Modelos Fable 5 e Mythos 5 da Anthropic Breaking Google lança Nano Banana 2 Lite ($0,034/1K imagens, latência de 4s) e API de vídeo Gemini Omni Flash Policy Coreia do Sul anuncia investimento mega em IA e chips de US$ 1T+, liderado pela Samsung e SK Hynix até 2035 Chips G.Skill RAM AMD EXPO ULL atinge $1.099; 57-79% prêmio sobre EXPO padrão para timings apertados Funding OpenAI, Anthropic Arquivam Confidencialmente para IPOs; Corrida por Estreias de 2026 em Avaliações de $1T+ Breaking Cinco Pesquisadores da DeepMind Saíem da Alphabet para Anthropic e OpenAI em Uma Única Semana Funding SpaceX Compra Cursor por $60B, Maior Aquisição de Startup de Sempre Chips Emulador Zluda CUDA perde financiamento novamente; volta a ser um projeto de hobby com ganhos PhysX Chips NVIDIA revive RTX 3060 12GB com 5 anos de idade por US$ 339; escassez de GDDR6 impulsiona estratégia de GPU orçamentária Chips Claude no Microsoft Foundry agora é executado em NVIDIA GB300 Blackwell Ultra no Azure Funding SpaceX adquire Cursor por $60B em transação 100% em ações, maior aquisição de startup VC de sempre Market Alphabet entra no Dow Jones após pop de +4% na segunda-feira, mas ação rastreando pior mês desde fevereiro de 2025 em meio a ventos contrários de IA Funding SpaceX exerce opção de $60B para adquirir Cursor, startup de codificação de IA, no maior deal M&A apoiado por VC de todos os tempos

Market quarta-feira, 1 de julho de 2026 às 01:33

Pilha de Inferência NVIDIA Reduz Custos de Token em até 5x no Blackwell em Um Mês

O software de inferência de pilha completa da NVIDIA na plataforma GPU Blackwell reduziu custos de token em até 5x para o modelo DeepSeek V4 dentro de um único mês, de acordo com dados de benchmark lançados em 30 de junho. Os ganhos vêm de otimizações em camadas no serving de produção (inferência desagregada, autoscaling), aceleração de runtime (kernel fusion, multi-token prediction) e exposição de hardware (largura de banda NVLink, precisão NVFP4). Combinadas, essas otimizações produzem até 20x throughput por GPU—mas realizar esse ganho requer coordenação em todas as camadas da pilha.

A adoção no mundo real já está em andamento: Baseten implantou DeepSeek V4 Pro no Blackwell com 50% mais throughput de tokens; Deep Infra e Together AI estão servindo modelos de fronteira em escala; Cognition usa o framework Dynamo da NVIDIA para gerenciar GPUs de inferência para cargas de trabalho de aprendizado por reforço sem construir infraestrutura personalizada. A alavancagem do ecossistema da NVIDIA—PyTorch suporta nativamente Tensor Cores e NVFP4; projetos abertos como vLLM e SGLang integram otimizações CUDA no lançamento—significa que novos avanços de pesquisa (DFlash speculative decode, FastVideo) se traduzem em desempenho de produção em semanas, não meses.

Para arquitetos de infraestrutura, isso sinaliza uma maturação da commodity de inferência: tokens brutos por dólar não são mais moats competitivos; o jogo agora é integração vertical e co-design software-hardware. Equipes que executam grandes frotas de inferência não podem mais justificar metas genéricas de utilização de GPU—elas precisam instrumentar custo de token de pilha completa e medir ROI em atualizações de pilha de software. Espere depreciação rápida de implementações Hopper mais antigas conforme benchmarks Blackwell se espalham; ciclos de renovação estão se comprimindo.

Fontes

Primary source
NVIDIA Blog: How NVIDIA's Inference Software Stack Powers the Lowest Token Cost
“On the NVIDIA Blackwell platform, the software stack has already reduced token costs by up to 5x on the DeepSeek V4 model in just one month. Combined, they increase throughput by up to 20x”