AO VIVO · SEG., 29 DE JUN. DE 2026 --:--:-- ET
Edição Nº 69 GASTO TOTAL $14603.40 ARTIGOS HOJE 1 TOKENS TOTAL 9.23B
aiexpert
Na linha
Funding Kunlunxin da Baidu visa IPO em Hong Kong de $50B, amarrando compras de chips a alocações Funding Momenta lança IPO em Hong Kong visando $751M para P&D de direção autônoma Chips HBM agora compreende 35-47% da BOM do acelerador de IA; HBM de GB200 sozinho custa $4.800/unidade Market Receita HBM4 da Samsung ultrapassa $1 bilhão; visa taxa de execução de $10 bilhões até final de 2026 Chips OpenAI, Broadcom desvendam chip de inferência LLM Jalapeño; implantação em escala de gigawatt visada até final de 2026 Market TSMC avisa que escassez de chips de IA persistirá até 2027; sinaliza aumento de preço 3nm de 15% H2 2026 Research DeepSeek V4 DSpark decodifica de especulação reduz latência de inferência 85%, atinge Together AI Breaking OpenAI lança rede de parceiros de $150M para certificar 300K consultores até o final do ano Breaking HP se torna adotante principal do Frontier; OpenAI dimensiona plataforma de agente de IA corporativo com parcerias de consultoria Breaking Apple solicita à Casa Branca aprovaçãoparafornecer CXMT conforme os custos de memória atingem aumentos de 20% em MacBook e iPad Funding Samsung, SK Hynix planejam capex de $1,3T ao longo de uma década sob demanda de memória para IA Breaking Lenovo, NVIDIA Parceria em AI Cloud Gigafactory; Reduzem Timelines de Implementação de Servidor de Inferência de Meses para Semanas Chips TPUs do Google Alimentam Expansão da Anthropic; Até 1M de Chips Ironwood Trancam Deal de Capacidade Multi-Gigawatt de $40B Através de 2027+ Chips NVIDIA confirma produção em volume de Vera Rubin; GPU Rubin lidera AgentPerf com 20x eficiência sobre Hopper Policy FERC ordena aos operadores de rede para expeditar conexões de centros de dados de IA; prazo de 60 dias para justificar ou reescrever tarifas Chips Subvenção CHIPS da Coherent de $50M para expansão de fábrica de fosfeto de índio; quadruplica saída de wafer de Sherman para redes óticas de IA Chips NVIDIA parceira com SK Hynix em memória de IA de próxima geração; codesenvolvendo para Vera Rubin e fábricas autônomas Chips CoWoS da TSMC atinge 98% de rendimento; roteiro SoW-X suporta 64 pilhas HBM; produção de óptica co-empacotada 2026 Chips DDR5 PNY-5600 32GB atinge $379,99 — kit 2x16GB mais barato em meio a crise de RAM; desconto de 16% Chips Produção TSMC 2nm atinge 70% de rendimento; Apple, NVIDIA trancadas até 2026 Funding Kunlunxin da Baidu visa IPO em Hong Kong de $50B, amarrando compras de chips a alocações Funding Momenta lança IPO em Hong Kong visando $751M para P&D de direção autônoma Chips HBM agora compreende 35-47% da BOM do acelerador de IA; HBM de GB200 sozinho custa $4.800/unidade Market Receita HBM4 da Samsung ultrapassa $1 bilhão; visa taxa de execução de $10 bilhões até final de 2026 Chips OpenAI, Broadcom desvendam chip de inferência LLM Jalapeño; implantação em escala de gigawatt visada até final de 2026 Market TSMC avisa que escassez de chips de IA persistirá até 2027; sinaliza aumento de preço 3nm de 15% H2 2026 Research DeepSeek V4 DSpark decodifica de especulação reduz latência de inferência 85%, atinge Together AI Breaking OpenAI lança rede de parceiros de $150M para certificar 300K consultores até o final do ano Breaking HP se torna adotante principal do Frontier; OpenAI dimensiona plataforma de agente de IA corporativo com parcerias de consultoria Breaking Apple solicita à Casa Branca aprovaçãoparafornecer CXMT conforme os custos de memória atingem aumentos de 20% em MacBook e iPad Funding Samsung, SK Hynix planejam capex de $1,3T ao longo de uma década sob demanda de memória para IA Breaking Lenovo, NVIDIA Parceria em AI Cloud Gigafactory; Reduzem Timelines de Implementação de Servidor de Inferência de Meses para Semanas Chips TPUs do Google Alimentam Expansão da Anthropic; Até 1M de Chips Ironwood Trancam Deal de Capacidade Multi-Gigawatt de $40B Através de 2027+ Chips NVIDIA confirma produção em volume de Vera Rubin; GPU Rubin lidera AgentPerf com 20x eficiência sobre Hopper Policy FERC ordena aos operadores de rede para expeditar conexões de centros de dados de IA; prazo de 60 dias para justificar ou reescrever tarifas Chips Subvenção CHIPS da Coherent de $50M para expansão de fábrica de fosfeto de índio; quadruplica saída de wafer de Sherman para redes óticas de IA Chips NVIDIA parceira com SK Hynix em memória de IA de próxima geração; codesenvolvendo para Vera Rubin e fábricas autônomas Chips CoWoS da TSMC atinge 98% de rendimento; roteiro SoW-X suporta 64 pilhas HBM; produção de óptica co-empacotada 2026 Chips DDR5 PNY-5600 32GB atinge $379,99 — kit 2x16GB mais barato em meio a crise de RAM; desconto de 16% Chips Produção TSMC 2nm atinge 70% de rendimento; Apple, NVIDIA trancadas até 2026
Research

DeepSeek V4 DSpark decodifica de especulação reduz latência de inferência 85%, atinge Together AI

DeepSeek lançou DSpark, um framework de decodificação especulativa para V4-Pro e V4-Flash, em 27 de junho de 2026, afirmando redução de até 85% na latência de inferência sem exigir novo hardware ou retreinamento de modelo. A decodificação especulativa gera tokens de rascunho de baixo custo usando um modelo menor, depois os verifica contra o modelo completo, negociando custo de prefill mais alto por tokens de decodificação reduzidos e latência geral mais baixa. DeepSeek afirma que a técnica funciona tanto em sua API hospedada quanto em pesos abertos auto-hospedados, embora benchmarks independentes não tivessem sido publicados até 28 de junho. Os números de speedup derivam dos benchmarks da própria DeepSeek em infraestrutura DeepSeek contra seu próprio baseline anterior (MTP-1), por isso as afirmações merecem verificação de terceiros antes do planejamento de implantação em produção.

Together AI lançou DeepSeek V4 Pro em sua plataforma Serverless Inference em 27-28 de junho de 2026, com preços de entrada em cache para raciocínio de contexto longo econômico. V4 Pro é um modelo MoE de 1.6T (49B ativado) suportando contexto de 512K na Together (expansável para 1M em dedicado), oferecendo três modos de raciocínio (Non-Think, Think High, Think Max) e desempenho de 90.1% GPQA-Diamond + 95.2% HMMT-2026 em matemática. A disponibilidade reflete uma mudança estrutural na economia de inferência de código aberto: modelos como V4-Pro agora rivalizam ou excedem alternativas de código fechado em tarefas agençais e de codificação, com custo por token competitivo com ofertas proprietárias menores uma vez que os custos de serviço são otimizados.

Para equipes avaliando modelos de raciocínio de código aberto para agentes de produção e bases de código de documentos longos, a disponibilidade de V4-Pro na Together (mais opcionalidade de auto-hospedagem) é uma mudança material no cálculo de construir-vs-comprar. A combinação de arquitetura de atenção híbridassobre reduzindo cache KV 90% vs V3.2 em contexto de 1M), quantização agressiva (misto FP4+FP8) e decodificação especulativa DSpark sugere que custo de inferência por token para V4 pode subestimar cargas de trabalho de código fechado comparáveis em 2027. Observe benchmarks de latência de terceiros; se confirmação independente valida a afirmação de speedup de 85% em padrões de inferência de produção, refaz a ROI tanto em silício personalizado (Jalapeño, B200) quanto em decisões de compra de infraestrutura de inferência.

Fontes