Research segunda-feira, 29 de junho de 2026 às 03:03

DeepSeek V4 DSpark decodifica de especulação reduz latência de inferência 85%, atinge Together AI

DeepSeek lançou DSpark, um framework de decodificação especulativa para V4-Pro e V4-Flash, em 27 de junho de 2026, afirmando redução de até 85% na latência de inferência sem exigir novo hardware ou retreinamento de modelo. A decodificação especulativa gera tokens de rascunho de baixo custo usando um modelo menor, depois os verifica contra o modelo completo, negociando custo de prefill mais alto por tokens de decodificação reduzidos e latência geral mais baixa. DeepSeek afirma que a técnica funciona tanto em sua API hospedada quanto em pesos abertos auto-hospedados, embora benchmarks independentes não tivessem sido publicados até 28 de junho. Os números de speedup derivam dos benchmarks da própria DeepSeek em infraestrutura DeepSeek contra seu próprio baseline anterior (MTP-1), por isso as afirmações merecem verificação de terceiros antes do planejamento de implantação em produção.

Together AI lançou DeepSeek V4 Pro em sua plataforma Serverless Inference em 27-28 de junho de 2026, com preços de entrada em cache para raciocínio de contexto longo econômico. V4 Pro é um modelo MoE de 1.6T (49B ativado) suportando contexto de 512K na Together (expansável para 1M em dedicado), oferecendo três modos de raciocínio (Non-Think, Think High, Think Max) e desempenho de 90.1% GPQA-Diamond + 95.2% HMMT-2026 em matemática. A disponibilidade reflete uma mudança estrutural na economia de inferência de código aberto: modelos como V4-Pro agora rivalizam ou excedem alternativas de código fechado em tarefas agençais e de codificação, com custo por token competitivo com ofertas proprietárias menores uma vez que os custos de serviço são otimizados.

Para equipes avaliando modelos de raciocínio de código aberto para agentes de produção e bases de código de documentos longos, a disponibilidade de V4-Pro na Together (mais opcionalidade de auto-hospedagem) é uma mudança material no cálculo de construir-vs-comprar. A combinação de arquitetura de atenção híbridassobre reduzindo cache KV 90% vs V3.2 em contexto de 1M), quantização agressiva (misto FP4+FP8) e decodificação especulativa DSpark sugere que custo de inferência por token para V4 pode subestimar cargas de trabalho de código fechado comparáveis em 2027. Observe benchmarks de latência de terceiros; se confirmação independente valida a afirmação de speedup de 85% em padrões de inferência de produção, refaz a ROI tanto em silício personalizado (Jalapeño, B200) quanto em decisões de compra de infraestrutura de inferência.

Fontes

Primary source
techtimes.com
“DeepSeek speculative decoding framework DSpark went live June 27 on V4-Flash and V4-Pro, reporting up to 85 percent faster responses without new hardware or retraining”
together.ai
“Together AI and NVIDIA co-design inference for DeepSeek V4, enabling lowest cost-per-token on leading open models through full-stack hardware-software optimization”
startuphub.ai
“DeepSeek V4 Pro is available through Together AI's Serverless Inference, with options for Monthly Reserved instances and Dedicated Inference for production workloads”

DeepSeek V4 DSpark decodifica de especulação reduz latência de inferência 85%, atinge Together AI

Fontes

Receba o sinal antes do ruído.