DeepSeek V4-Pro Reivindica Paridade de Benchmark com os Melhores Modelos Fechados em Matemática e STEM

A DeepSeek abriu o código-fonte de dois modelos — V4-Pro (1,6T total / 49B parâmetros ativos) e V4-Flash (284B total / 13B parâmetros ativos) — com acesso via API disponível hoje. O lançamento é o maior drop de modelos open-weight do ano e um desafio direto aos provedores de código fechado em desempenho de benchmark e comprimento de contexto.

Ambos os modelos utilizam arquitetura mixture-of-experts (MoE). O V4-Pro lidera todos os modelos open-weight em benchmarks de Matemática, STEM e codificação, com a DeepSeek afirmando paridade com os principais sistemas de código fechado nesses domínios. Em conhecimento de mundo, o V4-Pro fica atrás apenas do Gemini-3.1-Pro entre todos os modelos atuais — uma lacuna competitiva mais estreita do que qualquer lançamento open anterior. O raciocínio do V4-Flash se aproxima do V4-Pro, oferecendo inferência mais rápida e preços de API mais baixos.

Os ganhos de eficiência derivam do DeepSeek Sparse Attention (DSA) combinado com compressão token-wise do cache key-value. A combinação viabiliza uma janela de contexto de 1M tokens com o que a DeepSeek descreve como custos de computação e memória drasticamente reduzidos em relação aos equivalentes de atenção densa. A partir de hoje, o contexto de 1M é o padrão em todos os serviços oficiais DeepSeek — um comprimento de contexto que a maioria dos concorrentes proprietários precifica como tier premium.

Para equipes enterprise que já executam a DeepSeek em produção, o caminho de migração é mínimo. As integrações de API existentes precisam apenas de uma atualização na string do modelo (deepseek-v4-pro ou deepseek-v4-flash); a URL base permanece inalterada. Ambos os modelos suportam os formatos OpenAI ChatCompletions e Anthropic API, modos duplos Thinking/Non-Thinking e integração nativa com frameworks de codificação agêntica, incluindo Claude Code, OpenClaw e OpenCode. A DeepSeek afirma que o V4-Pro já impulsiona seus próprios fluxos de trabalho internos de codificação agêntica.

Equipes ainda fora da plataforma enfrentam uma economia de migração mais clara: um padrão de 1M tokens, pesos abertos no HuggingFace e uma API drop-in compatível com os dois principais ecossistemas de SDK reduzem os custos de migração a partir de modelos GPT-4o ou Claude 3.x — particularmente para workloads sensíveis a benchmark, com contexto pesado ou com restrições de custo.

A nota operacional imediata é um cronômetro de descontinuação. deepseek-chat e deepseek-reasoner estão descontinuados agora, roteando hoje para os modos V4-Flash non-thinking e thinking, respectivamente, e serão totalmente inacessíveis após 24 de julho de 2026. Qualquer integração codificada para essas strings de modelo tem 14 meses para migrar.

Dois ressalvas se aplicam antes que as empresas ajam com base nas afirmações de benchmark. Primeiro, os resultados de benchmark são autorreportados em um relatório técnico lançado junto com os modelos; nenhuma replicação independente está disponível ainda. Segundo, "rivalizar com os melhores modelos de código fechado" é impreciso — a DeepSeek não publica pontuações head-to-head contra versões específicas de modelos no anúncio. Os pesos abertos significam que a verificação da comunidade já está em andamento, e os resultados de avaliadores independentes devem emergir em dias.

Se os benchmarks da comunidade confirmarem o desempenho anunciado, o V4-Pro estabelece um novo teto de desempenho open-weight — dando às equipes de procurement alavancagem concreta nas negociações de renovação de código fechado neste trimestre.

Sources

V4-Pro has 1.6T total / 49B active parameters; V4-Flash has 284B total / 13B active parameters
"DeepSeek-V4-Pro: 1.6T total / 49B active params... DeepSeek-V4-Flash: 284B total / 13B active params."
api-docs.deepseek.com ↗
V4-Pro beats all current open models in Math/STEM/Coding, rivaling top closed-source models
"Beats all current open models in Math/STEM/Coding, rivaling top closed-source models."
api-docs.deepseek.com ↗
V4-Pro leads all current open models in world knowledge, trailing only Gemini-3.1-Pro
"Leads all current open models, trailing only Gemini-3.1-Pro."
api-docs.deepseek.com ↗
V4-Pro achieves open-source SOTA on agentic coding benchmarks
"Open-source SOTA in Agentic Coding benchmarks."
api-docs.deepseek.com ↗
Novel attention mechanism uses token-wise compression + DSA (DeepSeek Sparse Attention) enabling 1M context at drastically reduced compute and memory costs
"Token-wise compression + DSA (DeepSeek Sparse Attention)... World-leading long context with drastically reduced compute & memory costs."
api-docs.deepseek.com ↗
1M context is now the default across all official DeepSeek services
"1M context is now the default across all official DeepSeek services."
api-docs.deepseek.com ↗
API migration requires only a model string update to deepseek-v4-pro or deepseek-v4-flash; base URL unchanged
"Keep base_url, just update model to deepseek-v4-pro or deepseek-v4-flash."
api-docs.deepseek.com ↗
Both models support OpenAI ChatCompletions and Anthropic API formats
"Supports OpenAI ChatCompletions & Anthropic APIs."
api-docs.deepseek.com ↗
V4-Pro is integrated with Claude Code, OpenClaw, and OpenCode for agentic workflows
"DeepSeek-V4 is seamlessly integrated with leading AI agents like Claude Code, OpenClaw & OpenCode."
api-docs.deepseek.com ↗
deepseek-chat and deepseek-reasoner will be fully retired and inaccessible after July 24, 2026
"deepseek-chat & deepseek-reasoner will be fully retired and inaccessible after Jul 24th, 2026, 15:59 (UTC Time)."
api-docs.deepseek.com ↗
V4-Flash reasoning capabilities closely approach V4-Pro's
"Reasoning capabilities closely approach V4-Pro."
api-docs.deepseek.com ↗

Escrito e editado por agentes de IA · Methodology