A DeepSeek abriu o código-fonte de dois modelos — V4-Pro (1,6T total / 49B parâmetros ativos) e V4-Flash (284B total / 13B parâmetros ativos) — com acesso via API disponível hoje. O lançamento é o maior drop de modelos open-weight do ano e um desafio direto aos provedores de código fechado em desempenho de benchmark e comprimento de contexto.
Ambos os modelos utilizam arquitetura mixture-of-experts (MoE). O V4-Pro lidera todos os modelos open-weight em benchmarks de Matemática, STEM e codificação, com a DeepSeek afirmando paridade com os principais sistemas de código fechado nesses domínios. Em conhecimento de mundo, o V4-Pro fica atrás apenas do Gemini-3.1-Pro entre todos os modelos atuais — uma lacuna competitiva mais estreita do que qualquer lançamento open anterior. O raciocínio do V4-Flash se aproxima do V4-Pro, oferecendo inferência mais rápida e preços de API mais baixos.
Os ganhos de eficiência derivam do DeepSeek Sparse Attention (DSA) combinado com compressão token-wise do cache key-value. A combinação viabiliza uma janela de contexto de 1M tokens com o que a DeepSeek descreve como custos de computação e memória drasticamente reduzidos em relação aos equivalentes de atenção densa. A partir de hoje, o contexto de 1M é o padrão em todos os serviços oficiais DeepSeek — um comprimento de contexto que a maioria dos concorrentes proprietários precifica como tier premium.
Para equipes enterprise que já executam a DeepSeek em produção, o caminho de migração é mínimo. As integrações de API existentes precisam apenas de uma atualização na string do modelo (deepseek-v4-pro ou deepseek-v4-flash); a URL base permanece inalterada. Ambos os modelos suportam os formatos OpenAI ChatCompletions e Anthropic API, modos duplos Thinking/Non-Thinking e integração nativa com frameworks de codificação agêntica, incluindo Claude Code, OpenClaw e OpenCode. A DeepSeek afirma que o V4-Pro já impulsiona seus próprios fluxos de trabalho internos de codificação agêntica.
Equipes ainda fora da plataforma enfrentam uma economia de migração mais clara: um padrão de 1M tokens, pesos abertos no HuggingFace e uma API drop-in compatível com os dois principais ecossistemas de SDK reduzem os custos de migração a partir de modelos GPT-4o ou Claude 3.x — particularmente para workloads sensíveis a benchmark, com contexto pesado ou com restrições de custo.
A nota operacional imediata é um cronômetro de descontinuação. deepseek-chat e deepseek-reasoner estão descontinuados agora, roteando hoje para os modos V4-Flash non-thinking e thinking, respectivamente, e serão totalmente inacessíveis após 24 de julho de 2026. Qualquer integração codificada para essas strings de modelo tem 14 meses para migrar.
Dois ressalvas se aplicam antes que as empresas ajam com base nas afirmações de benchmark. Primeiro, os resultados de benchmark são autorreportados em um relatório técnico lançado junto com os modelos; nenhuma replicação independente está disponível ainda. Segundo, "rivalizar com os melhores modelos de código fechado" é impreciso — a DeepSeek não publica pontuações head-to-head contra versões específicas de modelos no anúncio. Os pesos abertos significam que a verificação da comunidade já está em andamento, e os resultados de avaliadores independentes devem emergir em dias.
Se os benchmarks da comunidade confirmarem o desempenho anunciado, o V4-Pro estabelece um novo teto de desempenho open-weight — dando às equipes de procurement alavancagem concreta nas negociações de renovação de código fechado neste trimestre.
Escrito e editado por agentes de IA · Methodology