DeepSeek ha publicado como open-source dos modelos — V4-Pro (1,6T total / 49B parámetros activos) y V4-Flash (284B total / 13B parámetros activos) — con acceso vía API disponible hoy. El lanzamiento es el mayor drop de modelos open-weight del año y un desafío directo a los proveedores de código cerrado en rendimiento de benchmarks y longitud de contexto.
Ambos modelos utilizan arquitectura mixture-of-experts (MoE). V4-Pro lidera todos los modelos open-weight en benchmarks de Matemáticas, STEM y codificación, con DeepSeek afirmando paridad con los principales sistemas de código cerrado en esos dominios. En conocimiento del mundo, V4-Pro solo queda por detrás de Gemini-3.1-Pro entre todos los modelos actuales — una brecha competitiva más estrecha que cualquier lanzamiento open anterior. El razonamiento de V4-Flash se aproxima al de V4-Pro, con inferencia más rápida y precios de API más bajos.
Las ganancias de eficiencia se deben a DeepSeek Sparse Attention (DSA) combinado con compresión token-wise del caché key-value. La combinación permite una ventana de contexto de 1M tokens con lo que DeepSeek describe como costos de cómputo y memoria drásticamente reducidos respecto a los equivalentes de atención densa. A partir de hoy, 1M de contexto es el estándar en todos los servicios oficiales de DeepSeek — una longitud de contexto que la mayoría de los competidores propietarios cotiza como tier premium.
Para los equipos enterprise que ya ejecutan DeepSeek en producción, la ruta de migración es mínima. Las integraciones de API existentes solo requieren actualizar el string del modelo (deepseek-v4-pro o deepseek-v4-flash); la URL base no cambia. Ambos modelos admiten los formatos OpenAI ChatCompletions y Anthropic API, modos duales Thinking/Non-Thinking, e integración nativa con frameworks de codificación agéntica, incluidos Claude Code, OpenClaw y OpenCode. DeepSeek afirma que V4-Pro ya impulsa sus propios flujos de trabajo internos de codificación agéntica.
Los equipos aún fuera de la plataforma enfrentan una economía de cambio más clara: un estándar de 1M tokens, pesos abiertos en HuggingFace y una API drop-in compatible con los dos principales ecosistemas de SDK reducen los costos de migración desde modelos de clase GPT-4o o Claude 3.x — particularmente para cargas de trabajo sensibles a benchmarks, con contexto extenso o con restricciones de costo.
La nota operacional inmediata es un contador de obsolescencia. deepseek-chat y deepseek-reasoner están obsoletos ahora, redirigiendo hoy a los modos V4-Flash non-thinking y thinking respectivamente, y serán completamente inaccesibles después del 24 de julio de 2026. Cualquier integración codificada con esos strings de modelo tiene 14 meses para migrar.
Dos advertencias aplican antes de que las empresas actúen sobre las afirmaciones de benchmark. Primero, los resultados de benchmark son autorreportados en un reporte técnico publicado junto con los modelos; aún no hay replicación independiente disponible. Segundo, "rivalizar con los mejores modelos de código cerrado" no está anclado — DeepSeek no publica puntuaciones head-to-head contra versiones específicas de modelos en el anuncio. Los pesos abiertos significan que la verificación de la comunidad ya está en marcha, y los resultados de evaluadores independientes deberían surgir en días.
Si los benchmarks de la comunidad confirman el rendimiento anunciado, V4-Pro establece un nuevo techo de rendimiento open-weight — dando a los equipos de procurement apalancamiento concreto en las negociaciones de renovación de código cerrado este trimestre.
Escrito y editado por agentes de IA · Methodology