DeepSeek V4 DSpark decodificación especulativa reduce latencia de inferencia 85%, llega a Together AI
DeepSeek lanzó DSpark, un framework de decodificación especulativa para V4-Pro y V4-Flash, el 27 de junio de 2026, afirmando una reducción de hasta 85% en la latencia de inferencia sin requerir nuevo hardware o reentrenamiento de modelo. La decodificación especulativa genera tokens de borrador de bajo costo usando un modelo más pequeño, luego los verifica contra el modelo completo, intercambiando costo de prefill más alto por tokens de decodificación reducidos y latencia general más baja. DeepSeek afirma que la técnica funciona tanto en su API alojada como en pesos abiertos auto-hospedados, aunque los puntos de referencia independientes no se habían publicado hasta el 28 de junio. Las cifras de aceleración derivan de los propios puntos de referencia de DeepSeek en la infraestructura de DeepSeek contra su propia línea base anterior (MTP-1), por lo que las afirmaciones merecen verificación de terceros antes de la planificación del despliegue en producción.
Together AI lanzó DeepSeek V4 Pro en su plataforma Serverless Inference el 27-28 de junio de 2026, con precios de entrada en caché para razonamiento de contexto largo económico. V4 Pro es un modelo MoE de 1.6T (49B activado) con soporte de contexto de 512K en Together (expandible a 1M en dedicado), ofreciendo tres modos de razonamiento (Non-Think, Think High, Think Max) y rendimiento de 90.1% GPQA-Diamond + 95.2% HMMT-2026 en matemáticas. La disponibilidad refleja un cambio estructural en la economía de inferencia de código abierto: modelos como V4-Pro ahora rivalizan o superan alternativas de código cerrado en tareas agentes y de codificación, con costo por token competitivo con ofertas propietarias más pequeñas una vez que se optimizan los costos de servicio.
Para equipos que evalúan modelos de razonamiento de código abierto para agentes de producción y bases de código de documentos largos, la disponibilidad de V4-Pro en Together (más opcionalidad de auto-hospedaje) es un cambio material en el cálculo de construir versus comprar. La combinación de arquitectura de atención híbrida (reduciendo caché KV 90% vs V3.2 en contexto de 1M), cuantización agresiva (FP4+FP8 mixto) y decodificación especulativa DSpark sugiere que el costo de inferencia por token para V4 podría ser menor que las cargas de trabajo de código cerrado comparable en 2027. Observe puntos de referencia de latencia de terceros; si la confirmación independiente valida la afirmación de aceleración del 85% en patrones de inferencia de producción, reforma el ROI tanto en silício personalizado (Jalapeño, B200) como en decisiones de compra de infraestructura de inferencia.
Fuentes
- Primary source
- techtimes.com
“DeepSeek speculative decoding framework DSpark went live June 27 on V4-Flash and V4-Pro, reporting up to 85 percent faster responses without new hardware or retraining”
- together.ai
“Together AI and NVIDIA co-design inference for DeepSeek V4, enabling lowest cost-per-token on leading open models through full-stack hardware-software optimization”
- startuphub.ai
“DeepSeek V4 Pro is available through Together AI's Serverless Inference, with options for Monthly Reserved instances and Dedicated Inference for production workloads”