SpecKV Aumenta la Eficiencia de la Decodificación Especulativa en 56%

Investigadores proponen SpecKV, un enfoque de decodificación especulativa adaptativo que optimiza la longitud de especulación (gamma) según los niveles de compresión, reemplazando opciones de hiperparámetros fijos. Mejoras de latencia medidas para aplicaciones intensivas en inferencia, como APIs en tiempo real.

SpecKV entrega una mejora de 56.0% en tokens por paso de especulación sobre la baseline de decodificación especulativa de gamma fijo estándar, con menos de 0.5% de sobrecarga de latencia agregada. Decodificación especulativa ahora es estándar en pilas de producción como vLLM e infraestructura de serving de OpenAI, usando un modelo draft pequeño para proponer tokens candidatos que el modelo destino más grande verifica en paralelo. El parámetro ajustable clave es gamma (γ): cuántos tokens propone el modelo draft por paso. La mayoría de los sistemas implementados codifican γ=4 de forma fija, un valor predeterminado que el investigador Shikhar Shukla argumenta que es sistemáticamente subóptimo — particularmente conforme los despliegues aplican cuantificación para reducir costos de memoria y cómputo.

SpecKV, publicado el 4 de mayo de 2026 en arXiv, reemplaza γ fijo con un controlador adaptativo por paso. El sistema perfila decodificación especulativa en cuatro categorías de tareas, cuatro longitudes de especulación y tres niveles de compresión: FP16, INT8 y NF4. Acumula 5.112 registros a nivel de paso capturando tasas de aceptación por paso, entropía draft y confianza draft. El γ óptimo varía significativamente entre regímenes de compresión. La confianza y los scores de entropía del modelo draft predicen la tasa de aceptación con una correlación de 0.56. Un MLP pequeño entrenado en estas señales selecciona γ dinámicamente, maximizando tokens esperados por paso de especulación.

Para equipos de infraestructura de IA empresarial, la implicación es directa. Cuantificación es la palanca principal para encajar modelos grandes en presupuestos de GPU — INT8 y NF4 son objetivos comunes. El hallazgo de SpecKV de que el nivel de compresión cambia la longitud de especulación óptima significa que un γ=4 estático deja tokens sobre la mesa siempre que un modelo cuantificado esté en la ruta de serving. El controlador suma 0.34 ms por decisión — menos de 0.5% del tiempo total de paso — convirtiéndolo en una adición de bajo riesgo para pipelines existentes.

La mejora de 56.0% es estadísticamente robusta, validada con prueba bootstrap pareada en p < 0.001. El trabajo es un preprint de arXiv de un único autor que aún no ha sido sometido a revisión por pares. El conjunto de datos de perfilado abarca cuatro tipos de tareas; equipos ejecutando generación de código o cargas de trabajo aumentadas por retrieval deben validar en sus propios datos de traza antes de asumir las mismas ganancias. Shukla libera todos los datos de perfilado, modelos MLP entrenados y notebooks como artefactos de código abierto, reduciendo costos de integración.

Sources

SpecKV achieves a 56.0% improvement over the fixed-γ=4 baseline
"achieving a 56.0% improvement over the fixed-γ=4 baseline with only 0.34 ms overhead per decision (<0.5% of step time)"
arxiv.org ↗
The improvement is statistically significant at p < 0.001 via paired bootstrap test
"The improvement is statistically significant (p < 0.001, paired bootstrap test)"
arxiv.org ↗
SpecKV adds only 0.34 ms overhead per decision, less than 0.5% of step time
"with only 0.34 ms overhead per decision (<0.5% of step time)"
arxiv.org ↗
Nearly all existing systems use a fixed γ of 4
"Nearly all existing systems use a fixed γ (typically 4), yet empirical evidence suggests that the optimal value varies across task types"
arxiv.org ↗
Draft model confidence and entropy are strong predictors of acceptance rate with correlation ≈ 0.56
"draft model confidence and entropy are strong predictors of acceptance rate (correlation ≈ 0.56)"
arxiv.org ↗
SpecKV profiled across 4 task categories, 4 speculation lengths, 3 compression levels (FP16, INT8, NF4), collecting 5,112 step-level records
"We profile speculative decoding across 4 task categories, 4 speculation lengths, and 3 compression levels (FP16, INT8, NF4), collecting 5,112 step-level records with per-step acceptance rates, draft entropy, and draft confidence"
arxiv.org ↗
Optimal γ shifts across compression regimes
"We demonstrate that the optimal γ shifts across compression regimes"
arxiv.org ↗
SpecKV uses a small MLP trained on draft model signals to maximize expected tokens per speculation step
"SpecKV uses a small MLP trained on these signals to maximize expected tokens per speculation step"
arxiv.org ↗
Author releases all profiling data, trained models, and notebooks as open-source artifacts
"We release all profiling data, trained models, and notebooks as open-source artifacts"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

SpecKV Aumenta la Eficiencia de la Decodificación Especulativa en 56%

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.