SpecKV Aumenta Eficiência da Decodificação Especulativa em 56%

Pesquisadores propõem SpecKV, uma abordagem de decodificação especulativa adaptativa que otimiza o comprimento da especulação (gamma) com base em níveis de compressão, substituindo escolhas de hiperparâmetros fixos. Melhorias de latência medidas para aplicações intensivas em inferência, como APIs em tempo real.

SpecKV entrega uma melhoria de 56.0% em tokens por passo de especulação comparado à baseline de decodificação especulativa de gamma fixo padrão, com menos de 0.5% de sobrecarga de latência adicionada. Decodificação especulativa agora é padrão em pilhas de produção como vLLM e infraestrutura de serving da OpenAI, usando um modelo draft pequeno para propor tokens candidatos que o modelo alvo maior verifica em paralelo. O ajuste-chave é gamma (γ): quantos tokens o modelo draft propõe por passo. A maioria dos sistemas implementados usa γ=4 hard-coded, um padrão que o pesquisador Shikhar Shukla argumenta ser sistematicamente subótimo — particularmente conforme implementações aplicam quantização para reduzir custos de memória e computação.

SpecKV, publicado em 4 de maio de 2026 no arXiv, substitui γ fixo por um controlador adaptativo por passo. O sistema faz perfil de decodificação especulativa em quatro categorias de tarefas, quatro comprimentos de especulação e três níveis de compressão: FP16, INT8 e NF4. Acumula 5.112 registros de nível de passo capturando taxas de aceitação por passo, entropia draft e confiança draft. O γ ótimo varia significativamente entre regimes de compressão. A confiança e os scores de entropia do modelo draft predizem taxa de aceitação com correlação de 0.56. Um MLP pequeno treinado nesses sinais seleciona γ dinamicamente, maximizando tokens esperados por passo de especulação.

Para equipes de infraestrutura de IA corporativa, a implicação é direta. Quantização é a alavanca principal para encaixar modelos grandes em orçamentos de GPU — INT8 e NF4 são alvos comuns. A descoberta do SpecKV de que o nível de compressão muda o comprimento de especulação ótimo significa que um γ=4 estático deixa tokens sobre a mesa sempre que um modelo quantizado está no caminho de serving. O controlador adiciona 0.34 ms por decisão — menos de 0.5% do tempo total de passo — tornando-o uma adição baixo-risco para pipelines existentes.

A melhoria de 56.0% é robusta estatisticamente, validada com teste bootstrap pareado em p < 0.001. O trabalho é um preprint arXiv de um único autor que ainda não passou por revisão de pares. O conjunto de dados de perfil abrange quatro tipos de tarefa; equipes rodando geração de código ou workloads aumentadas por retrieval devem validar em seus próprios dados de trace antes de assumir os mesmos ganhos. Shukla libera todos os dados de perfil, modelos MLP treinados e notebooks como artefatos open-source, reduzindo custos de integração.

Sources

SpecKV achieves a 56.0% improvement over the fixed-γ=4 baseline
"achieving a 56.0% improvement over the fixed-γ=4 baseline with only 0.34 ms overhead per decision (<0.5% of step time)"
arxiv.org ↗
The improvement is statistically significant at p < 0.001 via paired bootstrap test
"The improvement is statistically significant (p < 0.001, paired bootstrap test)"
arxiv.org ↗
SpecKV adds only 0.34 ms overhead per decision, less than 0.5% of step time
"with only 0.34 ms overhead per decision (<0.5% of step time)"
arxiv.org ↗
Nearly all existing systems use a fixed γ of 4
"Nearly all existing systems use a fixed γ (typically 4), yet empirical evidence suggests that the optimal value varies across task types"
arxiv.org ↗
Draft model confidence and entropy are strong predictors of acceptance rate with correlation ≈ 0.56
"draft model confidence and entropy are strong predictors of acceptance rate (correlation ≈ 0.56)"
arxiv.org ↗
SpecKV profiled across 4 task categories, 4 speculation lengths, 3 compression levels (FP16, INT8, NF4), collecting 5,112 step-level records
"We profile speculative decoding across 4 task categories, 4 speculation lengths, and 3 compression levels (FP16, INT8, NF4), collecting 5,112 step-level records with per-step acceptance rates, draft entropy, and draft confidence"
arxiv.org ↗
Optimal γ shifts across compression regimes
"We demonstrate that the optimal γ shifts across compression regimes"
arxiv.org ↗
SpecKV uses a small MLP trained on draft model signals to maximize expected tokens per speculation step
"SpecKV uses a small MLP trained on these signals to maximize expected tokens per speculation step"
arxiv.org ↗
Author releases all profiling data, trained models, and notebooks as open-source artifacts
"We release all profiling data, trained models, and notebooks as open-source artifacts"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

SpecKV Aumenta Eficiência da Decodificação Especulativa em 56%

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.