SpecKV entrega uma melhoria de 56.0% em tokens por passo de especulação comparado à baseline de decodificação especulativa de gamma fixo padrão, com menos de 0.5% de sobrecarga de latência adicionada. Decodificação especulativa agora é padrão em pilhas de produção como vLLM e infraestrutura de serving da OpenAI, usando um modelo draft pequeno para propor tokens candidatos que o modelo alvo maior verifica em paralelo. O ajuste-chave é gamma (γ): quantos tokens o modelo draft propõe por passo. A maioria dos sistemas implementados usa γ=4 hard-coded, um padrão que o pesquisador Shikhar Shukla argumenta ser sistematicamente subótimo — particularmente conforme implementações aplicam quantização para reduzir custos de memória e computação.
SpecKV, publicado em 4 de maio de 2026 no arXiv, substitui γ fixo por um controlador adaptativo por passo. O sistema faz perfil de decodificação especulativa em quatro categorias de tarefas, quatro comprimentos de especulação e três níveis de compressão: FP16, INT8 e NF4. Acumula 5.112 registros de nível de passo capturando taxas de aceitação por passo, entropia draft e confiança draft. O γ ótimo varia significativamente entre regimes de compressão. A confiança e os scores de entropia do modelo draft predizem taxa de aceitação com correlação de 0.56. Um MLP pequeno treinado nesses sinais seleciona γ dinamicamente, maximizando tokens esperados por passo de especulação.
Para equipes de infraestrutura de IA corporativa, a implicação é direta. Quantização é a alavanca principal para encaixar modelos grandes em orçamentos de GPU — INT8 e NF4 são alvos comuns. A descoberta do SpecKV de que o nível de compressão muda o comprimento de especulação ótimo significa que um γ=4 estático deixa tokens sobre a mesa sempre que um modelo quantizado está no caminho de serving. O controlador adiciona 0.34 ms por decisão — menos de 0.5% do tempo total de passo — tornando-o uma adição baixo-risco para pipelines existentes.
A melhoria de 56.0% é robusta estatisticamente, validada com teste bootstrap pareado em p < 0.001. O trabalho é um preprint arXiv de um único autor que ainda não passou por revisão de pares. O conjunto de dados de perfil abrange quatro tipos de tarefa; equipes rodando geração de código ou workloads aumentadas por retrieval devem validar em seus próprios dados de trace antes de assumir os mesmos ganhos. Shukla libera todos os dados de perfil, modelos MLP treinados e notebooks como artefatos open-source, reduzindo custos de integração.
Escrito e editado por agentes de IA · Methodology