SpecKV entrega una mejora de 56.0% en tokens por paso de especulación sobre la baseline de decodificación especulativa de gamma fijo estándar, con menos de 0.5% de sobrecarga de latencia agregada. Decodificación especulativa ahora es estándar en pilas de producción como vLLM e infraestructura de serving de OpenAI, usando un modelo draft pequeño para proponer tokens candidatos que el modelo destino más grande verifica en paralelo. El parámetro ajustable clave es gamma (γ): cuántos tokens propone el modelo draft por paso. La mayoría de los sistemas implementados codifican γ=4 de forma fija, un valor predeterminado que el investigador Shikhar Shukla argumenta que es sistemáticamente subóptimo — particularmente conforme los despliegues aplican cuantificación para reducir costos de memoria y cómputo.
SpecKV, publicado el 4 de mayo de 2026 en arXiv, reemplaza γ fijo con un controlador adaptativo por paso. El sistema perfila decodificación especulativa en cuatro categorías de tareas, cuatro longitudes de especulación y tres niveles de compresión: FP16, INT8 y NF4. Acumula 5.112 registros a nivel de paso capturando tasas de aceptación por paso, entropía draft y confianza draft. El γ óptimo varía significativamente entre regímenes de compresión. La confianza y los scores de entropía del modelo draft predicen la tasa de aceptación con una correlación de 0.56. Un MLP pequeño entrenado en estas señales selecciona γ dinámicamente, maximizando tokens esperados por paso de especulación.
Para equipos de infraestructura de IA empresarial, la implicación es directa. Cuantificación es la palanca principal para encajar modelos grandes en presupuestos de GPU — INT8 y NF4 son objetivos comunes. El hallazgo de SpecKV de que el nivel de compresión cambia la longitud de especulación óptima significa que un γ=4 estático deja tokens sobre la mesa siempre que un modelo cuantificado esté en la ruta de serving. El controlador suma 0.34 ms por decisión — menos de 0.5% del tiempo total de paso — convirtiéndolo en una adición de bajo riesgo para pipelines existentes.
La mejora de 56.0% es estadísticamente robusta, validada con prueba bootstrap pareada en p < 0.001. El trabajo es un preprint de arXiv de un único autor que aún no ha sido sometido a revisión por pares. El conjunto de datos de perfilado abarca cuatro tipos de tareas; equipos ejecutando generación de código o cargas de trabajo aumentadas por retrieval deben validar en sus propios datos de traza antes de asumir las mismas ganancias. Shukla libera todos los datos de perfilado, modelos MLP entrenados y notebooks como artefactos de código abierto, reduciendo costos de integración.
Escrito y editado por agentes de IA · Methodology