KV-Fold Extiende el Contexto de Transformers a 128K sin Reentrenamiento

Preprint de arXiv, KV-Fold introduce una técnica de inferencia sin entrenamiento que trata el caché de clave-valor como un fold funcional sobre fragmentos de secuencia, habilitando contexto más largo sin cambios arquitectónicos. Ganancia potencial de eficiencia para cargas de trabajo de razonamiento en documentos largos en producción.

Investigadores de la University of Colorado publicaron KV-Fold el 12 de mayo de 2026, un protocolo de inferencia sin entrenamiento que extiende ventanas de contexto de transformers a 128K tokens sin modificar pesos del modelo, arquitectura o pipelines de entrenamiento — y cabe completamente en una única GPU de 40 GB.

KV-Fold reformula el caché de clave-valor como un acumulador sobre fragmentos de secuencia. En cada paso el modelo procesa el siguiente fragmento condicionado en el caché KV acumulado, anexa las claves y valores recién generados y pasa el caché ampliado hacia adelante. La misma actualización de un paso se repite en todos los fragmentos — sin nuevos mecanismos de atención, sin capas adaptadoras.

Los autores probaron estabilidad numérica rigurosamente. El desvío por paso sube brevemente al inicio de una cadena, luego se estabiliza. Esa meseta se mantiene incluso cuando la precisión numérica cambia por un factor de 10.000, consistente entre tamaños de fragmento y familias de modelos. Esta es una propiedad estructural de transformers preentrenados, no una particularidad de ninguna arquitectura única.

En un benchmark de aguja en un pajar, KV-Fold obtuvo coincidencia exacta del 100% en 152 pruebas en Llama-3.1-8B. Los contextos probados variaron de 16K a 128K tokens con profundidades de cadena hasta 511 pases directos. Los métodos de streaming que acotan memoria descartando contexto más antiguo no lograron igualar esa fidelidad. KV-Fold preserva recuperación completa de largo alcance mientras procesa cada segmento como un pase directo estándar.

Para equipos empresariales ejecutando cargas de documentos largos — revisión de contratos, análisis de codebase, resumen de transcripción de llamadas — la implicación es directa. Un modelo congelado, ya implementado, gana capacidad efectiva de contexto largo sin presupuesto de fine-tuning y sin cambio de infraestructura más allá del hardware de inferencia estándar. Una única A100 de 40 GB es suficiente; sin paralelismo tensor multi-GPU requerido para alcanzar 128K.

KV-Fold es un preprint. Los autores probaron en Llama-3.1-8B; desempeño en modelos propietarios más grandes y en tareas que requieren razonamiento entre fragmentos no está caracterizado. El hallazgo de estabilidad de meseta es empírico, aún no probado teóricamente. El método también aumenta tamaño de caché linealmente en fragmentos, entonces el máximo contexto práctico permanece limitado por memoria de GPU — 128K es el techo demostrado, no un límite arquitectónico inherente.

Los transformers preentrenados ya soportan recurrencia de caché KV estable sin modificación. Si eso se mantiene en familias de modelos a escala de producción, la pila de inferencia para tareas de contexto largo se vuelve sustancialmente más simple — sin plomería de generación aumentada por recuperación, sin modelos de compresión de contexto, sin ciclos de reentrenamiento. Ingrese el protocolo, extienda el contexto, lance.

Sources

KV-Fold is a training-free long-context inference protocol published May 12, 2026
"We introduce KV-Fold, a simple, training-free long-context inference protocol that treats the key-value (KV) cache as the accumulator in a left fold over sequence chunks."
arxiv.org ↗
KV-Fold fits within the memory limits of a single 40GB GPU
"remaining within the memory limits of a single 40GB GPU"
arxiv.org ↗
Per-step drift rises briefly then saturates into a flat plateau insensitive to a 10,000x change in numerical precision
"This plateau is insensitive to a 10,000x change in numerical precision, robust across chunk sizes, and consistent across model families."
arxiv.org ↗
100% exact-match retrieval on needle-in-a-haystack across 152 trials, contexts from 16K to 128K tokens, chain depths up to 511, on Llama-3.1-8B
"it achieves 100% exact-match retrieval across 152 trials spanning contexts from 16K to 128K tokens and chain depths up to 511 on Llama-3.1-8B"
arxiv.org ↗
KV-Fold design borrows KV cache concatenation primitive from latent multi-agent communication research
"Building on the KV cache concatenation primitive introduced for latent multi-agent communication, we repurpose it as a chunk-to-chunk recurrence for long-context inference."
arxiv.org ↗
Frozen pretrained transformers already support stable KV-cache recurrence without modification
"our results show that frozen pretrained transformers already support a stable form of KV-cache recurrence, providing a practical route to long-context inference without architectural changes or training."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

KV-Fold Extiende el Contexto de Transformers a 128K sin Reentrenamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.