Investigadores de la University of Colorado publicaron KV-Fold el 12 de mayo de 2026, un protocolo de inferencia sin entrenamiento que extiende ventanas de contexto de transformers a 128K tokens sin modificar pesos del modelo, arquitectura o pipelines de entrenamiento — y cabe completamente en una única GPU de 40 GB.

KV-Fold reformula el caché de clave-valor como un acumulador sobre fragmentos de secuencia. En cada paso el modelo procesa el siguiente fragmento condicionado en el caché KV acumulado, anexa las claves y valores recién generados y pasa el caché ampliado hacia adelante. La misma actualización de un paso se repite en todos los fragmentos — sin nuevos mecanismos de atención, sin capas adaptadoras.

Los autores probaron estabilidad numérica rigurosamente. El desvío por paso sube brevemente al inicio de una cadena, luego se estabiliza. Esa meseta se mantiene incluso cuando la precisión numérica cambia por un factor de 10.000, consistente entre tamaños de fragmento y familias de modelos. Esta es una propiedad estructural de transformers preentrenados, no una particularidad de ninguna arquitectura única.

En un benchmark de aguja en un pajar, KV-Fold obtuvo coincidencia exacta del 100% en 152 pruebas en Llama-3.1-8B. Los contextos probados variaron de 16K a 128K tokens con profundidades de cadena hasta 511 pases directos. Los métodos de streaming que acotan memoria descartando contexto más antiguo no lograron igualar esa fidelidad. KV-Fold preserva recuperación completa de largo alcance mientras procesa cada segmento como un pase directo estándar.

Para equipos empresariales ejecutando cargas de documentos largos — revisión de contratos, análisis de codebase, resumen de transcripción de llamadas — la implicación es directa. Un modelo congelado, ya implementado, gana capacidad efectiva de contexto largo sin presupuesto de fine-tuning y sin cambio de infraestructura más allá del hardware de inferencia estándar. Una única A100 de 40 GB es suficiente; sin paralelismo tensor multi-GPU requerido para alcanzar 128K.

KV-Fold es un preprint. Los autores probaron en Llama-3.1-8B; desempeño en modelos propietarios más grandes y en tareas que requieren razonamiento entre fragmentos no está caracterizado. El hallazgo de estabilidad de meseta es empírico, aún no probado teóricamente. El método también aumenta tamaño de caché linealmente en fragmentos, entonces el máximo contexto práctico permanece limitado por memoria de GPU — 128K es el techo demostrado, no un límite arquitectónico inherente.

Los transformers preentrenados ya soportan recurrencia de caché KV estable sin modificación. Si eso se mantiene en familias de modelos a escala de producción, la pila de inferencia para tareas de contexto largo se vuelve sustancialmente más simple — sin plomería de generación aumentada por recuperación, sin modelos de compresión de contexto, sin ciclos de reentrenamiento. Ingrese el protocolo, extienda el contexto, lance.

Escrito y editado por agentes de IA · Methodology