KV-Fold Estende Contexto de Transformers até 128K Sem Retreinamento

Preprint do arXiv, KV-Fold introduz uma técnica de inferência sem treinamento que trata o cache de chave-valor como um fold funcional sobre chunks de sequência, habilitando contexto mais longo sem mudanças arquiteturais. Ganho potencial de eficiência para cargas de raciocínio em documentos longos em produção.

Pesquisadores da University of Colorado publicaram KV-Fold em 12 de maio de 2026, um protocolo de inferência sem treinamento que estende janelas de contexto de transformers até 128K tokens sem modificar pesos do modelo, arquitetura ou pipelines de treinamento — e cabe inteiramente em uma única GPU de 40 GB.

KV-Fold reformula o cache de chave-valor como um acumulador sobre chunks de sequência. A cada passo o modelo processa o próximo chunk condicionado no cache KV acumulado, anexa as chaves e valores recém-gerados e passa o cache ampliado adiante. A mesma atualização de um passo se repete em todos os chunks — sem novos mecanismos de atenção, sem camadas adaptadoras.

Os autores testaram estabilidade numérica rigorosamente. O drift por passo sobe brevemente no início de uma cadeia, depois se estabiliza. Esse platô se mantém mesmo quando a precisão numérica muda por um fator de 10.000, consistente entre tamanhos de chunk e famílias de modelos. Esta é uma propriedade estrutural de transformers pré-treinados, não uma peculiaridade de qualquer arquitetura única.

Em um benchmark de agulha-em-um-palheiro, KV-Fold marcou 100% de correspondência exata em 152 testes em Llama-3.1-8B. Os contextos testados variaram de 16K a 128K tokens com profundidades de cadeia até 511 passes diretos. Métodos de streaming que limitam memória descartando contexto mais antigo não conseguiram igualar essa fidelidade. KV-Fold preserva recuperação completa de longo alcance enquanto processa cada segmento como um passo direto padrão.

Para equipes empresariais executando cargas de documentos longos — revisão de contratos, análise de codebase, resumo de transcrição de chamadas — a implicação é direta. Um modelo congelado, já implantado, ganha capacidade efetiva de contexto longo sem orçamento de fine-tuning e sem mudança de infraestrutura além do hardware de inferência padrão. Um único A100 de 40 GB é suficiente; nenhum paralelismo tensor multi-GPU é necessário para atingir 128K.

KV-Fold é um preprint. Os autores testaram em Llama-3.1-8B; desempenho em modelos proprietários maiores e em tarefas que exigem raciocínio entre chunks não está caracterizado. O achado de estabilidade de platô é empírico, ainda não provado teoricamente. O método também amplia tamanho de cache linearmente em chunks, então o máximo contexto prático permanece limitado pela memória da GPU — 128K é o teto demonstrado, não um limite arquitetural inerente.

Transformers pré-treinados já suportam recorrência de cache KV estável sem modificação. Se isso se mantiver em famílias de modelos em escala de produção, a stack de inferência para tarefas de contexto longo fica substancialmente mais simples — nenhuma plumbing de geração aumentada por recuperação, nenhum modelo de compressão de contexto, nenhum ciclo de retreinamento. Coloque o protocolo, estenda o contexto, lance.

Sources

KV-Fold is a training-free long-context inference protocol published May 12, 2026
"We introduce KV-Fold, a simple, training-free long-context inference protocol that treats the key-value (KV) cache as the accumulator in a left fold over sequence chunks."
arxiv.org ↗
KV-Fold fits within the memory limits of a single 40GB GPU
"remaining within the memory limits of a single 40GB GPU"
arxiv.org ↗
Per-step drift rises briefly then saturates into a flat plateau insensitive to a 10,000x change in numerical precision
"This plateau is insensitive to a 10,000x change in numerical precision, robust across chunk sizes, and consistent across model families."
arxiv.org ↗
100% exact-match retrieval on needle-in-a-haystack across 152 trials, contexts from 16K to 128K tokens, chain depths up to 511, on Llama-3.1-8B
"it achieves 100% exact-match retrieval across 152 trials spanning contexts from 16K to 128K tokens and chain depths up to 511 on Llama-3.1-8B"
arxiv.org ↗
KV-Fold design borrows KV cache concatenation primitive from latent multi-agent communication research
"Building on the KV cache concatenation primitive introduced for latent multi-agent communication, we repurpose it as a chunk-to-chunk recurrence for long-context inference."
arxiv.org ↗
Frozen pretrained transformers already support stable KV-cache recurrence without modification
"our results show that frozen pretrained transformers already support a stable form of KV-cache recurrence, providing a practical route to long-context inference without architectural changes or training."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

KV-Fold Estende Contexto de Transformers até 128K Sem Retreinamento

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.