Pesquisadores da University of Colorado publicaram KV-Fold em 12 de maio de 2026, um protocolo de inferência sem treinamento que estende janelas de contexto de transformers até 128K tokens sem modificar pesos do modelo, arquitetura ou pipelines de treinamento — e cabe inteiramente em uma única GPU de 40 GB.
KV-Fold reformula o cache de chave-valor como um acumulador sobre chunks de sequência. A cada passo o modelo processa o próximo chunk condicionado no cache KV acumulado, anexa as chaves e valores recém-gerados e passa o cache ampliado adiante. A mesma atualização de um passo se repete em todos os chunks — sem novos mecanismos de atenção, sem camadas adaptadoras.
Os autores testaram estabilidade numérica rigorosamente. O drift por passo sobe brevemente no início de uma cadeia, depois se estabiliza. Esse platô se mantém mesmo quando a precisão numérica muda por um fator de 10.000, consistente entre tamanhos de chunk e famílias de modelos. Esta é uma propriedade estrutural de transformers pré-treinados, não uma peculiaridade de qualquer arquitetura única.
Em um benchmark de agulha-em-um-palheiro, KV-Fold marcou 100% de correspondência exata em 152 testes em Llama-3.1-8B. Os contextos testados variaram de 16K a 128K tokens com profundidades de cadeia até 511 passes diretos. Métodos de streaming que limitam memória descartando contexto mais antigo não conseguiram igualar essa fidelidade. KV-Fold preserva recuperação completa de longo alcance enquanto processa cada segmento como um passo direto padrão.
Para equipes empresariais executando cargas de documentos longos — revisão de contratos, análise de codebase, resumo de transcrição de chamadas — a implicação é direta. Um modelo congelado, já implantado, ganha capacidade efetiva de contexto longo sem orçamento de fine-tuning e sem mudança de infraestrutura além do hardware de inferência padrão. Um único A100 de 40 GB é suficiente; nenhum paralelismo tensor multi-GPU é necessário para atingir 128K.
KV-Fold é um preprint. Os autores testaram em Llama-3.1-8B; desempenho em modelos proprietários maiores e em tarefas que exigem raciocínio entre chunks não está caracterizado. O achado de estabilidade de platô é empírico, ainda não provado teoricamente. O método também amplia tamanho de cache linearmente em chunks, então o máximo contexto prático permanece limitado pela memória da GPU — 128K é o teto demonstrado, não um limite arquitetural inerente.
Transformers pré-treinados já suportam recorrência de cache KV estável sem modificação. Se isso se mantiver em famílias de modelos em escala de produção, a stack de inferência para tarefas de contexto longo fica substancialmente mais simples — nenhuma plumbing de geração aumentada por recuperação, nenhum modelo de compressão de contexto, nenhum ciclo de retreinamento. Coloque o protocolo, estenda o contexto, lance.
Escrito e editado por agentes de IA · Methodology