ReContext Corrige Recuperação em Contextos Longos Sem Retreinamento de Modelos

Um novo método chamado ReContext melhora o raciocínio de LLMs sobre contextos longos ao reproduzir evidências relevantes durante a inferência—sem retreinamento. A abordagem reduz a lacuna entre o tamanho da janela de contexto e a utilização real de raciocínio, o que é crítico para cargas de trabalho pesadas em documentos como revisão de código, descoberta legal e sistemas RAG.

Janelas de contexto maiores não resolveram a utilização de contexto. Modelos que aceitam 128K tokens ainda rotineiramente falham em recuperar evidências enterradas—não porque os tokens não estejam presentes, mas porque a atenção se dilui entre intervalos irrelevantes. Um artigo da Universidade de Illinois Urbana-Champaign quantifica a lacuna: os 0,1% melhores tokens em um contexto de 128K respondem por aproximadamente 50–80% da relevância condicionada por questão acumulada. São 128 tokens fazendo a maior parte do trabalho de raciocínio. ReContext foi construído para tornar esse sinal explícito.

ReContext (Recursive Evidence Replay as LLM Harness for Long-Context Reasoning) foi lançado em 2 de julho. É sem retreinamento e não requer alterações no modelo base. No tempo de inferência, ele lê o prompt original, usa as próprias pontuações de atenção do modelo para identificar intervalos de evidência, materializa esses intervalos como texto literal, depois os reproduz em um scaffold explícito antes da geração final. O contexto original completo permanece no prompt—nada é podado, comprimido ou descartado. A recursão opera sobre rodadas de seleção de evidência, não em chamadas de modelo, então o custo de forward-pass é comparável à inferência padrão.

Três estratégias concorrentes principais ficam aquém. Métodos de intervenção de atenção como DySCO rescalam a atenção de decodificação usando sinais de cabeça de recuperação, o que requer modificar o forward-pass do modelo base—invasivo para qualquer equipe executando modelo como serviço. Abordagens de memória externa como A-MEM adicionam uma camada de recuperação e módulo de memória agêntica, introduzindo sobrecarga de infraestrutura e superfícies de falha. Métodos de compressão como DAC encurtam o prompt antes da geração, o que descarta detalhes granulares e degrada tarefas de saltos múltiplos onde cadeias de evidência intermediárias importam. ReContext evita todos os três: usa os internals do modelo como fonte de sinal somente leitura, mantém o contexto completo acessível como fallback e opera inteiramente no tempo de construção de prompt.

Testes em oito benchmarks de contexto longo com comprimento de contexto de 128K em três modelos base—Qwen3-4B, Qwen3-8B e Llama3.1-8B—ReContext alcançou o melhor rank médio em todos os três. O artigo usa rank médio em oito datasets como métrica principal em vez de relatar um único delta de acurácia principal. Essa escolha previne cherry-picking mas dificulta o benchmark contra alvos específicos de deployment. Equipes avaliando isso em suas cargas de trabalho precisarão executá-lo na sua mistura de datasets.

O enquadramento teórico é memória associativa: contexto como armazenamento de memória, questão como pista de recuperação, atenção como associação pista-traço, e reprodução como reativação de traço. Mecanicamente, ReContext prepara a etapa de geração com um trecho do contexto condensado e pontuado por atenção, em vez de pedir ao modelo que extraia isso implicitamente em um único forward-pass. Separar organização de evidência da geração de resposta é a afirmação prática que vale a pena testar.

Para arquitetos executando pipelines pesados em documentos—RAG multi-documento, revisão de contrato, agentes de contexto longo de código—deployment é direto: ReContext é um wrapper de construção de prompt, não um novo modelo ou mudança de serving. Requer acesso aos pesos de atenção do modelo, o que descarta deployments de API de caixa preta pura, mas está disponível em qualquer instância Qwen3 ou Llama3 auto-hospedada. O código está no GitHub. Uma restrição: se seu pipeline já executa compressão de contexto upstream (DAC ou sumarização), a interação entre ReContext e compressão não foi benchmarkada. Executar ambos poderia duplicar a reprodução de evidência ou conflitar em critérios de seleção. Teste com compressão desabilitada primeiro.

Sources

Top 0.1% of context tokens accounts for roughly 50–80% of accumulated question-conditioned relevance — 128 tokens in a 128K context
"Top 0.1% of context tokens already accounts for about 50% / 80% accumulated relevance score across three LLMs, corresponding to only 128 tokens in a 128K-token context."
arxiv.org ↗
ReContext is training-free; uses model-internal attention signals to construct a query-conditioned evidence pool and replays it before final generation while preserving the full original context
"ReContext uses model-internal relevance signals to construct a query-conditioned evidence pool and replays it before final generation while preserving the full original context. This recursive selection process separates evidence organization from answer generation without training, external memory, or context pruning."
arxiv.org ↗
Experiments on 8 long-context datasets at 128K context length; ReContext achieves best average rank on Qwen3-4B, Qwen3-8B, and Llama3.1-8B
"Experiments on eight long-context datasets with 128K context length show that RECONTEXT consistently improves evidence utilization across Qwen3-4B, Qwen3-8B, and Llama3-8B, achieving the best average rank on all three backbones."
arxiv.org ↗
DySCO dynamically rescales decoding attention using retrieval-head signals — requires modifying the backbone forward pass
"DySCO dynamically rescales decoding attention using retrieval-head signals (Ye et al., 2026)."
arxiv.org ↗
A-MEM stores and retrieves task-relevant context evidence with an external agentic memory module
"A-MEM stores and retrieves task-relevant context evidence with an external agentic memory module (Xu et al., 2025)."
arxiv.org ↗
DAC applies dynamic attention-aware prompt compression before generation
"DAC applies dynamic attention-aware prompt compression before generation (Zhao et al., 2025c)."
arxiv.org ↗
ReContext preserves the full original context and replays a query-conditioned evidence pool before final generation
"In contrast, ReContext preserves the full original context and replays a query-conditioned evidence pool before final generation."
arxiv.org ↗
Compression methods like DAC are described as complementary to ReContext
"ReContext is complementary to this line of work. It does not build a persistent memory, train a retriever, or replace the original long context with a shortened version."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

ReContext Corrige Recuperação em Contextos Longos Sem Retreinamento de Modelos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.