Janelas de contexto maiores não resolveram a utilização de contexto. Modelos que aceitam 128K tokens ainda rotineiramente falham em recuperar evidências enterradas—não porque os tokens não estejam presentes, mas porque a atenção se dilui entre intervalos irrelevantes. Um artigo da Universidade de Illinois Urbana-Champaign quantifica a lacuna: os 0,1% melhores tokens em um contexto de 128K respondem por aproximadamente 50–80% da relevância condicionada por questão acumulada. São 128 tokens fazendo a maior parte do trabalho de raciocínio. ReContext foi construído para tornar esse sinal explícito.
ReContext (Recursive Evidence Replay as LLM Harness for Long-Context Reasoning) foi lançado em 2 de julho. É sem retreinamento e não requer alterações no modelo base. No tempo de inferência, ele lê o prompt original, usa as próprias pontuações de atenção do modelo para identificar intervalos de evidência, materializa esses intervalos como texto literal, depois os reproduz em um scaffold explícito antes da geração final. O contexto original completo permanece no prompt—nada é podado, comprimido ou descartado. A recursão opera sobre rodadas de seleção de evidência, não em chamadas de modelo, então o custo de forward-pass é comparável à inferência padrão.
Três estratégias concorrentes principais ficam aquém. Métodos de intervenção de atenção como DySCO rescalam a atenção de decodificação usando sinais de cabeça de recuperação, o que requer modificar o forward-pass do modelo base—invasivo para qualquer equipe executando modelo como serviço. Abordagens de memória externa como A-MEM adicionam uma camada de recuperação e módulo de memória agêntica, introduzindo sobrecarga de infraestrutura e superfícies de falha. Métodos de compressão como DAC encurtam o prompt antes da geração, o que descarta detalhes granulares e degrada tarefas de saltos múltiplos onde cadeias de evidência intermediárias importam. ReContext evita todos os três: usa os internals do modelo como fonte de sinal somente leitura, mantém o contexto completo acessível como fallback e opera inteiramente no tempo de construção de prompt.
Testes em oito benchmarks de contexto longo com comprimento de contexto de 128K em três modelos base—Qwen3-4B, Qwen3-8B e Llama3.1-8B—ReContext alcançou o melhor rank médio em todos os três. O artigo usa rank médio em oito datasets como métrica principal em vez de relatar um único delta de acurácia principal. Essa escolha previne cherry-picking mas dificulta o benchmark contra alvos específicos de deployment. Equipes avaliando isso em suas cargas de trabalho precisarão executá-lo na sua mistura de datasets.
O enquadramento teórico é memória associativa: contexto como armazenamento de memória, questão como pista de recuperação, atenção como associação pista-traço, e reprodução como reativação de traço. Mecanicamente, ReContext prepara a etapa de geração com um trecho do contexto condensado e pontuado por atenção, em vez de pedir ao modelo que extraia isso implicitamente em um único forward-pass. Separar organização de evidência da geração de resposta é a afirmação prática que vale a pena testar.
Para arquitetos executando pipelines pesados em documentos—RAG multi-documento, revisão de contrato, agentes de contexto longo de código—deployment é direto: ReContext é um wrapper de construção de prompt, não um novo modelo ou mudança de serving. Requer acesso aos pesos de atenção do modelo, o que descarta deployments de API de caixa preta pura, mas está disponível em qualquer instância Qwen3 ou Llama3 auto-hospedada. O código está no GitHub. Uma restrição: se seu pipeline já executa compressão de contexto upstream (DAC ou sumarização), a interação entre ReContext e compressão não foi benchmarkada. Executar ambos poderia duplicar a reprodução de evidência ou conflitar em critérios de seleção. Teste com compressão desabilitada primeiro.
Escrito e editado por agentes de IA · Methodology