ReContext Soluciona la Recuperación en Contextos Largos Sin Reentrenamiento de Modelos

Un nuevo método llamado ReContext mejora el razonamiento de LLMs en contextos largos reproduciendo evidencia relevante durante la inferencia—sin reentrenamiento. El enfoque cierra la brecha entre el tamaño de la ventana de contexto y la utilización real del razonamiento, lo cual es crítico para cargas de trabajo intensivas en documentos como revisión de código, descubrimiento legal y sistemas RAG.

Las ventanas de contexto más grandes no han resuelto la utilización del contexto. Los modelos que aceptan 128K tokens aún fallan rutinariamente en recuperar evidencia enterrada—no porque los tokens no estén presentes, sino porque la atención se diluye entre intervalos irrelevantes. Un artículo de la Universidad de Illinois Urbana-Champaign cuantifica la brecha: los tokens del 0,1% superior en un contexto de 128K representan aproximadamente el 50–80% de la relevancia acumulada condicionada por pregunta. Son 128 tokens realizando la mayor parte del trabajo de razonamiento. ReContext fue construido para hacer esa señal explícita.

ReContext (Recursive Evidence Replay as LLM Harness for Long-Context Reasoning) se lanzó el 2 de julio. No requiere reentrenamiento y no necesita cambios en el modelo base. En tiempo de inferencia, lee la solicitud original, utiliza las puntuaciones de atención del propio modelo para identificar tramos de evidencia, materializa esos tramos como texto literal, luego los reproduce en un andamio explícito antes de la generación final. El contexto original completo permanece en la solicitud—nada se poda, comprime o descarta. La recursión opera sobre rondas de selección de evidencia, no llamadas de modelo, por lo que el costo de forward-pass es comparable a la inferencia estándar.

Tres estrategias competidoras principales se quedan cortas. Métodos de intervención de atención como DySCO reescalan la atención de decodificación usando señales de cabeza de recuperación, lo que requiere modificar el forward-pass del modelo base—invasivo para cualquier equipo ejecutando modelo como servicio. Enfoques de memoria externa como A-MEM añaden una capa de recuperación y módulo de memoria agentic, introduciendo sobrecarga de infraestructura y superficies de fallo. Métodos de compresión como DAC acortan la solicitud antes de la generación, lo que elimina detalles granulares y degrada tareas de múltiples saltos donde cadenas de evidencia intermedia importan. ReContext evita los tres: usa los internals del modelo como fuente de señal de solo lectura, mantiene el contexto completo accesible como alternativa y opera enteramente en tiempo de construcción de solicitud.

Las pruebas en ocho benchmarks de contexto largo con longitud de contexto de 128K en tres modelos base—Qwen3-4B, Qwen3-8B y Llama3.1-8B—ReContext logró el mejor rango promedio en los tres. El artículo usa rango promedio en ocho datasets como métrica principal en lugar de reportar un único delta de precisión principal. Esa elección previene cherry-picking pero dificulta el benchmark contra objetivos específicos de implementación. Los equipos que evalúan esto en sus cargas de trabajo necesitarán ejecutarlo en su mezcla de datasets.

El marco teórico es memoria asociativa: contexto como almacén de memoria, pregunta como pista de recuperación, atención como asociación pista-rastro, y reproducción como reactivación de rastro. Mecánicamente, ReContext ceba el paso de generación con un fragmento del contexto condensado y puntuado por atención, en lugar de pedirle al modelo que extraiga eso implícitamente en un único forward-pass. Separar la organización de evidencia de la generación de respuesta es la afirmación práctica que vale la pena probar.

Para arquitectos que ejecutan pipelines intensivos en documentos—RAG multi-documento, revisión de contratos, agentes de contexto largo de código—la implementación es directa: ReContext es un wrapper de construcción de solicitud, no un nuevo modelo o cambio de servicio. Requiere acceso a los pesos de atención del modelo, lo que descarta despliegues de API de caja negra pura pero está disponible en cualquier instancia Qwen3 o Llama3 autoalojada. El código está en GitHub. Una restricción: si su pipeline ya ejecuta compresión de contexto upstream (DAC o sumarización), la interacción entre ReContext y compresión no ha sido benchmarkada. Ejecutar ambos podría duplicar la reproducción de evidencia o entrar en conflicto en criterios de selección. Pruebe primero con compresión deshabilitada.

Sources

Top 0.1% of context tokens accounts for roughly 50–80% of accumulated question-conditioned relevance — 128 tokens in a 128K context
"Top 0.1% of context tokens already accounts for about 50% / 80% accumulated relevance score across three LLMs, corresponding to only 128 tokens in a 128K-token context."
arxiv.org ↗
ReContext is training-free; uses model-internal attention signals to construct a query-conditioned evidence pool and replays it before final generation while preserving the full original context
"ReContext uses model-internal relevance signals to construct a query-conditioned evidence pool and replays it before final generation while preserving the full original context. This recursive selection process separates evidence organization from answer generation without training, external memory, or context pruning."
arxiv.org ↗
Experiments on 8 long-context datasets at 128K context length; ReContext achieves best average rank on Qwen3-4B, Qwen3-8B, and Llama3.1-8B
"Experiments on eight long-context datasets with 128K context length show that RECONTEXT consistently improves evidence utilization across Qwen3-4B, Qwen3-8B, and Llama3-8B, achieving the best average rank on all three backbones."
arxiv.org ↗
DySCO dynamically rescales decoding attention using retrieval-head signals — requires modifying the backbone forward pass
"DySCO dynamically rescales decoding attention using retrieval-head signals (Ye et al., 2026)."
arxiv.org ↗
A-MEM stores and retrieves task-relevant context evidence with an external agentic memory module
"A-MEM stores and retrieves task-relevant context evidence with an external agentic memory module (Xu et al., 2025)."
arxiv.org ↗
DAC applies dynamic attention-aware prompt compression before generation
"DAC applies dynamic attention-aware prompt compression before generation (Zhao et al., 2025c)."
arxiv.org ↗
ReContext preserves the full original context and replays a query-conditioned evidence pool before final generation
"In contrast, ReContext preserves the full original context and replays a query-conditioned evidence pool before final generation."
arxiv.org ↗
Compression methods like DAC are described as complementary to ReContext
"ReContext is complementary to this line of work. It does not build a persistent memory, train a retriever, or replace the original long context with a shortened version."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

ReContext Soluciona la Recuperación en Contextos Largos Sin Reentrenamiento de Modelos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.