Contexto Más Largo Degrada Cooperación de LLM, Revela Estudio

Un estudio entre LLMs revela que expandir ventanas de contexto sistemáticamente erosiona la intención cooperativa en escenarios multi-agente, degradando el rendimiento en 18 de 28 configuraciones modelo-juego. El mecanismo: historial más largo debilita la intención prospectiva en el razonamiento del agente.

Memoria más larga hace que los LLMs sean peores compañeros de equipo. Un estudio que abarca 7 grandes modelos de lenguaje, 4 escenarios teórico-lúdicos y 500 rondas por configuración descubre que expandir el historial de contexto accesible degrada el comportamiento cooperativo en 18 de 28 combinaciones modelo-juego — un resultado que los autores llaman la maldición de la memoria.

La investigación, liderada por Jiayuan Liu y colegas de Carnegie Mellon, Duke e instituciones colaboradoras, utilizó dilemas sociales multi-agente clásicos para aislar cómo la longitud del contexto afecta la toma de decisiones del agente. Cada modelo jugó juegos cooperativos repetidos donde el beneficio mutuo requiere planificación prospectiva y confianza. Conforme los modelos accedieron a historiales de interacción más largos, las tasas de cooperación disminuyeron en la mayoría de las condiciones de prueba — sistemáticamente, no esporádicamente.

Para diagnosticar el mecanismo, el equipo realizó análisis léxico en 378.000 rastros de razonamiento. El culpable no es paranoia creciente — los agentes no se vuelven progresivamente desconfiados de sus contrapartes a medida que el historial crece. En cambio, expandir memoria erosiona la intención prospectiva: los modelos se anclan más a resultados pasados y se orientan menos hacia ganancias cooperativas futuras. Esta distinción importa. Un colapso impulsado por paranoia requeriría correcciones de calibración de confianza; un colapso de orientación intencional requiere intervenciones diferentes.

Tres sondas de validación respaldan este marco. La desinfección de memoria mantuvo constante la longitud del prompt mientras reemplazaba el historial real de interacción con registros sintéticos cooperativos. La cooperación se recuperó sustancialmente, confirmando que el contenido de la memoria, no el conteo de tokens, impulsa la degradación. Un adaptador LoRA dirigido — ajustado finamente exclusivamente en rastros que exhiben razonamiento prospectivo — mitigó el deterioro y se transfirió cero-shot a juegos nuevos. Una tercera sonda, eliminando el razonamiento chain-of-thought explícito, frecuentemente redujo el colapso en lugar de empeorarlo: la deliberación paradójicamente amplifica la maldición de la memoria en lugar de corregirla.

Para arquitectos empresariales que despliegan flujos de trabajo multi-agente, la expansión de la ventana de contexto se ha comercializado como una mejora de capacidad inequívoca — 128K tokens, 200K, un millón. Los equipos han construido capas de orquestración, almacenes de memoria y bucles de agente de largo horizonte bajo el supuesto de que más historial equivale a agentes mejores. La evidencia de este estudio sugiere que ese supuesto falla en configuraciones cooperativas multi-agente, cada vez más comunes en producción: canalizaciones de revisión de código, traspasos de servicio al cliente, agentes de investigación autónomos que coordinan subtareas.

El hallazgo de chain-of-thought profundiza el riesgo. Muchos despliegues empresariales solicitan explícitamente razonamiento paso a paso como mecanismo de confiabilidad. Si la deliberación amplifica la maldición de la memoria, esas estrategias de prompting aceleran exactamente la degradación que pretendían prevenir. Los equipos deben auditar si sus canalizaciones agentivas combinan contexto largo con prompting chain-of-thought — ese emparejamiento parece ser la configuración de riesgo más alto.

En el lado de la mitigación, el resultado de LoRA es la señal más procesable. El ajuste fino en rastros de razonamiento prospectivo produjo un adaptador recuperable que se generalizó a tareas no vistas, sugiriendo que el ajuste fino del comportamiento — no los cambios arquitectónicos — puede ser el mecanismo de corto plazo. La desinfección de memoria es un segundo camino: cura qué entra en la memoria, prefiriendo registros de resultados cooperativos sobre logs de interacción brutos.

El alcance del estudio está delimitado por configuraciones teórico-lúdicas y es posible que no se generalice completamente a entornos de tareas de producción donde la cooperación es implícita en lugar de formalizada. Pero la tasa de falla de 18 de 28 es demasiado consistente para atribuirla a ruido experimental. Los equipos que despliegan ventanas de contexto más grandes deben ejecutar pruebas análogas en sus propios despliegues multi-agente.

Sources

Expanding accessible history degrades cooperation in 18 of 28 model-game settings across 7 LLMs and 4 games over 500 rounds
"Across 7 LLMs and 4 games over 500 rounds, expanding accessible history degrades cooperation in 18 of 28 model--game settings, a pattern we term the memory curse."
arxiv.org ↗
Lexical analysis of 378,000 reasoning traces shows the mechanism is eroding forward-looking intent, not rising paranoia
"lexical analysis of 378,000 reasoning traces associates this breakdown with eroding forward-looking intent rather than rising paranoia."
arxiv.org ↗
A LoRA adapter trained exclusively on forward-looking traces mitigates the decay and transfers zero-shot to distinct games
"a LoRA adapter trained exclusively on forward-looking traces mitigates the decay and transfers zero-shot to distinct games."
arxiv.org ↗
Memory sanitization — replacing visible history with synthetic cooperative records while holding prompt length fixed — restores cooperation substantially, proving the trigger is memory content not length
"memory sanitization holds prompt length fixed while replacing visible history with synthetic cooperative records, which restores cooperation substantially, proving the trigger is memory content, not length alone."
arxiv.org ↗
Ablating explicit chain-of-thought reasoning often reduces the cooperation collapse, showing deliberation paradoxically amplifies the memory curse
"ablating explicit Chain-of-Thought reasoning often reduces the collapse, showing that deliberation paradoxically amplifies the memory curse."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Contexto Más Largo Degrada Cooperación de LLM, Revela Estudio

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.