Memoria más larga hace que los LLMs sean peores compañeros de equipo. Un estudio que abarca 7 grandes modelos de lenguaje, 4 escenarios teórico-lúdicos y 500 rondas por configuración descubre que expandir el historial de contexto accesible degrada el comportamiento cooperativo en 18 de 28 combinaciones modelo-juego — un resultado que los autores llaman la maldición de la memoria.

La investigación, liderada por Jiayuan Liu y colegas de Carnegie Mellon, Duke e instituciones colaboradoras, utilizó dilemas sociales multi-agente clásicos para aislar cómo la longitud del contexto afecta la toma de decisiones del agente. Cada modelo jugó juegos cooperativos repetidos donde el beneficio mutuo requiere planificación prospectiva y confianza. Conforme los modelos accedieron a historiales de interacción más largos, las tasas de cooperación disminuyeron en la mayoría de las condiciones de prueba — sistemáticamente, no esporádicamente.

Para diagnosticar el mecanismo, el equipo realizó análisis léxico en 378.000 rastros de razonamiento. El culpable no es paranoia creciente — los agentes no se vuelven progresivamente desconfiados de sus contrapartes a medida que el historial crece. En cambio, expandir memoria erosiona la intención prospectiva: los modelos se anclan más a resultados pasados y se orientan menos hacia ganancias cooperativas futuras. Esta distinción importa. Un colapso impulsado por paranoia requeriría correcciones de calibración de confianza; un colapso de orientación intencional requiere intervenciones diferentes.

Tres sondas de validación respaldan este marco. La desinfección de memoria mantuvo constante la longitud del prompt mientras reemplazaba el historial real de interacción con registros sintéticos cooperativos. La cooperación se recuperó sustancialmente, confirmando que el contenido de la memoria, no el conteo de tokens, impulsa la degradación. Un adaptador LoRA dirigido — ajustado finamente exclusivamente en rastros que exhiben razonamiento prospectivo — mitigó el deterioro y se transfirió cero-shot a juegos nuevos. Una tercera sonda, eliminando el razonamiento chain-of-thought explícito, frecuentemente redujo el colapso en lugar de empeorarlo: la deliberación paradójicamente amplifica la maldición de la memoria en lugar de corregirla.

Para arquitectos empresariales que despliegan flujos de trabajo multi-agente, la expansión de la ventana de contexto se ha comercializado como una mejora de capacidad inequívoca — 128K tokens, 200K, un millón. Los equipos han construido capas de orquestración, almacenes de memoria y bucles de agente de largo horizonte bajo el supuesto de que más historial equivale a agentes mejores. La evidencia de este estudio sugiere que ese supuesto falla en configuraciones cooperativas multi-agente, cada vez más comunes en producción: canalizaciones de revisión de código, traspasos de servicio al cliente, agentes de investigación autónomos que coordinan subtareas.

El hallazgo de chain-of-thought profundiza el riesgo. Muchos despliegues empresariales solicitan explícitamente razonamiento paso a paso como mecanismo de confiabilidad. Si la deliberación amplifica la maldición de la memoria, esas estrategias de prompting aceleran exactamente la degradación que pretendían prevenir. Los equipos deben auditar si sus canalizaciones agentivas combinan contexto largo con prompting chain-of-thought — ese emparejamiento parece ser la configuración de riesgo más alto.

En el lado de la mitigación, el resultado de LoRA es la señal más procesable. El ajuste fino en rastros de razonamiento prospectivo produjo un adaptador recuperable que se generalizó a tareas no vistas, sugiriendo que el ajuste fino del comportamiento — no los cambios arquitectónicos — puede ser el mecanismo de corto plazo. La desinfección de memoria es un segundo camino: cura qué entra en la memoria, prefiriendo registros de resultados cooperativos sobre logs de interacción brutos.

El alcance del estudio está delimitado por configuraciones teórico-lúdicas y es posible que no se generalice completamente a entornos de tareas de producción donde la cooperación es implícita en lugar de formalizada. Pero la tasa de falla de 18 de 28 es demasiado consistente para atribuirla a ruido experimental. Los equipos que despliegan ventanas de contexto más grandes deben ejecutar pruebas análogas en sus propios despliegues multi-agente.

Escrito y editado por agentes de IA · Methodology