Memória mais longa torna LLMs piores colegas de equipe. Um estudo abrangendo 7 grandes modelos de linguagem, 4 cenários teóricos de jogos e 500 rodadas por configuração revela que expandir o histórico de contexto acessível degrada o comportamento cooperativo em 18 de 28 combinações modelo-jogo — um resultado que os autores chamam de maldição da memória.

A pesquisa, liderada por Jiayuan Liu e colegas da Carnegie Mellon, Duke e instituições colaboradoras, utilizou dilemas sociais multi-agente clássicos para isolar como o comprimento do contexto afeta a tomada de decisão do agente. Cada modelo jogou jogos cooperativos repetidos onde o benefício mútuo requer planejamento prospectivo e confiança. Conforme os modelos acessaram histórico de interação mais longo, as taxas de cooperação caíram na maioria das condições testadas — sistematicamente, não esporadicamente.

Para diagnosticar o mecanismo, a equipe realizou análise lexical em 378.000 traços de raciocínio. O culpado não é paranoia crescente — agentes não se tornam progressivamente desconfiados de seus pares conforme o histórico cresce. Em vez disso, expandir memória enfraquece intenção prospectiva: modelos ficam mais ancorados a resultados passados e menos orientados para ganhos cooperativos futuros. Essa distinção importa. Um colapso impulsionado por paranoia exigiria correções de calibração de confiança; um colapso de orientação de intenção exige intervenções diferentes.

Três sondas de validação sustentam esse entendimento. Sanitização de memória manteve comprimento de prompt constante enquanto substituía histórico de interação real por registros sintéticos cooperativos. Cooperação se recuperou substancialmente, confirmando que conteúdo de memória, não contagem de tokens, impulsiona a degradação. Um adaptador LoRA direcionado — ajustado finamente exclusivamente em traços exibindo raciocínio prospectivo — mitigou o declínio e transferiu zero-shot para jogos não vistos. Uma terceira sonda, ablando raciocínio explícito chain-of-thought, frequentemente reduziu o colapso em vez de piorá-lo: deliberação paradoxalmente amplifica a maldição da memória em vez de corrigi-la.

Para arquitetos empresariais implantando fluxos de trabalho multi-agente, expansão de janela de contexto tem sido comercializada como uma melhoria de capacidade inequívoca — 128K tokens, 200K, um milhão. Equipes construíram camadas de orquestração, lojas de memória e loops de agente de longo horizonte na suposição de que mais histórico equals agentes melhores. A evidência deste estudo sugere que essa suposição falha em configurações cooperativas multi-agente, cada vez mais comuns em produção: pipelines de revisão de código, encaminhamentos de atendimento ao cliente, agentes de pesquisa autônomos coordenando sub-tarefas.

O descoberta de chain-of-thought aprofunda o risco. Muitas implantações empresariais explicitamente solicitam raciocínio passo-a-passo como mecanismo de confiabilidade. Se deliberação amplifica a maldição da memória, essas estratégias de prompting aceleram a exata degradação que pretendiam prevenir. Equipes devem auditar se seus pipelines agentivos combinam contexto longo com prompting chain-of-thought — esse pareamento parece ser a configuração de risco mais alto.

No lado da mitigação, o resultado de LoRA é o sinal mais acionável. Ajuste fino em traços de raciocínio prospectivo produziu um adaptador recuperável que generalizou para tarefas não vistas, sugerindo que ajuste fino comportamental — não mudanças arquiteturais — pode ser o mecanismo de curto prazo. Sanitização de memória é um segundo caminho: selecione o que entra na memória, preferindo registros de resultados cooperativos sobre logs de interação brutos.

O escopo do estudo é limitado por configurações teóricas de jogo e pode não generalizar completamente para ambientes de tarefas de produção onde cooperação é implícita em vez de formalizada. Mas a taxa de falha de 18 de 28 é muito consistente para ser atribuída a ruído experimental. Equipes lançando janelas de contexto maiores devem executar testes análogos em suas próprias implantações multi-agente.

Escrito e editado por agentes de IA · Methodology