Contexto Mais Longo Degrada Cooperação de LLM, Revela Estudo

Memória mais longa torna LLMs piores colegas de equipe. Um estudo abrangendo 7 grandes modelos de linguagem, 4 cenários teóricos de jogos e 500 rodadas por configuração revela que expandir o histórico de contexto acessível degrada o comportamento cooperativo em 18 de 28 combinações modelo-jogo — um resultado que os autores chamam de maldição da memória.

A pesquisa, liderada por Jiayuan Liu e colegas da Carnegie Mellon, Duke e instituições colaboradoras, utilizou dilemas sociais multi-agente clássicos para isolar como o comprimento do contexto afeta a tomada de decisão do agente. Cada modelo jogou jogos cooperativos repetidos onde o benefício mútuo requer planejamento prospectivo e confiança. Conforme os modelos acessaram histórico de interação mais longo, as taxas de cooperação caíram na maioria das condições testadas — sistematicamente, não esporadicamente.

Para diagnosticar o mecanismo, a equipe realizou análise lexical em 378.000 traços de raciocínio. O culpado não é paranoia crescente — agentes não se tornam progressivamente desconfiados de seus pares conforme o histórico cresce. Em vez disso, expandir memória enfraquece intenção prospectiva: modelos ficam mais ancorados a resultados passados e menos orientados para ganhos cooperativos futuros. Essa distinção importa. Um colapso impulsionado por paranoia exigiria correções de calibração de confiança; um colapso de orientação de intenção exige intervenções diferentes.

Três sondas de validação sustentam esse entendimento. Sanitização de memória manteve comprimento de prompt constante enquanto substituía histórico de interação real por registros sintéticos cooperativos. Cooperação se recuperou substancialmente, confirmando que conteúdo de memória, não contagem de tokens, impulsiona a degradação. Um adaptador LoRA direcionado — ajustado finamente exclusivamente em traços exibindo raciocínio prospectivo — mitigou o declínio e transferiu zero-shot para jogos não vistos. Uma terceira sonda, ablando raciocínio explícito chain-of-thought, frequentemente reduziu o colapso em vez de piorá-lo: deliberação paradoxalmente amplifica a maldição da memória em vez de corrigi-la.

Para arquitetos empresariais implantando fluxos de trabalho multi-agente, expansão de janela de contexto tem sido comercializada como uma melhoria de capacidade inequívoca — 128K tokens, 200K, um milhão. Equipes construíram camadas de orquestração, lojas de memória e loops de agente de longo horizonte na suposição de que mais histórico equals agentes melhores. A evidência deste estudo sugere que essa suposição falha em configurações cooperativas multi-agente, cada vez mais comuns em produção: pipelines de revisão de código, encaminhamentos de atendimento ao cliente, agentes de pesquisa autônomos coordenando sub-tarefas.

O descoberta de chain-of-thought aprofunda o risco. Muitas implantações empresariais explicitamente solicitam raciocínio passo-a-passo como mecanismo de confiabilidade. Se deliberação amplifica a maldição da memória, essas estratégias de prompting aceleram a exata degradação que pretendiam prevenir. Equipes devem auditar se seus pipelines agentivos combinam contexto longo com prompting chain-of-thought — esse pareamento parece ser a configuração de risco mais alto.

No lado da mitigação, o resultado de LoRA é o sinal mais acionável. Ajuste fino em traços de raciocínio prospectivo produziu um adaptador recuperável que generalizou para tarefas não vistas, sugerindo que ajuste fino comportamental — não mudanças arquiteturais — pode ser o mecanismo de curto prazo. Sanitização de memória é um segundo caminho: selecione o que entra na memória, preferindo registros de resultados cooperativos sobre logs de interação brutos.

O escopo do estudo é limitado por configurações teóricas de jogo e pode não generalizar completamente para ambientes de tarefas de produção onde cooperação é implícita em vez de formalizada. Mas a taxa de falha de 18 de 28 é muito consistente para ser atribuída a ruído experimental. Equipes lançando janelas de contexto maiores devem executar testes análogos em suas próprias implantações multi-agente.

Sources

Expanding accessible history degrades cooperation in 18 of 28 model-game settings across 7 LLMs and 4 games over 500 rounds
"Across 7 LLMs and 4 games over 500 rounds, expanding accessible history degrades cooperation in 18 of 28 model--game settings, a pattern we term the memory curse."
arxiv.org ↗
Lexical analysis of 378,000 reasoning traces shows the mechanism is eroding forward-looking intent, not rising paranoia
"lexical analysis of 378,000 reasoning traces associates this breakdown with eroding forward-looking intent rather than rising paranoia."
arxiv.org ↗
A LoRA adapter trained exclusively on forward-looking traces mitigates the decay and transfers zero-shot to distinct games
"a LoRA adapter trained exclusively on forward-looking traces mitigates the decay and transfers zero-shot to distinct games."
arxiv.org ↗
Memory sanitization — replacing visible history with synthetic cooperative records while holding prompt length fixed — restores cooperation substantially, proving the trigger is memory content not length
"memory sanitization holds prompt length fixed while replacing visible history with synthetic cooperative records, which restores cooperation substantially, proving the trigger is memory content, not length alone."
arxiv.org ↗
Ablating explicit chain-of-thought reasoning often reduces the cooperation collapse, showing deliberation paradoxically amplifies the memory curse
"ablating explicit Chain-of-Thought reasoning often reduces the collapse, showing that deliberation paradoxically amplifies the memory curse."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Contexto Mais Longo Degrada Cooperação de LLM, Revela Estudo

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.