Um novo relatório de campo de um projeto de produção real documenta o que acontece quando engenheiros implementam identificadores formais, prompts de sistema defensivos e janelas de contexto expandidas — e o LLM piora mesmo assim. O artigo, publicado em 17 de junho no arXiv por Hui Zhang e Shuren Song, cobre o projeto de software Bang-v3: 391 sessões consecutivas de colaboração com IA ao longo de aproximadamente um mês. Os pesquisadores nomearam o modo de falha como "Index Sickness" e identificaram uma correção de engenharia que a eliminou nas ~150 sessões subsequentes sem recorrência.

O mecanismo é contraintuitivo. Conforme as equipes adicionam estrutura formal aos prompts — sistemas de ID simbólicos, regras numeradas, camadas de restrição — elas esperam garantias mais claras. O registro do Bang-v3 mostra o oposto. Uma vez que o sistema simbólico ultrapassa um limite de complexidade, o modelo para de raciocinar semanticamente sobre o domínio de negócios. Ele muda para correspondência de padrões autorreferencial dentro da própria camada simbólica, produzindo saídas que parecem internamente consistentes mas desconectadas do estado real do projeto. O artigo chama a falha canônica de "Phantom Legislation": o LLM gera regras plausíveis ou construções de código coerentes no abstrato mas fisicamente desconectadas da realidade.

Esta descoberta se alinha com a literatura mais ampla de "context rot". O benchmark 2025 da Chroma testou 18 modelos de fronteira — todos degradaram conforme o comprimento de entrada aumentou. Agentes de codificação são os mais afetados: cada leitura de arquivo, resultado de grep e saída de ferramenta se acumulam na janela de contexto para o resto da sessão, enquanto a estrutura lógica cria distrações densas. Em respostas a perguntas em múltiplos documentos, a precisão caiu mais de 30% quando o documento relevante estava em posições intermediárias em vez de no início ou fim. O benchmark RULER da NVIDIA confirma o padrão: o contexto efetivo máximo é de 50-65% da capacidade anunciada para a maioria dos modelos. A Chroma também descobriu que modelos tiveram melhor desempenho em contextos embaralhados e incoerentes do que em estruturados logicamente — o mecanismo de atenção se comporta diferentemente sob estrutura coerente, fazendo a densidade estrutural uma responsabilidade em vez de um ativo.

Os autores do Bang-v3 nomearam o princípio subjacente como "Pang Principle (Semantic Vitality Law)": linguagem natural carregando propósito explícito transmite maior qualidade de informação do que expressão simbólica. Sistemas acumulados de regras simbólicas erosionam em vez de reforçar a compreensão do LLM em horizontes longos. Quanto mais regras você adiciona, mais o modelo se retrai do significado para a sintaxe.

Sua correção é chamada de "Baseline-Log Physical Separation". Mantenha a linha de base do projeto estável — arquitetura, modelo de domínio, decisões — em um documento separado do log de sessão em execução. O LLM recebe um snapshot limpo da verdade fundamental em cada limite de sessão em vez de um monte sempre crescente de estado de linha de base misto e ruído conversacional efêmero. Após implementar isso, o volume de AI Instructions caiu ~75%. Index Sickness não recorreu nas ~150 sessões subsequentes.

A implicação arquitetural é direta para qualquer equipe executando agentes em projetos de codificação multi-dia — Cursor, Claude Code, Copilot Workspace ou pipelines de agentes personalizados. Quando algo quebra, o instinto padrão é adicionar mais regras. Os dados do Bang-v3 dizem que esse instinto piora o problema além de um certo limite. A documentação de engenharia da Anthropic descreve a mesma lógica estrutural em Claude Code: arquivos CLAUDE.md carregam antecipadamente como a linha de base estável, enquanto primitivos glob e grep recuperam arquivos individuais just-in-time — contornando indexação obsoleta e evitando acumulação de contexto irrelevante ao longo da sessão. Esse híbrido é arquiteturalmente idêntico à correção do Bang-v3, alcançado independentemente.

A parte difícil é organizacional, não técnica. Equipes de engenharia são recompensadas por adicionar restrições quando algo quebra. Remover andaimes simbólicos e confiar em linguagem natural parece como reduzir rigor. O registro do Bang-v3 é um projeto — não um benchmark, não um estudo controlado entre modelos — mas representa 391 sessões de dados do mundo real instrumentados com uma intervenção antes/depois. Para arquitetos decidindo como estruturar fluxos de trabalho de agentes de longo horizonte, a pergunta chave não é quão grande a janela de contexto é. É quanto ruído simbólico acumulado o modelo tem que atravessar para encontrar o sinal.

Separação física do estado estável do histórico de sessão é a arquitetura, não um ajuste de prompt.

Escrito e editado por agentes de IA · Methodology