Adicionar Regras Quebra Agentes de IA, Dados do Bang-v3 Mostram

Um novo relatório de campo de um projeto de produção real documenta o que acontece quando engenheiros implementam identificadores formais, prompts de sistema defensivos e janelas de contexto expandidas — e o LLM piora mesmo assim. O artigo, publicado em 17 de junho no arXiv por Hui Zhang e Shuren Song, cobre o projeto de software Bang-v3: 391 sessões consecutivas de colaboração com IA ao longo de aproximadamente um mês. Os pesquisadores nomearam o modo de falha como "Index Sickness" e identificaram uma correção de engenharia que a eliminou nas ~150 sessões subsequentes sem recorrência.

O mecanismo é contraintuitivo. Conforme as equipes adicionam estrutura formal aos prompts — sistemas de ID simbólicos, regras numeradas, camadas de restrição — elas esperam garantias mais claras. O registro do Bang-v3 mostra o oposto. Uma vez que o sistema simbólico ultrapassa um limite de complexidade, o modelo para de raciocinar semanticamente sobre o domínio de negócios. Ele muda para correspondência de padrões autorreferencial dentro da própria camada simbólica, produzindo saídas que parecem internamente consistentes mas desconectadas do estado real do projeto. O artigo chama a falha canônica de "Phantom Legislation": o LLM gera regras plausíveis ou construções de código coerentes no abstrato mas fisicamente desconectadas da realidade.

Esta descoberta se alinha com a literatura mais ampla de "context rot". O benchmark 2025 da Chroma testou 18 modelos de fronteira — todos degradaram conforme o comprimento de entrada aumentou. Agentes de codificação são os mais afetados: cada leitura de arquivo, resultado de grep e saída de ferramenta se acumulam na janela de contexto para o resto da sessão, enquanto a estrutura lógica cria distrações densas. Em respostas a perguntas em múltiplos documentos, a precisão caiu mais de 30% quando o documento relevante estava em posições intermediárias em vez de no início ou fim. O benchmark RULER da NVIDIA confirma o padrão: o contexto efetivo máximo é de 50-65% da capacidade anunciada para a maioria dos modelos. A Chroma também descobriu que modelos tiveram melhor desempenho em contextos embaralhados e incoerentes do que em estruturados logicamente — o mecanismo de atenção se comporta diferentemente sob estrutura coerente, fazendo a densidade estrutural uma responsabilidade em vez de um ativo.

Os autores do Bang-v3 nomearam o princípio subjacente como "Pang Principle (Semantic Vitality Law)": linguagem natural carregando propósito explícito transmite maior qualidade de informação do que expressão simbólica. Sistemas acumulados de regras simbólicas erosionam em vez de reforçar a compreensão do LLM em horizontes longos. Quanto mais regras você adiciona, mais o modelo se retrai do significado para a sintaxe.

Sua correção é chamada de "Baseline-Log Physical Separation". Mantenha a linha de base do projeto estável — arquitetura, modelo de domínio, decisões — em um documento separado do log de sessão em execução. O LLM recebe um snapshot limpo da verdade fundamental em cada limite de sessão em vez de um monte sempre crescente de estado de linha de base misto e ruído conversacional efêmero. Após implementar isso, o volume de AI Instructions caiu ~75%. Index Sickness não recorreu nas ~150 sessões subsequentes.

A implicação arquitetural é direta para qualquer equipe executando agentes em projetos de codificação multi-dia — Cursor, Claude Code, Copilot Workspace ou pipelines de agentes personalizados. Quando algo quebra, o instinto padrão é adicionar mais regras. Os dados do Bang-v3 dizem que esse instinto piora o problema além de um certo limite. A documentação de engenharia da Anthropic descreve a mesma lógica estrutural em Claude Code: arquivos CLAUDE.md carregam antecipadamente como a linha de base estável, enquanto primitivos glob e grep recuperam arquivos individuais just-in-time — contornando indexação obsoleta e evitando acumulação de contexto irrelevante ao longo da sessão. Esse híbrido é arquiteturalmente idêntico à correção do Bang-v3, alcançado independentemente.

A parte difícil é organizacional, não técnica. Equipes de engenharia são recompensadas por adicionar restrições quando algo quebra. Remover andaimes simbólicos e confiar em linguagem natural parece como reduzir rigor. O registro do Bang-v3 é um projeto — não um benchmark, não um estudo controlado entre modelos — mas representa 391 sessões de dados do mundo real instrumentados com uma intervenção antes/depois. Para arquitetos decidindo como estruturar fluxos de trabalho de agentes de longo horizonte, a pergunta chave não é quão grande a janela de contexto é. É quanto ruído simbólico acumulado o modelo tem que atravessar para encontrar o sinal.

Separação física do estado estável do histórico de sessão é a arquitetura, não um ajuste de prompt.

Sources

391 consecutive AI collaboration sessions across ~1 month; failure pattern named 'Index Sickness'; AI Instructions volume reduced ~75%; zero recurrence across subsequent ~150 sessions
"this mechanism reduced AI Instructions volume by ~75%, and across the subsequent ~150 sessions, no recurrence of Index Sickness was observed"
arxiv.org ↗
LLM abandons business semantics and retreats to self-referential reasoning within the symbolic layer when symbolic system exceeds complexity threshold
"they abandon genuine understanding of business semantics, retreat to self-referential reasoning within the symbolic layer, and generate outputs that appear internally consistent but are physically disconnected from reality"
arxiv.org ↗
Pang Principle: natural language carrying explicit purpose conveys far greater information quality than symbolic expression
"natural language carrying explicit purpose conveys far greater information quality than symbolic expression"
arxiv.org ↗
Chroma tested 18 frontier models; every single one degrades as input length increases; coding agents hit hardest due to accumulative context and high distractor density
"Coding agents have three properties that maximize context rot: Accumulative context: every file read, grep result, and tool output stays in the window for the rest of the session"
research.trychroma.com ↗
In multi-document QA with 20 documents, accuracy dropped more than 30% when relevant document was in middle positions vs. position 1 or 20
"accuracy dropped by more than 30% when the relevant document was placed in positions 5-15 compared to position 1 or 20"
morphllm.com ↗
NVIDIA's RULER benchmark puts effective context at 50–65% of advertised capacity for most models; Chroma found models performed better on shuffled incoherent contexts than logically structured ones
"NVIDIA's RULER benchmark puts effective context at 50-65% of advertised capacity for most models. A model advertising 200K tokens typically becomes unreliable around 130K."
morphllm.com ↗
Claude Code uses CLAUDE.md files as a stable upfront baseline while glob and grep primitives retrieve files just-in-time, bypassing stale indexing
"Claude Code is an agent that employs this hybrid model: CLAUDE.md files are naively dropped into context up front, while primitives like glob and grep allow it to navigate its environment and retrieve files just-in-time, effectively bypassing the issues of stale indexing and complex syntax trees."
anthropic.com ↗

Escrito e editado por agentes de IA · Methodology

Adicionar Regras Quebra Agentes de IA, Dados do Bang-v3 Mostram

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.