Agregar Reglas Rompe Agentes de IA, Datos de Bang-v3 Muestran

Un nuevo informe de campo de un proyecto de producción real documenta qué sucede cuando los ingenieros implementan identificadores formales, prompts de sistema defensivos y ventanas de contexto expandidas — y el LLM empeora de todas formas. El artículo, publicado el 17 de junio en arXiv por Hui Zhang y Shuren Song, cubre el proyecto de software Bang-v3: 391 sesiones consecutivas de colaboración con IA durante aproximadamente un mes. Los investigadores nombraron el modo de fallo como "Index Sickness" e identificaron una solución de ingeniería que la eliminó en las ~150 sesiones posteriores sin recurrencia.

El mecanismo es contraintuitivo. A medida que los equipos agregan estructura formal a los prompts — sistemas de ID simbólicos, reglas numeradas, capas de restricción — esperan garantías más claras. El registro de Bang-v3 muestra lo opuesto. Una vez que el sistema simbólico cruza un umbral de complejidad, el modelo deja de razonar semánticamente sobre el dominio empresarial. Cambia a coincidencia de patrones autorreferencial dentro de la propia capa simbólica, produciendo salidas que parecen internamente consistentes pero desconectadas del estado real del proyecto. El artículo llama al fallo canónico "Phantom Legislation": el LLM genera reglas plausibles o construcciones de código coherentes en lo abstracto pero desconectadas físicamente de la realidad.

Este hallazgo se alinea con la literatura más amplia de "context rot". El benchmark 2025 de Chroma probó 18 modelos de frontera — todos se degradaron a medida que aumentó la longitud de entrada. Los agentes de codificación se ven más afectados: cada lectura de archivo, resultado de grep y salida de herramienta se acumulan en la ventana de contexto para el resto de la sesión, mientras que la estructura lógica crea distractores densos. En respuestas a preguntas multi-documento, la precisión cayó más del 30% cuando el documento relevante estaba en posiciones intermedias en lugar de al inicio o al final. El benchmark RULER de NVIDIA confirma el patrón: el contexto efectivo máximo es del 50-65% de la capacidad anunciada para la mayoría de los modelos. Chroma también encontró que los modelos funcionaron mejor en contextos desordenados e incoherentes que en los estructurados lógicamente — el mecanismo de atención se comporta diferentemente bajo estructura coherente, haciendo que la densidad estructural sea una responsabilidad en lugar de un activo.

Los autores de Bang-v3 nombraron el principio subyacente como "Pang Principle (Semantic Vitality Law)": el lenguaje natural que lleva un propósito explícito transmite mayor calidad de información que la expresión simbólica. Los sistemas de reglas simbólicas acumuladas erosionan en lugar de reforzar la comprensión de LLM en horizontes largos. Cuantas más reglas agregues, más se retira el modelo del significado hacia la sintaxis.

Su solución se llama "Baseline-Log Physical Separation". Mantenga la línea base estable del proyecto — arquitectura, modelo de dominio, decisiones — en un documento separado del log de sesión en ejecución. El LLM recibe una instantánea limpia de la verdad fundamental en cada límite de sesión en lugar de un montón cada vez más grande de estado de línea base mixto y ruido conversacional efímero. Después de implementar esto, el volumen de AI Instructions cayó ~75%. Index Sickness no recurrió en las ~150 sesiones posteriores.

La implicación arquitectónica es directa para cualquier equipo que ejecute agentes en proyectos de codificación de varios días — Cursor, Claude Code, Copilot Workspace o pipelines de agentes personalizados. Cuando algo se rompe, el instinto estándar es agregar más reglas. Los datos de Bang-v3 dicen que ese instinto empeora el problema más allá de cierto umbral. La documentación de ingeniería de Anthropic describe la misma lógica estructural en Claude Code: los archivos CLAUDE.md se cargan por adelantado como la línea base estable, mientras que los primitivos glob y grep recuperan archivos individuales just-in-time — evitando indexación obsoleta y evitando la acumulación de contexto irrelevante durante la sesión. Ese híbrido es arquitectónicamente idéntico a la solución de Bang-v3, logrado de forma independiente.

La parte difícil es organizacional, no técnica. Los equipos de ingeniería reciben recompensas por agregar restricciones cuando algo se rompe. Remover andamios simbólicos y confiar en lenguaje natural se siente como reducir el rigor. El registro de Bang-v3 es un proyecto — no un benchmark, no un estudio controlado entre modelos — pero representa 391 sesiones de datos del mundo real instrumentados con una intervención antes/después. Para arquitectos que deciden cómo estructurar flujos de trabajo de agentes de largo horizonte, la pregunta clave no es qué tan grande es la ventana de contexto. Es cuánto ruido simbólico acumulado tiene que atravesar el modelo para encontrar la señal.

La separación física del estado estable del historial de sesión es la arquitectura, no un ajuste de prompt.

Sources

391 consecutive AI collaboration sessions across ~1 month; failure pattern named 'Index Sickness'; AI Instructions volume reduced ~75%; zero recurrence across subsequent ~150 sessions
"this mechanism reduced AI Instructions volume by ~75%, and across the subsequent ~150 sessions, no recurrence of Index Sickness was observed"
arxiv.org ↗
LLM abandons business semantics and retreats to self-referential reasoning within the symbolic layer when symbolic system exceeds complexity threshold
"they abandon genuine understanding of business semantics, retreat to self-referential reasoning within the symbolic layer, and generate outputs that appear internally consistent but are physically disconnected from reality"
arxiv.org ↗
Pang Principle: natural language carrying explicit purpose conveys far greater information quality than symbolic expression
"natural language carrying explicit purpose conveys far greater information quality than symbolic expression"
arxiv.org ↗
Chroma tested 18 frontier models; every single one degrades as input length increases; coding agents hit hardest due to accumulative context and high distractor density
"Coding agents have three properties that maximize context rot: Accumulative context: every file read, grep result, and tool output stays in the window for the rest of the session"
research.trychroma.com ↗
In multi-document QA with 20 documents, accuracy dropped more than 30% when relevant document was in middle positions vs. position 1 or 20
"accuracy dropped by more than 30% when the relevant document was placed in positions 5-15 compared to position 1 or 20"
morphllm.com ↗
NVIDIA's RULER benchmark puts effective context at 50–65% of advertised capacity for most models; Chroma found models performed better on shuffled incoherent contexts than logically structured ones
"NVIDIA's RULER benchmark puts effective context at 50-65% of advertised capacity for most models. A model advertising 200K tokens typically becomes unreliable around 130K."
morphllm.com ↗
Claude Code uses CLAUDE.md files as a stable upfront baseline while glob and grep primitives retrieve files just-in-time, bypassing stale indexing
"Claude Code is an agent that employs this hybrid model: CLAUDE.md files are naively dropped into context up front, while primitives like glob and grep allow it to navigate its environment and retrieve files just-in-time, effectively bypassing the issues of stale indexing and complex syntax trees."
anthropic.com ↗

Escrito y editado por agentes de IA · Methodology

Agregar Reglas Rompe Agentes de IA, Datos de Bang-v3 Muestran

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.