CIVeX Registra Cero Ejecuciones Falsas en Flujos Confundidos

CIVeX, un verificador causal publicado esta semana por Fabio Rovai de The Tesseract Academy, cubre una brecha en seguridad de agentes: verifica si una acción propuesta causará un resultado específico antes de la ejecución. En un benchmark de 1.890 instancias de prueba, CIVeX registró cero ejecuciones falsas bajo confusión moderada y adversarial.

El sistema apunta a una falla en los agentes actuales que usan herramientas. Los validadores de esquema confirman si una llamada está bien formada. Los filtros de política confirman si está permitida. Los rastreadores de procedencia registran de dónde vinieron los insumos. Los predictores de estado pronostican el estado posterior a la llamada. Ninguno responde la pregunta crítica: ¿esta acción realmente produce el resultado que el agente espera? En flujos confundidos—entornos con variables latentes que influyen tanto en la selección de acciones como en los resultados—una acción correlacionada con alta utilidad en registros observacionales puede reducir utilidad cuando se ejecuta. Los stacks de seguridad actuales no detectan este modo de falla.

El mecanismo de CIVeX es preciso. Dada una acción propuesta, construye una consulta causal estructurada de la forma E[Y | do(T=t)] sobre un grafo acción-estado comprometido, luego verifica si esa consulta es identificable usando ajuste backdoor, ajuste frontdoor o variables instrumentales. El verificador devuelve uno de cuatro veredictos—EXECUTE, REJECT, EXPERIMENT o ABSTAIN—cada uno respaldado por un certificado causal. El certificado contiene compromisos de grafo, un argumento de identificación, un límite de confianza unilateral inferior, metadatos de procedencia y una aseveración de límite de riesgo. Sin un certificado válido, la acción no se dispara.

En Causal-ToolBench, un benchmark de seis flujos que usan herramientas en 1.890 instancias con 7 semillas aleatorias, CIVeX logró cero ejecuciones falsas bajo confusión moderada y adversarial. Bajo confusión adversarial, alcanzó 84,9% de precisión y capturó 81,1% de la utilidad del oráculo (+2,23 versus +2,76 del oráculo, IC 95% [2,16, 2,31]). Fue el único método no oráculo cuya utilidad restringida, bajo una restricción fuerte de cero ejecuciones falsas, superó la línea base AlwaysAbstain de +0,99. En dos conjuntos de datos externos—el benchmark semi-sintético IHDP y el corpus ZOZO Open Bandit—CIVeX igualó la ejecución correcta del oráculo dentro de 0,1 puntos porcentuales y redujo la ejecución falsa por ejecución en al menos 50× contra líneas base ingenuas.

El artículo evalúa verificadores LLM con chain-of-thought como línea base. Claude Opus y Sonnet con chain-of-thought completo redujeron la ejecución falsa aproximadamente un orden de magnitud comparado con prompting breve. Bajo confusión adversarial, la utilidad de Opus cayó al 74% de la de CIVeX, y Sonnet retuvo una tasa de ejecución falsa residual de 1,0%. La brecha refleja una proposición formal en el artículo: cualquier verificador que decida basándose en señal observacional incurre en una tasa de ejecución falsa no menor que la fracción de trampa en un entorno confundido. Los modelos de lenguaje no pueden escapar ese límite sin análisis de identificabilidad.

Para arquitectos empresariales que implementan canalizaciones de agentes sobre sistemas con estado—bases de datos SQL, APIs ERP, capas de ejecución financiera, orquestadores de infraestructura—CIVeX ofrece un punto de inserción concreto. Se sitúa a continuación de validadores existentes y aguas arriba de la ejecución, agregando la verificación de identificabilidad que otros sistemas omiten. La interfaz de cuatro veredictos habilita flujos de trabajo con humano en el circuito: veredictos EXPERIMENT aparecen como solicitudes de recopilación de datos; veredictos ABSTAIN se escalan a revisión humana. El certificado causal sirve como artefacto de cumplimiento, dando a los auditores un registro reexecutable de por qué cada acción fue o no fue ejecutada.

La garantía de CIVeX depende de grafos causales correctos. El artículo delimita la infraestructura necesaria para hacer cumplir la corrección—versionamiento de grafo, firma y monitoreo de deriva—y la marca como prerrequisito pero no la entrega. Para implementaciones en producción, esa infraestructura es el problema difícil. CIVeX resuelve la verificación de identificabilidad; no resuelve el mantenimiento de grafo a escala.

El benchmark, Causal-ToolBench, se publica con el artículo. Cubre seis categorías de flujo diseñadas para probar estrés en escenarios de confusión. La adopción depende de si los equipos están dispuestos a comprometerse con grafos causales explícitos—un esfuerzo organizacional más allá de la integración de bibliotecas. Para aquellos que lo hacen, el registro de cero ejecuciones falsas en 1.890 instancias de prueba es una actualización sólida.

Sources

CIVeX returns one of four auditable verdicts — EXECUTE, REJECT, EXPERIMENT, or ABSTAIN — and logs zero observed false executions under both moderate and adversarial confounding
"On Causal-ToolBench (1,890 instances, 7 seeds), CIVeX yields zero observed false executions across moderate and adversarial confounding."
arxiv.org ↗
CIVeX constructs a structural causal query E[Y | do(T=t)] and checks identifiability using backdoor adjustment, frontdoor adjustment, or instrumental variables
"CIVeX maps a proposed action to a structural causal query of the form E[Y∣do(T=t)], evaluates whether this query is identifiable under the committed graph using a finite set of standard tools (backdoor adjustment, frontdoor adjustment, or instrumental variables when applicable)"
arxiv.org ↗
Execution requires a causal certificate carrying graph commitments, an identification argument, a one-sided lower confidence bound, provenance, and risk limits
"Execution requires an assumption-scoped causal certificate carrying graph commitments, an identification argument, a one-sided lower confidence bound (LCB), provenance, and risk limits."
arxiv.org ↗
Under adversarial confounding, CIVeX reaches 84.9% accuracy and 81.1% of oracle utility (+2.23 vs +2.76, 95% CI [2.16, 2.31])
"Under adversarial confounding it reaches 84.9% accuracy and 81.1% of oracle utility (+2.23 vs +2.76; 95% CI [2.16, 2.31])"
arxiv.org ↗
CIVeX is the only non-oracle method whose constrained utility under a zero-false-execution constraint exceeds the AlwaysAbstain floor of +0.99
"is the only non-oracle method whose constrained utility under a hard zero-false-execution constraint exceeds the AlwaysAbstain floor of +0.99"
arxiv.org ↗
On IHDP and ZOZO Open Bandit, CIVeX matches Oracle correct-execution within 0.1pp and cuts per-execute false-execution by at least 50× over naive baselines
"On IHDP and ZOZO Open Bandit (real production logs with uniform-random ground truth), CIVeX matches Oracle correct-execution within 0.1pp and cuts per-execute false-execution by ≥50× over naive baselines."
arxiv.org ↗
Claude Opus with chain-of-thought sees utility fall to 74% of CIVeX's under adversarial confounding; Sonnet retains 1.0% false-execution
"under adversarial confounding Opus's utility falls to 74% of CIVeX's and Sonnet retains 1.0% false-execution"
arxiv.org ↗
Any verifier deciding from observational sign incurs false-execution rate at least the trap fraction in confounded environments
"any verifier deciding from observational sign incurs false-execution rate at least the trap fraction in confounded environments"
arxiv.org ↗
CIVeX does not predict actions, learn graphs from data, or replace existing validators — it adds the layer they do not provide
"CIVeX does not predict actions; it gates them. It does not learn graphs from data; it commits to a graph and checks identifiability. It does not replace existing validators; it adds the layer they do not provide."
arxiv.org ↗
The safety guarantee is conditional on the committed graph being correct; graph versioning, signing, and drift monitoring are scoped out as prerequisites
"CIVeX does not, on its own, guarantee safety: the safety guarantee is conditional on the committed graph being correct, an assumption that in production must be supported by a graph-commitment infrastructure (versioning, signing, drift monitoring) outside the scope of this paper."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

CIVeX Registra Cero Ejecuciones Falsas en Flujos Confundidos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.