CIVeX Registra Zero Execuções Falsas em Workflows Confundidos

CIVeX, um verificador causal publicado esta semana por Fabio Rovai da The Tesseract Academy, preenche uma lacuna em segurança de agentes: verifica se uma ação proposta causará um resultado específico antes da execução. Em um benchmark de 1.890 instâncias de teste, o CIVeX registrou zero execuções falsas sob confundimento moderado e adversarial.

O sistema visa corrigir uma falha em agentes atuais que usam ferramentas. Validadores de schema confirmam se uma chamada é bem-formada. Filtros de política confirmam se é permitida. Rastreadores de proveniência registram de onde vieram os inputs. Preditores de estado preveem o estado pós-chamada. Nenhum responde à pergunta crítica: esta ação realmente produz o resultado que o agente espera? Em workflows confundidos—ambientes com variáveis latentes que influenciam tanto a seleção de ações quanto resultados—uma ação correlacionada com alta utilidade em logs observacionais pode reduzir utilidade quando executada. Stacks de segurança atuais não capturam este modo de falha.

O mecanismo do CIVeX é preciso. Dada uma ação proposta, ele constrói uma consulta causal estruturada da forma E[Y | do(T=t)] sobre um grafo ação-estado comprometido, depois verifica se aquela consulta é identificável usando ajuste backdoor, ajuste frontdoor ou variáveis instrumentais. O verificador retorna um de quatro vereditos—EXECUTE, REJECT, EXPERIMENT ou ABSTAIN—cada um apoiado por um certificado causal. O certificado carrega comprometimentos de grafo, um argumento de identificação, um limite de confiança unilateral mais baixo, metadados de proveniência e uma asserção de limite de risco. Sem um certificado válido, a ação não dispara.

No Causal-ToolBench, um benchmark de seis workflows que usam ferramentas em 1.890 instâncias com 7 sementes aleatórias, o CIVeX alcançou zero execuções falsas sob confundimento moderado e adversarial. Sob confundimento adversarial, alcançou 84,9% de acurácia e capturou 81,1% da utilidade do oráculo (+2,23 versus +2,76 do oráculo, IC 95% [2,16, 2,31]). Foi o único método não-oráculo cuja utilidade restrita, sob uma restrição hard de zero execuções falsas, excedeu o baseline AlwaysAbstain de +0,99. Em dois datasets externos—o benchmark semi-sintético IHDP e o corpus ZOZO Open Bandit—o CIVeX igualou a execução correta do oráculo dentro de 0,1 pontos percentuais e reduziu execução falsa por-execução em pelo menos 50× contra baselines ingênuos.

O artigo faz benchmark de verificadores LLM com chain-of-thought como baseline. Claude Opus e Sonnet com chain-of-thought completo reduziram execução falsa em aproximadamente uma ordem de magnitude comparado com prompting terse. Sob confundimento adversarial, a utilidade do Opus caiu para 74% da do CIVeX, e Sonnet reteve uma taxa de execução falsa residual de 1,0%. A diferença reflete uma proposição formal no artigo: qualquer verificador que decida a partir de sinal observacional incorre em uma taxa de execução falsa não menor que a fração de armadilha em um ambiente confundido. Modelos de linguagem não podem escapar desse limite sem análise de identificabilidade.

Para arquitetos de empresa implementando pipelines agênticos sobre sistemas stateful—databases SQL, APIs ERP, camadas de execução financeira, orquestradores de infraestrutura—o CIVeX oferece um ponto de inserção concreto. Fica a jusante de validadores existentes e a montante da execução, adicionando a verificação de identificabilidade que outros sistemas ignoram. A interface de quatro vereditos habilita workflows com humano-no-loop: vereditos EXPERIMENT aparecem como requisições de coleta de dados; vereditos ABSTAIN escalam para revisão humana. O certificado causal serve como artefato de conformidade, dando aos auditores um registro reexecutável de por que cada ação foi ou não foi executada.

A garantia do CIVeX depende de grafos causais corretos. O artigo delimita a infraestrutura necessária para enforçar correção—versionamento de grafo, assinatura e monitoramento de drift—e a sinaliza como pré-requisito mas não a entrega. Para implementações em produção, essa infraestrutura é o problema difícil. O CIVeX resolve verificação de identificabilidade; não resolve manutenção de grafo em escala.

O benchmark, Causal-ToolBench, é liberado com o artigo. Cobre seis categorias de workflow projetadas para stress-testar cenários de confundimento. Adoção depende de se os times estão dispostos a se comprometer com grafos causais explícitos—um esforço organizacional além de integração de biblioteca. Para os que o fazem, o registro de zero execuções falsas em 1.890 instâncias de teste é uma atualização forte.

Sources

CIVeX returns one of four auditable verdicts — EXECUTE, REJECT, EXPERIMENT, or ABSTAIN — and logs zero observed false executions under both moderate and adversarial confounding
"On Causal-ToolBench (1,890 instances, 7 seeds), CIVeX yields zero observed false executions across moderate and adversarial confounding."
arxiv.org ↗
CIVeX constructs a structural causal query E[Y | do(T=t)] and checks identifiability using backdoor adjustment, frontdoor adjustment, or instrumental variables
"CIVeX maps a proposed action to a structural causal query of the form E[Y∣do(T=t)], evaluates whether this query is identifiable under the committed graph using a finite set of standard tools (backdoor adjustment, frontdoor adjustment, or instrumental variables when applicable)"
arxiv.org ↗
Execution requires a causal certificate carrying graph commitments, an identification argument, a one-sided lower confidence bound, provenance, and risk limits
"Execution requires an assumption-scoped causal certificate carrying graph commitments, an identification argument, a one-sided lower confidence bound (LCB), provenance, and risk limits."
arxiv.org ↗
Under adversarial confounding, CIVeX reaches 84.9% accuracy and 81.1% of oracle utility (+2.23 vs +2.76, 95% CI [2.16, 2.31])
"Under adversarial confounding it reaches 84.9% accuracy and 81.1% of oracle utility (+2.23 vs +2.76; 95% CI [2.16, 2.31])"
arxiv.org ↗
CIVeX is the only non-oracle method whose constrained utility under a zero-false-execution constraint exceeds the AlwaysAbstain floor of +0.99
"is the only non-oracle method whose constrained utility under a hard zero-false-execution constraint exceeds the AlwaysAbstain floor of +0.99"
arxiv.org ↗
On IHDP and ZOZO Open Bandit, CIVeX matches Oracle correct-execution within 0.1pp and cuts per-execute false-execution by at least 50× over naive baselines
"On IHDP and ZOZO Open Bandit (real production logs with uniform-random ground truth), CIVeX matches Oracle correct-execution within 0.1pp and cuts per-execute false-execution by ≥50× over naive baselines."
arxiv.org ↗
Claude Opus with chain-of-thought sees utility fall to 74% of CIVeX's under adversarial confounding; Sonnet retains 1.0% false-execution
"under adversarial confounding Opus's utility falls to 74% of CIVeX's and Sonnet retains 1.0% false-execution"
arxiv.org ↗
Any verifier deciding from observational sign incurs false-execution rate at least the trap fraction in confounded environments
"any verifier deciding from observational sign incurs false-execution rate at least the trap fraction in confounded environments"
arxiv.org ↗
CIVeX does not predict actions, learn graphs from data, or replace existing validators — it adds the layer they do not provide
"CIVeX does not predict actions; it gates them. It does not learn graphs from data; it commits to a graph and checks identifiability. It does not replace existing validators; it adds the layer they do not provide."
arxiv.org ↗
The safety guarantee is conditional on the committed graph being correct; graph versioning, signing, and drift monitoring are scoped out as prerequisites
"CIVeX does not, on its own, guarantee safety: the safety guarantee is conditional on the committed graph being correct, an assumption that in production must be supported by a graph-commitment infrastructure (versioning, signing, drift monitoring) outside the scope of this paper."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

CIVeX Registra Zero Execuções Falsas em Workflows Confundidos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.