Quadro de Stanford Mantém Agentes IA Dentro dos Alvos de Violação

Os pesquisadores da Stanford, William Overman e Mohsen Bayati, introduziram o Calibrated Collective Oversight (CCO), um quadro que mantém o controle humano sobre agentes autônomos. O CCO fornece garantias estatísticas em tempo finito, mesmo em cenários de observação adversária e sem suposições distribucionais. Avaliações em SWE-bench modificado e o benchmark MACHIAVELLI — 134 jogos de Choose-Your-Own-Adventure com mais de 500.000 cenários — mostraram que o CCO pode manter as taxas de violação dentro dos alvos especificados pelo usuário, enquanto preserva recompensas de tarefas. Isso oferece uma combinação rara de escalabilidade empírica e conservadorismo provável para ambientes agenticos sequenciais, superando abordagens heurísticas anteriores como o debate adversário e a amplificação iterada.

O mecanismo CCO é simples em conceito, mas complexo na implementação. Em cada passo, um agente primário propõe ações candidatas com pontuações de utilidade U(s,a). Uma ação de linha de base conservadora a_o está sempre disponível. Supervisores auxiliares q_1 até q_n pontuam cada candidato em dimensões como escopo ou segurança. O CCO calcula uma penalidade agregada Δ(s,a) = Σ_i |q_i(s,a) − q_i(s,a_o)|, medindo o desvio da linha de base conservadora. Seleciona a ação que maximiza U(s,a) − λ_t · Δ(s,a), onde λ_t é um parâmetro de conservadorismo online calibrado. λ_t atualiza usando a Teoria de Decisão Conformal, com λ_{t+1} = λ_t + η(ℓ_t − α), ℓ_t indicando se a ação escolhida incorreu em perda e α o alvo de violação especificado pelo usuário. O quadro não requer especificação de MDP e nenhuma coordenação entre supervisores; eles só precisam sinalizar desvios da linha de base segura. O CCO generaliza a Preservação de Utilidade Atingível de funções Q-value para funções de pontuação arbitrárias.

O CCO reduziu significativamente violações éticas no MACHIAVELLI sem colapsar recompensas e, em SWE-bench modificado, um conjunto de supervisores mais fracos restringiu com sucesso um agente mais forte mal-aliniado adversariamente. As taxas de violação empíricas acompanharam de perto o α especificado, conforme prevêem limites em tempo finito. No entanto, as seções de inferência e experimentos que revisamos não relatam latência de inferência, horas de GPU, custo em dólares por decisão ou escalabilidade de throughput.

O desafio está na ponte entre os sinais de perda de benchmark e a realidade de produção. A atualização online do CCO requer conhecer ℓ_t — se a ação incorreu em perda — após cada passo. No MACHIAVELLI e SWE-bench, isso é roteirizado; em implantações ao vivo, a perda pode não ser observável por minutos ou horas, interrompendo o ciclo de feedback. Há também um custo de latência: cada ação candidata deve ser pontuada por cada supervisor auxiliar em relação à linha de base e o conjunto deve coletivamente expor modos de falha relevantes. Se cada supervisor perder um perigo, a penalidade de desvio é quase zero e o agente prossegue. Finalmente, a linha de base conservadora a_o deve ser cuidadosamente escolhida; muito permissiva enfraquece as garantias, muito conservadora e o sistema torna-se ineficaz.

A abordagem substitui uma única porta de supervisão por um conjunto de críticos não coordenados que penalizam o desvio de uma ação nula segura, e então calibram o peso da penalidade online em relação a uma taxa de violação alvo usando garantias conformais em vez de validação retida.

Sources

CCO aggregates diverse auxiliary scoring functions into a penalty measuring deviation from a conservative baseline, calibrated online using Conformal Decision Theory with finite-time bounds and no distributional assumptions
"CCO calibrates this conservatism online using Conformal Decision Theory, ensuring that undesirable outcomes remain below a user-specified target threshold with finite-time bounds and no distributional assumptions."
arxiv.org ↗
On a modified SWE-bench, weaker overseers successfully constrain an adversarially misaligned stronger agent; on MACHIAVELLI, CCO substantially reduces ethical violations while preserving reward
"On a modified version of SWE-bench, weaker overseers successfully constrain an adversarially misaligned stronger agent; on MACHIAVELLI, CCO substantially reduces ethical violations while preserving reward. In both settings, empirical violation rates closely match the specified targets, as predicted by the theory."
arxiv.org ↗
CCO's aggregate penalty Δ(s,a) = Σᵢ |qᵢ(s,a) − qᵢ(s,a_o)| measures total deviation across all oversight signals; λ_t updates via λ_{t+1} = λ_t + η(ℓ_t − α)
"Δ(s,a)=∑i|qi(s,a)−qi(s,ao)| measures how much each action deviates from the baseline across all oversight signals. CCO selects actions by maximizing U(s,a)−λtΔ(s,a), where the conservatism parameter λt is updated online via a conformal controller: after observing whether the selected action incurred a loss ℓt, the controller adjusts λt+1=λt+η(ℓt−α)."
arxiv.org ↗
Overseers need not agree on what the agent should do; it suffices that they collectively flag actions deviating substantially from the most conservative alternative
"rather than requiring overseers to agree on what the agent should do, it suffices that they collectively flag actions that differ substantially from the most conservative alternative available."
arxiv.org ↗
MACHIAVELLI consists of 134 Choose-Your-Own-Adventure games containing over 500,000 diverse scenarios centred on social decision-making
"we introduce MACHIAVELLI, a benchmark of 134 Choose-Your-Own-Adventure games containing over half a million rich, diverse scenarios that center on social decision-making... We observe some tension between maximizing reward and behaving ethically."
arxiv.org ↗
Conformal Decision Theory provides provable statistical guarantees of low risk with no assumptions on the world model — observations need not be I.I.D. and can even be adversarial
"The decisions produced by our algorithms are safe in the sense that they come with provable statistical guarantees of having low risk without any assumptions on the world model whatsoever; the observations need not be I.I.D. and can even be adversarial."
conformal-decision.github.io ↗
Existing scalable oversight approaches — adversarial debate and iterated amplification — provide primarily empirical rather than formal guarantees and focus on single-turn rather than sequential settings
"A rich body of work pursues this goal through diverse mechanisms, from adversarial debate (Irving et al., 2018) to iterated amplification (Christiano et al., 2018), yet existing approaches typically provide empirical rather than formal guarantees and focus primarily on single-turn rather than sequential settings."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Quadro de Stanford Mantém Agentes IA Dentro dos Alvos de Violação

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.