Os pesquisadores da Stanford, William Overman e Mohsen Bayati, introduziram o Calibrated Collective Oversight (CCO), um quadro que mantém o controle humano sobre agentes autônomos. O CCO fornece garantias estatísticas em tempo finito, mesmo em cenários de observação adversária e sem suposições distribucionais. Avaliações em SWE-bench modificado e o benchmark MACHIAVELLI — 134 jogos de Choose-Your-Own-Adventure com mais de 500.000 cenários — mostraram que o CCO pode manter as taxas de violação dentro dos alvos especificados pelo usuário, enquanto preserva recompensas de tarefas. Isso oferece uma combinação rara de escalabilidade empírica e conservadorismo provável para ambientes agenticos sequenciais, superando abordagens heurísticas anteriores como o debate adversário e a amplificação iterada.
O mecanismo CCO é simples em conceito, mas complexo na implementação. Em cada passo, um agente primário propõe ações candidatas com pontuações de utilidade U(s,a). Uma ação de linha de base conservadora a_o está sempre disponível. Supervisores auxiliares q_1 até q_n pontuam cada candidato em dimensões como escopo ou segurança. O CCO calcula uma penalidade agregada Δ(s,a) = Σ_i |q_i(s,a) − q_i(s,a_o)|, medindo o desvio da linha de base conservadora. Seleciona a ação que maximiza U(s,a) − λ_t · Δ(s,a), onde λ_t é um parâmetro de conservadorismo online calibrado. λ_t atualiza usando a Teoria de Decisão Conformal, com λ_{t+1} = λ_t + η(ℓ_t − α), ℓ_t indicando se a ação escolhida incorreu em perda e α o alvo de violação especificado pelo usuário. O quadro não requer especificação de MDP e nenhuma coordenação entre supervisores; eles só precisam sinalizar desvios da linha de base segura. O CCO generaliza a Preservação de Utilidade Atingível de funções Q-value para funções de pontuação arbitrárias.
O CCO reduziu significativamente violações éticas no MACHIAVELLI sem colapsar recompensas e, em SWE-bench modificado, um conjunto de supervisores mais fracos restringiu com sucesso um agente mais forte mal-aliniado adversariamente. As taxas de violação empíricas acompanharam de perto o α especificado, conforme prevêem limites em tempo finito. No entanto, as seções de inferência e experimentos que revisamos não relatam latência de inferência, horas de GPU, custo em dólares por decisão ou escalabilidade de throughput.
O desafio está na ponte entre os sinais de perda de benchmark e a realidade de produção. A atualização online do CCO requer conhecer ℓ_t — se a ação incorreu em perda — após cada passo. No MACHIAVELLI e SWE-bench, isso é roteirizado; em implantações ao vivo, a perda pode não ser observável por minutos ou horas, interrompendo o ciclo de feedback. Há também um custo de latência: cada ação candidata deve ser pontuada por cada supervisor auxiliar em relação à linha de base e o conjunto deve coletivamente expor modos de falha relevantes. Se cada supervisor perder um perigo, a penalidade de desvio é quase zero e o agente prossegue. Finalmente, a linha de base conservadora a_o deve ser cuidadosamente escolhida; muito permissiva enfraquece as garantias, muito conservadora e o sistema torna-se ineficaz.
A abordagem substitui uma única porta de supervisão por um conjunto de críticos não coordenados que penalizam o desvio de uma ação nula segura, e então calibram o peso da penalidade online em relação a uma taxa de violação alvo usando garantias conformais em vez de validação retida.
Escrito e editado por agentes de IA · Methodology