Marco de Stanford Mantiene a los Agentes de IA Dentro de los Objetivos de Violación

Los investigadores de Stanford William Overman y Mohsen Bayati han presentado el Control Colegiado Calibrado (CCO), un marco que mantiene el control humano sobre agentes autónomos. El CCO proporciona garantías estadísticas a tiempo finito, incluso en escenarios de observación adversarial y sin suposiciones distribucionales. Evaluaciones en SWE-bench modificado y el benchmark MACHIAVELLI, que incluye 134 juegos de elección propia con más de 500.000 escenarios, mostraron que el CCO puede mantener las tasas de violación dentro de los objetivos especificados por el usuario mientras preserva las recompensas de la tarea. Esto ofrece una combinación rara de escalabilidad empírica y conservadurismo comprobable para entornos secuenciales de agentes, superando en ello enfoques heurísticos previos como el debate adversarial e amplificación iterada.

El mecanismo CCO es sencillo en concepto pero complejo en implementación. En cada paso, un agente principal propone acciones candidatas con puntuaciones de utilidad U(s,a). Siempre está disponible una acción de línea base conservadora a_o. Supervisores auxiliares q_1 a q_n puntúan cada candidata en dimensiones como alcance o seguridad. El CCO calcula una penalización agregada Δ(s,a) = Σ_i |q_i(s,a) − q_i(s,a_o)|, midiendo la desviación de la línea base conservadora. Selecciona la acción que maximice U(s,a) − λ_t · Δ(s,a), donde λ_t es un parámetro de conservadurismo calibrado en línea. λ_t se actualiza utilizando la Teoría de Decisión Conformal, con λ_{t+1} = λ_t + η(ℓ_t − α), ℓ_t indicando si la acción elegida incurrió en una pérdida y α el objetivo de violación especificado por el usuario. El marco no requiere especificación de MDP ni coordinación de supervisores; solo necesitan señalar desviaciones de la línea base segura. El CCO generaliza la Preservación de Utilidad Alcanzada de las funciones Q a funciones de puntuación arbitrarias.

El CCO redujo significativamente las violaciones éticas en MACHIAVELLI sin colapsar las recompensas, y en SWE-bench modificado, una combinación de supervisores más débiles logró contener a un agente más fuerte mal alineado de forma adversarial. Las tasas de violación empíricas siguieron de cerca el α especificado, como predicen los límites a tiempo finito. Sin embargo, las secciones de inferencia y experimentos que revisamos no informan sobre latencia de inferencia, horas de GPU, costo en dólares por decisión o rendimiento a escala.

El desafío radica en cerrar la brecha entre las señales de pérdida de los benchmarks y la realidad de producción. La actualización en línea del CCO requiere conocer ℓ_t, es decir, si la acción incurrió en una pérdida, después de cada paso. En MACHIAVELLI y SWE-bench, esto está programado; en implementaciones en vivo, la pérdida puede no ser observable durante minutos o horas, interrumpiendo el ciclo de retroalimentación. También hay un costo de latencia: cada acción candidata debe ser puntuada por cada supervisor auxiliar en contra de la línea base, y la combinación debe colectivamente exponer los modos de fallo relevantes. Si cada supervisor omite un peligro, la penalización de desviación es casi cero, y el agente procede. Finalmente, la línea base conservadora a_o debe ser cuidadosamente elegida; demasiado permisiva debilita las garantías, demasiado conservadora, y el sistema se vuelve ineficaz.

El enfoque reemplaza una sola puerta de supervisión con una combinación de críticos no coordinados que penalizan la desviación de una acción nula segura, luego calibra el peso de la penalización en línea contra una tasa de violación objetivo utilizando garantías conformes en lugar de validación retenida.

Sources

CCO aggregates diverse auxiliary scoring functions into a penalty measuring deviation from a conservative baseline, calibrated online using Conformal Decision Theory with finite-time bounds and no distributional assumptions
"CCO calibrates this conservatism online using Conformal Decision Theory, ensuring that undesirable outcomes remain below a user-specified target threshold with finite-time bounds and no distributional assumptions."
arxiv.org ↗
On a modified SWE-bench, weaker overseers successfully constrain an adversarially misaligned stronger agent; on MACHIAVELLI, CCO substantially reduces ethical violations while preserving reward
"On a modified version of SWE-bench, weaker overseers successfully constrain an adversarially misaligned stronger agent; on MACHIAVELLI, CCO substantially reduces ethical violations while preserving reward. In both settings, empirical violation rates closely match the specified targets, as predicted by the theory."
arxiv.org ↗
CCO's aggregate penalty Δ(s,a) = Σᵢ |qᵢ(s,a) − qᵢ(s,a_o)| measures total deviation across all oversight signals; λ_t updates via λ_{t+1} = λ_t + η(ℓ_t − α)
"Δ(s,a)=∑i|qi(s,a)−qi(s,ao)| measures how much each action deviates from the baseline across all oversight signals. CCO selects actions by maximizing U(s,a)−λtΔ(s,a), where the conservatism parameter λt is updated online via a conformal controller: after observing whether the selected action incurred a loss ℓt, the controller adjusts λt+1=λt+η(ℓt−α)."
arxiv.org ↗
Overseers need not agree on what the agent should do; it suffices that they collectively flag actions deviating substantially from the most conservative alternative
"rather than requiring overseers to agree on what the agent should do, it suffices that they collectively flag actions that differ substantially from the most conservative alternative available."
arxiv.org ↗
MACHIAVELLI consists of 134 Choose-Your-Own-Adventure games containing over 500,000 diverse scenarios centred on social decision-making
"we introduce MACHIAVELLI, a benchmark of 134 Choose-Your-Own-Adventure games containing over half a million rich, diverse scenarios that center on social decision-making... We observe some tension between maximizing reward and behaving ethically."
arxiv.org ↗
Conformal Decision Theory provides provable statistical guarantees of low risk with no assumptions on the world model — observations need not be I.I.D. and can even be adversarial
"The decisions produced by our algorithms are safe in the sense that they come with provable statistical guarantees of having low risk without any assumptions on the world model whatsoever; the observations need not be I.I.D. and can even be adversarial."
conformal-decision.github.io ↗
Existing scalable oversight approaches — adversarial debate and iterated amplification — provide primarily empirical rather than formal guarantees and focus on single-turn rather than sequential settings
"A rich body of work pursues this goal through diverse mechanisms, from adversarial debate (Irving et al., 2018) to iterated amplification (Christiano et al., 2018), yet existing approaches typically provide empirical rather than formal guarantees and focus primarily on single-turn rather than sequential settings."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Marco de Stanford Mantiene a los Agentes de IA Dentro de los Objetivos de Violación

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.