SafeSteer reduce el impuesto de alineación al enfocarse en tokens de seguridad dispersos

Investigadores de la Universidad Beihang, la Universidad de Tecnología de Pekín y la Universidad de Pekín han publicado un artículo en arXiv titulado SafeSteer, que desafía el alto costo de la alineación de seguridad en grandes modelos de lenguaje (LLM). El artículo, publicado el 1 de junio de 2026, sugiere que solo se necesita modificar una pequeña subcolección de tokens en la distribución de salida para la seguridad, y que los métodos de alineación estándar gastan recursos al aplicar correcciones globalmente.

SafeSteer aborda el problema enfocándose en la esparsidad, identificando características de seguridad como una pequeña subcolección de tokens identificables en la distribución de salida. Métodos de alineación tradicionales, como DPO, variantes de RLHF y enfoques de mezcla de datos, aplican correcciones globalmente, afectando tokens de capacidad general que no requieren cambios. Esto resulta en el bien documentado impuesto de alineación. SafeSteer afirma que al destilar solo a los tokens relevantes para la seguridad, se puede eliminar la mayoría del impuesto sin sacrificar el rendimiento de la negativa.

El método opera en tres etapas. Primero, se construye un maestro de seguridad extrayendo una dirección de negativa de las representaciones ocultas del modelo base e inyectándola en el flujo residual a través de la dirección de activación, sin requerir un modelo más fuerte externo. El modelo base, dirigido de esta manera, se convierte en su propio maestro (πt). Segundo, un algoritmo de selección de tokens de seguridad identifica la subcolección S de tokens más sensibles a la dirección de negativa al contrastar las distribuciones de salida por posición del modelo base (π0) y el maestro dirigido (πt) utilizando logaritmo de probabilidad contrastivo, seguido de una pasada de agregación basada en votación. Tercero, durante la destilación on-policy, SafeSteer minimiza la divergencia de KL inversa DKL(πs ‖ πt) solo en los tokens de S; los tokens fuera de S no reciben señal de gradiente y permanecen sin restricciones.

SafeSteer requiere solo 100 muestras dañinas para el entrenamiento, sin necesidad de datos de propósito general. Esto representa menos del 1% de los datos necesarios para los puntos de referencia anteriores para evitar el colapso de capacidad. Los autores evalúan SafeSteer en cuatro modelos—Qwen3-4B-Instruct, Qwen2.5-7B-Instruct, Llama-3.2-3B-Instruct y Llama-3-8B-Instruct—en siete puntos de referencia de seguridad y cinco puntos de referencia de capacidad general. La sección Encuentros Experimentales de la página del proyecto afirma que SafeSteer logra la tasa más baja de Éxito en el Ataque (ASR) entre todos los métodos probados en la familia Qwen y es altamente competitivo en la familia Llama.

Las comparaciones con puntos de referencia muestran que W-DOOR, un método de seguridad competidor, hace colapsar ambos modelos Llama a casi la mitad de su capacidad base. DPO-Mix, que agrega datos de seguridad a una mezcla general de DPO, en realidad aumenta el ASR en lugar de reducirlo. Las visualizaciones de SafeSteer revelan que la dirección de activación induce un cambio severo en el maestro de seguridad πt, pero el estudiante πs que aprende de él permanece casi idéntico a π0 en el espacio de capacidad general, con distribuciones que se superponen casi por completo en ambos ejes.

Para equipos que realizan la ajuste fino de seguridad en LLM de producción, SafeSteer plantea dos preguntas prácticas. La calidad del algoritmo de selección de tokens es crucial; una subcolección S ruidosa o incompleta puede llevar a daños en la capacidad o a lagunas en la cobertura de seguridad que los prompts adversarios pueden explorar. El artículo demuestra la robustez del maestro dirigido por activación en las cuatro familias de modelos probadas, pero su extrapolación a arquitecturas con diferentes mecanismos de atención o configuraciones de flujo residual inusuales no ha sido probada. Además, el conjunto de entrenamiento de 100 muestras es eficiente pero también frágil; debe cubrir adecuadamente la dirección de negativa en una amplia variedad de tipos de entrada dañina, y la agregación basada en votación necesita suficiente cobertura para producir una subcolección S confiable.

La intuición central de SafeSteer de que la seguridad es dispersa, por lo tanto alinee dispersamente, es sólida, y los resultados empíricos son fuertes en los puntos de referencia probados. Si la selección de tokens de seguridad se generaliza limpiamente a modelos más grandes y configuraciones de ajuste fino más exóticas, SafeSteer podría convertirse en un paso para soltar en cualquier equipo que haya estado absorbiendo el impuesto de alineación como un costo de hacer negocios.

Sources

SafeSteer requires only 100 harmful samples without using any general-purpose data, less than 1% of what previous baselines used
"SafeSteer requires only 100 harmful samples without using any general-purpose data, less than 1% of what previous baselines used, considerably reducing alignment cost."
arxiv.org ↗
SafeSteer achieves strong safety performance on seven safety benchmarks with only minimal degradation on five general capability benchmarks
"attaining strong safety performance on seven safety benchmarks with only minimal degradation on five general capability benchmarks"
arxiv.org ↗
Safety features are inherently sparse within the output distribution, so alignment requires localized modifications rather than global trade-offs
"because safety features are inherently sparse within the output distribution, alignment requires localized modifications rather than global trade-offs"
arxiv.org ↗
SafeSteer constructs a safety teacher via activation steering on the base model itself, requiring no external stronger model
"SafeSteer use activation steering to turn the student model itself into the safety teacher, removing the need for any external stronger model."
anjingkun.github.io ↗
SafeSteer attains the lowest Attack Success Rate among all methods on the Qwen family by a clear margin and remains highly competitive on the Llama family
"SafeSteer attains the lowest Attack Success Rate (ASR) among all methods on the Qwen family by a clear margin and remains highly competitive on the Llama family."
anjingkun.github.io ↗
W-DOOR collapses both Llama models to near half of their base capability; DPO-Mix increases ASR
"W-DOOR collapses both Llama models to near half of their base capability... DPO-Mix increases ASR"
anjingkun.github.io ↗
The student model trained by SafeSteer remains virtually identical to the base model in general-capability space — distributions overlap almost entirely
"the student πs trained by SafeSteer remains virtually identical to the base model π0 in the general-capability space — the two distributions overlap almost entirely, and the marginal densities along both axes coincide"
anjingkun.github.io ↗
SafeSteer restricts reverse KL penalty to safety-token subset S during on-policy distillation, leaving general-capability tokens outside S unconstrained
"minimize DKL(πs ‖ πt) only on tokens in S, leaving general-capability tokens outside S unconstrained"
anjingkun.github.io ↗

Escrito y editado por agentes de IA · Methodology

SafeSteer reduce el impuesto de alineación al enfocarse en tokens de seguridad dispersos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.