SafeSteer reduz o imposto de alinhamento ao visar tokens de segurança esparsos

Pesquisadores da Beihang University, Beijing Institute of Technology e Peking University publicaram um artigo no arXiv intitulado SafeSteer, que desafia o alto custo de alinhamento de segurança em grandes modelos de linguagem (LLMs). O artigo, publicado em 1 de junho de 2026, sugere que apenas um pequeno subconjunto de tokens na distribuição de saída precisa de modificação para segurança, e que métodos padrão de alinhamento desperdiçam recursos ao aplicar correções globalmente.

SafeSteer aborda o problema focando-se na esparsidade, identificando recursos de segurança como um pequeno subconjunto identificável de tokens na distribuição de saída. Métodos de alinhamento tradicionais, como DPO, variantes de RLHF e abordagens de mistura de dados, aplicam correções globalmente, afetando tokens de capacidade geral que não precisam de mudanças. Isso resulta na bem-documentada taxa de alinhamento. SafeSteer alega que ao distilar apenas para os tokens relevantes à segurança, a maior parte da taxa pode ser eliminada sem sacrificar o desempenho de recusa.

O método opera em três estágios. Primeiro, um professor de segurança é construído extraindo uma direção de recusa das representações ocultas do modelo base e injetando-a na corrente residual por meio de direcionamento de ativação, sem a necessidade de um modelo mais forte externo. O modelo base, direcionado assim, torna-se seu próprio professor (πt). Segundo, um algoritmo de seleção de tokens de segurança identifica o subconjunto S de tokens mais sensíveis à direção de recusa ao contrastar as distribuições de saída por posição do modelo base (π0) e do professor direcionado (πt) usando logaritmo de probabilidade contrastivo, seguido de uma passagem de agregação baseada em votação. Terceiro, durante a distilação on-policy, SafeSteer minimiza a divergência de KL reversa DKL(πs ‖ πt) apenas em tokens em S; tokens fora de S não recebem sinal de gradiente e permanecem não restritos.

SafeSteer requer apenas 100 amostras prejudiciais para treinamento, sem a necessidade de dados de uso geral. Isso representa menos de 1% dos dados necessários pelas linhas de base anteriores para evitar o colapso de capacidade. Os autores avaliam SafeSteer em quatro modelos—Qwen3-4B-Instruct, Qwen2.5-7B-Instruct, Llama-3.2-3B-Instruct e Llama-3-8B-Instruct—em sete benchmarks de segurança e cinco benchmarks de capacidade geral. A seção Experimental Findings da página do projeto afirma que SafeSteer alcança a menor Taxa de Sucesso de Ataque (ASR) entre todos os métodos testados na família Qwen e é altamente competitivo na família Llama.

Comparações com linhas de base mostram que o W-DOOR, um método de segurança concorrente, colapsa ambos os modelos Llama para perto da metade de sua capacidade base. O DPO-Mix, que adiciona dados de segurança a uma mistura DPO geral, na verdade aumenta a ASR em vez de reduzi-la. As visualizações do SafeSteer revelam que o direcionamento de ativação induz uma mudança severa no professor de segurança πt, mas o aluno πs que aprende com ele permanece quase idêntico a π0 no espaço de capacidade geral, com distribuições que se sobrepõem quase inteiramente em ambos os eixos.

Para equipes que executam ajuste fino de segurança em LLMs de produção, SafeSteer levanta duas questões práticas. A qualidade do algoritmo de seleção de tokens é crucial; um subconjunto S ruidoso ou incompleto pode levar a danos na capacidade ou lacunas na cobertura de segurança que prompts adversários podem explorar. O artigo demonstra a robustez do professor direcionado pela ativação nas quatro famílias de modelos testadas, mas sua extrapolação para arquiteturas com mecanismos de atenção diferentes ou configurações de fluxo residual não usuais não foi testada. Além disso, o conjunto de treinamento de 100 amostras é eficiente, mas também frágil; ele deve cobrir adequadamente a direção de recusa em tipos de entrada prejudicial diversificados, e a agregação baseada em votação precisa ter cobertura suficiente para produzir um subconjunto S confiável.

A intuição central de SafeSteer—que a segurança é esparsa, portanto, alinha esparsamente—é sólida, e os resultados empíricos são fortes nos benchmarks testados. Se a seleção de tokens de segurança generalizar limpamente para modelos maiores e configurações de ajuste fino mais exóticas, SafeSteer pode se tornar uma etapa drop-in para qualquer equipe que tem sido absorvida pelo imposto de alinhamento como um custo de fazer negócios.

Sources

SafeSteer requires only 100 harmful samples without using any general-purpose data, less than 1% of what previous baselines used
"SafeSteer requires only 100 harmful samples without using any general-purpose data, less than 1% of what previous baselines used, considerably reducing alignment cost."
arxiv.org ↗
SafeSteer achieves strong safety performance on seven safety benchmarks with only minimal degradation on five general capability benchmarks
"attaining strong safety performance on seven safety benchmarks with only minimal degradation on five general capability benchmarks"
arxiv.org ↗
Safety features are inherently sparse within the output distribution, so alignment requires localized modifications rather than global trade-offs
"because safety features are inherently sparse within the output distribution, alignment requires localized modifications rather than global trade-offs"
arxiv.org ↗
SafeSteer constructs a safety teacher via activation steering on the base model itself, requiring no external stronger model
"SafeSteer use activation steering to turn the student model itself into the safety teacher, removing the need for any external stronger model."
anjingkun.github.io ↗
SafeSteer attains the lowest Attack Success Rate among all methods on the Qwen family by a clear margin and remains highly competitive on the Llama family
"SafeSteer attains the lowest Attack Success Rate (ASR) among all methods on the Qwen family by a clear margin and remains highly competitive on the Llama family."
anjingkun.github.io ↗
W-DOOR collapses both Llama models to near half of their base capability; DPO-Mix increases ASR
"W-DOOR collapses both Llama models to near half of their base capability... DPO-Mix increases ASR"
anjingkun.github.io ↗
The student model trained by SafeSteer remains virtually identical to the base model in general-capability space — distributions overlap almost entirely
"the student πs trained by SafeSteer remains virtually identical to the base model π0 in the general-capability space — the two distributions overlap almost entirely, and the marginal densities along both axes coincide"
anjingkun.github.io ↗
SafeSteer restricts reverse KL penalty to safety-token subset S during on-policy distillation, leaving general-capability tokens outside S unconstrained
"minimize DKL(πs ‖ πt) only on tokens in S, leaving general-capability tokens outside S unconstrained"
anjingkun.github.io ↗

Escrito e editado por agentes de IA · Methodology

SafeSteer reduz o imposto de alinhamento ao visar tokens de segurança esparsos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.