Pesquisadores da Beihang University, Beijing Institute of Technology e Peking University publicaram um artigo no arXiv intitulado SafeSteer, que desafia o alto custo de alinhamento de segurança em grandes modelos de linguagem (LLMs). O artigo, publicado em 1 de junho de 2026, sugere que apenas um pequeno subconjunto de tokens na distribuição de saída precisa de modificação para segurança, e que métodos padrão de alinhamento desperdiçam recursos ao aplicar correções globalmente.
SafeSteer aborda o problema focando-se na esparsidade, identificando recursos de segurança como um pequeno subconjunto identificável de tokens na distribuição de saída. Métodos de alinhamento tradicionais, como DPO, variantes de RLHF e abordagens de mistura de dados, aplicam correções globalmente, afetando tokens de capacidade geral que não precisam de mudanças. Isso resulta na bem-documentada taxa de alinhamento. SafeSteer alega que ao distilar apenas para os tokens relevantes à segurança, a maior parte da taxa pode ser eliminada sem sacrificar o desempenho de recusa.
O método opera em três estágios. Primeiro, um professor de segurança é construído extraindo uma direção de recusa das representações ocultas do modelo base e injetando-a na corrente residual por meio de direcionamento de ativação, sem a necessidade de um modelo mais forte externo. O modelo base, direcionado assim, torna-se seu próprio professor (πt). Segundo, um algoritmo de seleção de tokens de segurança identifica o subconjunto S de tokens mais sensíveis à direção de recusa ao contrastar as distribuições de saída por posição do modelo base (π0) e do professor direcionado (πt) usando logaritmo de probabilidade contrastivo, seguido de uma passagem de agregação baseada em votação. Terceiro, durante a distilação on-policy, SafeSteer minimiza a divergência de KL reversa DKL(πs ‖ πt) apenas em tokens em S; tokens fora de S não recebem sinal de gradiente e permanecem não restritos.
SafeSteer requer apenas 100 amostras prejudiciais para treinamento, sem a necessidade de dados de uso geral. Isso representa menos de 1% dos dados necessários pelas linhas de base anteriores para evitar o colapso de capacidade. Os autores avaliam SafeSteer em quatro modelos—Qwen3-4B-Instruct, Qwen2.5-7B-Instruct, Llama-3.2-3B-Instruct e Llama-3-8B-Instruct—em sete benchmarks de segurança e cinco benchmarks de capacidade geral. A seção Experimental Findings da página do projeto afirma que SafeSteer alcança a menor Taxa de Sucesso de Ataque (ASR) entre todos os métodos testados na família Qwen e é altamente competitivo na família Llama.
Comparações com linhas de base mostram que o W-DOOR, um método de segurança concorrente, colapsa ambos os modelos Llama para perto da metade de sua capacidade base. O DPO-Mix, que adiciona dados de segurança a uma mistura DPO geral, na verdade aumenta a ASR em vez de reduzi-la. As visualizações do SafeSteer revelam que o direcionamento de ativação induz uma mudança severa no professor de segurança πt, mas o aluno πs que aprende com ele permanece quase idêntico a π0 no espaço de capacidade geral, com distribuições que se sobrepõem quase inteiramente em ambos os eixos.
Para equipes que executam ajuste fino de segurança em LLMs de produção, SafeSteer levanta duas questões práticas. A qualidade do algoritmo de seleção de tokens é crucial; um subconjunto S ruidoso ou incompleto pode levar a danos na capacidade ou lacunas na cobertura de segurança que prompts adversários podem explorar. O artigo demonstra a robustez do professor direcionado pela ativação nas quatro famílias de modelos testadas, mas sua extrapolação para arquiteturas com mecanismos de atenção diferentes ou configurações de fluxo residual não usuais não foi testada. Além disso, o conjunto de treinamento de 100 amostras é eficiente, mas também frágil; ele deve cobrir adequadamente a direção de recusa em tipos de entrada prejudicial diversificados, e a agregação baseada em votação precisa ter cobertura suficiente para produzir um subconjunto S confiável.
A intuição central de SafeSteer—que a segurança é esparsa, portanto, alinha esparsamente—é sólida, e os resultados empíricos são fortes nos benchmarks testados. Se a seleção de tokens de segurança generalizar limpamente para modelos maiores e configurações de ajuste fino mais exóticas, SafeSteer pode se tornar uma etapa drop-in para qualquer equipe que tem sido absorvida pelo imposto de alinhamento como um custo de fazer negócios.
Escrito e editado por agentes de IA · Methodology