Investigadores de la Universidad Beihang, la Universidad de Tecnología de Pekín y la Universidad de Pekín han publicado un artículo en arXiv titulado SafeSteer, que desafía el alto costo de la alineación de seguridad en grandes modelos de lenguaje (LLM). El artículo, publicado el 1 de junio de 2026, sugiere que solo se necesita modificar una pequeña subcolección de tokens en la distribución de salida para la seguridad, y que los métodos de alineación estándar gastan recursos al aplicar correcciones globalmente.
SafeSteer aborda el problema enfocándose en la esparsidad, identificando características de seguridad como una pequeña subcolección de tokens identificables en la distribución de salida. Métodos de alineación tradicionales, como DPO, variantes de RLHF y enfoques de mezcla de datos, aplican correcciones globalmente, afectando tokens de capacidad general que no requieren cambios. Esto resulta en el bien documentado impuesto de alineación. SafeSteer afirma que al destilar solo a los tokens relevantes para la seguridad, se puede eliminar la mayoría del impuesto sin sacrificar el rendimiento de la negativa.
El método opera en tres etapas. Primero, se construye un maestro de seguridad extrayendo una dirección de negativa de las representaciones ocultas del modelo base e inyectándola en el flujo residual a través de la dirección de activación, sin requerir un modelo más fuerte externo. El modelo base, dirigido de esta manera, se convierte en su propio maestro (πt). Segundo, un algoritmo de selección de tokens de seguridad identifica la subcolección S de tokens más sensibles a la dirección de negativa al contrastar las distribuciones de salida por posición del modelo base (π0) y el maestro dirigido (πt) utilizando logaritmo de probabilidad contrastivo, seguido de una pasada de agregación basada en votación. Tercero, durante la destilación on-policy, SafeSteer minimiza la divergencia de KL inversa DKL(πs ‖ πt) solo en los tokens de S; los tokens fuera de S no reciben señal de gradiente y permanecen sin restricciones.
SafeSteer requiere solo 100 muestras dañinas para el entrenamiento, sin necesidad de datos de propósito general. Esto representa menos del 1% de los datos necesarios para los puntos de referencia anteriores para evitar el colapso de capacidad. Los autores evalúan SafeSteer en cuatro modelos—Qwen3-4B-Instruct, Qwen2.5-7B-Instruct, Llama-3.2-3B-Instruct y Llama-3-8B-Instruct—en siete puntos de referencia de seguridad y cinco puntos de referencia de capacidad general. La sección Encuentros Experimentales de la página del proyecto afirma que SafeSteer logra la tasa más baja de Éxito en el Ataque (ASR) entre todos los métodos probados en la familia Qwen y es altamente competitivo en la familia Llama.
Las comparaciones con puntos de referencia muestran que W-DOOR, un método de seguridad competidor, hace colapsar ambos modelos Llama a casi la mitad de su capacidad base. DPO-Mix, que agrega datos de seguridad a una mezcla general de DPO, en realidad aumenta el ASR en lugar de reducirlo. Las visualizaciones de SafeSteer revelan que la dirección de activación induce un cambio severo en el maestro de seguridad πt, pero el estudiante πs que aprende de él permanece casi idéntico a π0 en el espacio de capacidad general, con distribuciones que se superponen casi por completo en ambos ejes.
Para equipos que realizan la ajuste fino de seguridad en LLM de producción, SafeSteer plantea dos preguntas prácticas. La calidad del algoritmo de selección de tokens es crucial; una subcolección S ruidosa o incompleta puede llevar a daños en la capacidad o a lagunas en la cobertura de seguridad que los prompts adversarios pueden explorar. El artículo demuestra la robustez del maestro dirigido por activación en las cuatro familias de modelos probadas, pero su extrapolación a arquitecturas con diferentes mecanismos de atención o configuraciones de flujo residual inusuales no ha sido probada. Además, el conjunto de entrenamiento de 100 muestras es eficiente pero también frágil; debe cubrir adecuadamente la dirección de negativa en una amplia variedad de tipos de entrada dañina, y la agregación basada en votación necesita suficiente cobertura para producir una subcolección S confiable.
La intuición central de SafeSteer de que la seguridad es dispersa, por lo tanto alinee dispersamente, es sólida, y los resultados empíricos son fuertes en los puntos de referencia probados. Si la selección de tokens de seguridad se generaliza limpiamente a modelos más grandes y configuraciones de ajuste fino más exóticas, SafeSteer podría convertirse en un paso para soltar en cualquier equipo que haya estado absorbiendo el impuesto de alineación como un costo de hacer negocios.
Escrito y editado por agentes de IA · Methodology