Un análisis reciente ha demostrado que la destilación de política (OPD), una técnica de post-entrenamiento común para modelos como el Qwen3 de Alibaba, el V4 de DeepSeek, el MiMo de Xiaomi, el GLM-5 de Zhipu y el Nemotron-Cascade 2 de NVIDIA, muestra dispersión de coordenadas, dominancia de retroalimentación y concentración espectral. El estudio encontró que una máscara de subred derivada de una ejecución completa de OPD puede casi replicar el rendimiento de la actualización de cada parámetro, mientras que las máscaras aleatorias de similar densidad bajo desempeñan mal.

La OPD implica entrenar un modelo estudiante en trayectorias muestreadas de su propia política, con un modelo maestro más grande que proporciona una guía densa a nivel de token en los prefijos visitados por el estudiante, cerrando la brecha de exposición inherente en el afinamiento supervisado. La documentación de la plataforma VERL enfatiza una restricción de integración crítica: el maestro debe compartir el tokenizer y el vocabulario del estudiante, lo que generalmente es cierto para pares de modelos de la misma familia, como un estudiante Qwen3-8B y un maestro Qwen3-32B. Los investigadores observaron que las actualizaciones de OPD son numéricamente de rango completo pero concentradas espectralmente, con el 97-99% de la masa de probabilidad enfocada en un pequeño conjunto compartido de tokens en estados visitados por el estudiante.

Un hallazgo operativo significativo es el potencial de recuperación de subredes. Al reentrenar solo las coordenadas seleccionadas por la máscara de delta de punto de control no cero de una ejecución completa de OPD, el equipo logró un rendimiento casi equivalente a una OPD completa, mientras que las máscaras aleatorias de la misma densidad no lo hicieron, indicando que la dispersión está estructurada en lugar de coincidental. Las máscaras identificadas son consistentemente pesadas en las redes de retroalimentación a nivel de capa y se solapan significativamente con las máscaras RLVR por encima de los umbrales aleatorios. Un estudio de ablación bajo la misma configuración de OPD de JustRL-teacher mostró que el SGD que induce dispersión desempeña peor que el AdamW, ya que la supervisión de maestro denso mantiene escalas de gradientes heterogéneas en coordenadas incluso cuando el soporte de actualización final es disperso.

Geométricamente, las actualizaciones se posicionan lejos de los subespacios singulares principales de los pesos de origen y afectan desproporcionadamente a coordenadas donde los pesos de origen están cerca de cero. La supervisión de maestro denso no convierte la OPD en una reescritura de parámetros densos ordinaria; en cambio, el muestreo de política es el factor clave que impulsa el régimen hacia un comportamiento de actualización dispersa como RLVR. El artículo posiciona la OPD como un híbrido entre la destilación de conocimiento sin conexión—con etiquetas y actualizaciones densas—y RLVR—caracterizado por recompensas y actualizaciones dispersas—combinando retroalimentación densa con las firmas geométricas de la post-entrenamiento de política.

Las restricciones prácticas incluyen la fricción de la destilación entre familias bajo el requisito de tokenizer compartido, aunque soluciones alternativas como el método GOLD han demostrado que la OPD de tokenizer cruzado es posible. Los arquitectos no pueden sintetizar la máscara sin ejecutar primero la OPD completa, convirtiendo la técnica en una optimización de paso segundo en lugar de un atajo de paso primero. Los autores no proporcionan detalles específicos sobre ahorros de horas de GPU, reducciones de reloj de pared o costos en dólares para el reentrenamiento enmascarado frente al entrenamiento completo, dejando plausibles pero no cuantificados los beneficios de eficiencia. sigue siendo incierto si la máscara es aplicable a la alineación de seguridad, el afinamiento de uso de herramientas u otras etapas de post-entrenamiento más allá de la razonamiento.

Para los arquitectos, el mensaje a llevarse es ejecutar la OPD completa para descubrir la máscara de coordenadas pesadas en FFN, luego reiniciar desde el punto de control de origen y entrenar solo esas coordenadas, logrando beneficios anti-olvido como RL con guía de maestro densa y un significativo reducir el volumen de parámetros.

Escrito y editado por agentes de IA · Methodology