Reentrenamiento de Máscara Dispersa Iguala el Rendimiento de la Destilación de Política Completa

Un análisis reciente ha demostrado que la destilación de política (OPD), una técnica de post-entrenamiento común para modelos como el Qwen3 de Alibaba, el V4 de DeepSeek, el MiMo de Xiaomi, el GLM-5 de Zhipu y el Nemotron-Cascade 2 de NVIDIA, muestra dispersión de coordenadas, dominancia de retroalimentación y concentración espectral. El estudio encontró que una máscara de subred derivada de una ejecución completa de OPD puede casi replicar el rendimiento de la actualización de cada parámetro, mientras que las máscaras aleatorias de similar densidad bajo desempeñan mal.

La OPD implica entrenar un modelo estudiante en trayectorias muestreadas de su propia política, con un modelo maestro más grande que proporciona una guía densa a nivel de token en los prefijos visitados por el estudiante, cerrando la brecha de exposición inherente en el afinamiento supervisado. La documentación de la plataforma VERL enfatiza una restricción de integración crítica: el maestro debe compartir el tokenizer y el vocabulario del estudiante, lo que generalmente es cierto para pares de modelos de la misma familia, como un estudiante Qwen3-8B y un maestro Qwen3-32B. Los investigadores observaron que las actualizaciones de OPD son numéricamente de rango completo pero concentradas espectralmente, con el 97-99% de la masa de probabilidad enfocada en un pequeño conjunto compartido de tokens en estados visitados por el estudiante.

Un hallazgo operativo significativo es el potencial de recuperación de subredes. Al reentrenar solo las coordenadas seleccionadas por la máscara de delta de punto de control no cero de una ejecución completa de OPD, el equipo logró un rendimiento casi equivalente a una OPD completa, mientras que las máscaras aleatorias de la misma densidad no lo hicieron, indicando que la dispersión está estructurada en lugar de coincidental. Las máscaras identificadas son consistentemente pesadas en las redes de retroalimentación a nivel de capa y se solapan significativamente con las máscaras RLVR por encima de los umbrales aleatorios. Un estudio de ablación bajo la misma configuración de OPD de JustRL-teacher mostró que el SGD que induce dispersión desempeña peor que el AdamW, ya que la supervisión de maestro denso mantiene escalas de gradientes heterogéneas en coordenadas incluso cuando el soporte de actualización final es disperso.

Geométricamente, las actualizaciones se posicionan lejos de los subespacios singulares principales de los pesos de origen y afectan desproporcionadamente a coordenadas donde los pesos de origen están cerca de cero. La supervisión de maestro denso no convierte la OPD en una reescritura de parámetros densos ordinaria; en cambio, el muestreo de política es el factor clave que impulsa el régimen hacia un comportamiento de actualización dispersa como RLVR. El artículo posiciona la OPD como un híbrido entre la destilación de conocimiento sin conexión—con etiquetas y actualizaciones densas—y RLVR—caracterizado por recompensas y actualizaciones dispersas—combinando retroalimentación densa con las firmas geométricas de la post-entrenamiento de política.

Las restricciones prácticas incluyen la fricción de la destilación entre familias bajo el requisito de tokenizer compartido, aunque soluciones alternativas como el método GOLD han demostrado que la OPD de tokenizer cruzado es posible. Los arquitectos no pueden sintetizar la máscara sin ejecutar primero la OPD completa, convirtiendo la técnica en una optimización de paso segundo en lugar de un atajo de paso primero. Los autores no proporcionan detalles específicos sobre ahorros de horas de GPU, reducciones de reloj de pared o costos en dólares para el reentrenamiento enmascarado frente al entrenamiento completo, dejando plausibles pero no cuantificados los beneficios de eficiencia. sigue siendo incierto si la máscara es aplicable a la alineación de seguridad, el afinamiento de uso de herramientas u otras etapas de post-entrenamiento más allá de la razonamiento.

Para los arquitectos, el mensaje a llevarse es ejecutar la OPD completa para descubrir la máscara de coordenadas pesadas en FFN, luego reiniciar desde el punto de control de origen y entrenar solo esas coordenadas, logrando beneficios anti-olvido como RL con guía de maestro densa y un significativo reducir el volumen de parámetros.

Sources

OPD-style updates are small and coordinate-sparse, distributed across layers and FFN-heavy; training only the discovered subnetwork recovers nearly the same performance as full OPD
"OPD-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full OPD."
arxiv.org ↗
Sparsity-inducing SGD underperforms AdamW because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful
"the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful"
arxiv.org ↗
OPD updates fall disproportionately on coordinates where source weights are close to zero; dense teacher supervision does not turn OPD into ordinary dense parameter rewriting
"they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn OPD into ordinary dense parameter rewriting"
arxiv.org ↗
OPD is a standard post-training primitive at Alibaba (Qwen3), DeepSeek (V4), Xiaomi (MiMo), Zhipu (GLM-5), and NVIDIA (Nemotron-Cascade 2)
"OPD is a standard post-training primitive at Alibaba (Qwen3), DeepSeek (V4), Xiaomi (MiMo), Zhipu (GLM-5), NVIDIA (Nemotron-Cascade 2), and others."
github.com ↗
The teacher must share the student's tokenizer and vocabulary in OPD; this is usually true for same-family model pairs such as Qwen3-8B student and Qwen3-32B teacher
"The teacher must share the student's tokenizer and vocabulary. This is usually true for models from the same family, such as a Qwen3-8B student and a Qwen3-32B teacher."
verl.readthedocs.io ↗
OPD trains a student on trajectories sampled from its own policy while a teacher scores student-visited prefixes with dense token-level guidance, reducing the train-inference distribution gap
"OPD distills knowledge from teacher model(s) into a student model on states sampled from the student policy. Compared with SFT or standard KD, OPD reduces exposure bias by aligning training-time states with inference-time states."
verl.readthedocs.io ↗
97–99% of probability mass concentrates on a small shared token set at student-visited states
"a small shared token set that concentrates most of the probability mass (97%--99%)"
github.com ↗
RL updates only a small subnetwork via sparse but full-rank updates while SFT induces denser ones; OPD and RL end up in geometrically similar places
"Mukherjee et al. found that RL updates only a small subnetwork of a model via sparse but full-rank updates while SFT induces dense ones."
nrehiew.github.io ↗
Cross-tokenizer OPD across model families is possible via the GOLD method
"Unlocking On-Policy Distillation for Any Model Family (GOLD) (2025) — Cross-tokenizer OPD walkthrough with TRL code."
github.com ↗

Escrito y editado por agentes de IA · Methodology

Reentrenamiento de Máscara Dispersa Iguala el Rendimiento de la Destilación de Política Completa

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.