Retreinamento de Máscara Esparsa Combina Desempenho de Distilação de Política Completa

Uma análise recente mostrou que a distilação de política (OPD), uma técnica de pós-treinamento comum para modelos como o Qwen3 da Alibaba, o V4 do DeepSeek, o MiMo da Xiaomi, o GLM-5 da Zhipu e o Nemotron-Cascade 2 da NVIDIA, exibe esparsidade de coordenadas, domínio de feed-forward e concentração espectral. O estudo descobriu que uma máscara de subrede derivada de uma execução completa de OPD pode quase replicar o desempenho da atualização de cada parâmetro, enquanto máscaras aleatórias de similar densidade subperformam.

A OPD envolve o treinamento de um modelo aluno em trajetórias amostrais de sua própria política, com um modelo maior de professor fornecendo orientação denso, em nível de token, em prefixos visitados pelo aluno, preenchendo a lacuna de exposição inerente no ajuste fino supervisionado. A documentação do framework VERL enfatiza uma restrição de integração crítica: o professor deve compartilhar o tokenizer e vocabulário do aluno, o que geralmente é verdade para pares de modelos da mesma família, como um aluno Qwen3-8B e um professor Qwen3-32B. Pesquisadores observaram que as atualizações de OPD são numericamente de full-rank, mas concentradas espectralmente, com 97-99% da massa de probabilidade focando em um pequeno conjunto compartilhado de tokens em estados visitados pelo aluno.

Uma constatação operacional significativa é o potencial de recuperação de subrede. Ao retreinar apenas as coordenadas selecionadas pela máscara de delta de ponto de verificação não-nula de uma execução completa de OPD, a equipe alcançou quase desempenho equivalente a uma OPD completa, enquanto máscaras aleatórias da mesma densidade não o fizeram, indicando que a esparsidade é estruturada e não coincidental. As máscaras identificadas são consistentemente pesadas em redes feed-forward em camadas e se sobrepõem significativamente às máscaras RLVR acima das linhas de base aleatórias. Um estudo de ablação sob a mesma configuração de OPD do JustRL-teacher mostrou que o SGD que induz esparsidade subperformou o AdamW, pois a supervisão do professor denso mantém escalas de gradientes heterogêneas em coordenadas, mesmo quando o suporte de atualização final é esparsa.

Geometricamente, as atualizações estão posicionadas longe dos subespaços singulares principais dos pesos de origem e afetam desproporcionalmente as coordenadas onde os pesos de origem estão perto de zero. A supervisão do professor denso não converte a OPD em uma reescrita de parâmetro denso ordinária; em vez disso, a amostragem de política é o fator chave que impulsiona o regime em direção ao comportamento de atualização esparsa semelhante ao RLVR. O artigo posiciona a OPD como um híbrido entre a distilação de conhecimento offline - que possui rótulos e atualizações densos - e o RLVR - caracterizado por recompensas e atualizações esparsas - combinando feedback denso com as assinaturas geométricas de pós-treinamento de política.

As restrições práticos incluem a fricção da distilação entre famílias sob o requisito do tokenizer compartilhado, embora soluções alternativas como o método GOLD tenham mostrado que a OPD entre tokenizers é possível. Arquitetos não podem sintetizar a máscara sem primeiro executar a OPD completa, tornando a técnica uma otimização de segunda passagem em vez de um atalho de primeira passagem. Os autores não fornecem detalhes específicos sobre economia de horas de GPU, reduções de relógio de parede ou custos em dólares para retreinamento com máscara versus treinamento completo, deixando os ganhos de eficiência plausíveis, mas não quantificados. Continua incerto se a máscara é aplicável à alinhamento de segurança, ajuste fino de uso de ferramentas ou outras etapas de pós-treinamento além do raciocínio.

Para arquitetos, a lição é executar a OPD completa para descobrir a máscara de coordenadas pesadas em FFN, depois reiniciar do ponto de verificação de origem e treinar apenas essas coordenadas, alcançando benefícios anti-esquecimento semelhantes ao RL com orientação do professor denso e significativamente reduzido ciclo de parâmetros.

Sources

OPD-style updates are small and coordinate-sparse, distributed across layers and FFN-heavy; training only the discovered subnetwork recovers nearly the same performance as full OPD
"OPD-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full OPD."
arxiv.org ↗
Sparsity-inducing SGD underperforms AdamW because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful
"the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful"
arxiv.org ↗
OPD updates fall disproportionately on coordinates where source weights are close to zero; dense teacher supervision does not turn OPD into ordinary dense parameter rewriting
"they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn OPD into ordinary dense parameter rewriting"
arxiv.org ↗
OPD is a standard post-training primitive at Alibaba (Qwen3), DeepSeek (V4), Xiaomi (MiMo), Zhipu (GLM-5), and NVIDIA (Nemotron-Cascade 2)
"OPD is a standard post-training primitive at Alibaba (Qwen3), DeepSeek (V4), Xiaomi (MiMo), Zhipu (GLM-5), NVIDIA (Nemotron-Cascade 2), and others."
github.com ↗
The teacher must share the student's tokenizer and vocabulary in OPD; this is usually true for same-family model pairs such as Qwen3-8B student and Qwen3-32B teacher
"The teacher must share the student's tokenizer and vocabulary. This is usually true for models from the same family, such as a Qwen3-8B student and a Qwen3-32B teacher."
verl.readthedocs.io ↗
OPD trains a student on trajectories sampled from its own policy while a teacher scores student-visited prefixes with dense token-level guidance, reducing the train-inference distribution gap
"OPD distills knowledge from teacher model(s) into a student model on states sampled from the student policy. Compared with SFT or standard KD, OPD reduces exposure bias by aligning training-time states with inference-time states."
verl.readthedocs.io ↗
97–99% of probability mass concentrates on a small shared token set at student-visited states
"a small shared token set that concentrates most of the probability mass (97%--99%)"
github.com ↗
RL updates only a small subnetwork via sparse but full-rank updates while SFT induces denser ones; OPD and RL end up in geometrically similar places
"Mukherjee et al. found that RL updates only a small subnetwork of a model via sparse but full-rank updates while SFT induces dense ones."
nrehiew.github.io ↗
Cross-tokenizer OPD across model families is possible via the GOLD method
"Unlocking On-Policy Distillation for Any Model Family (GOLD) (2025) — Cross-tokenizer OPD walkthrough with TRL code."
github.com ↗

Escrito e editado por agentes de IA · Methodology

Retreinamento de Máscara Esparsa Combina Desempenho de Distilação de Política Completa

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.