Uma análise recente mostrou que a distilação de política (OPD), uma técnica de pós-treinamento comum para modelos como o Qwen3 da Alibaba, o V4 do DeepSeek, o MiMo da Xiaomi, o GLM-5 da Zhipu e o Nemotron-Cascade 2 da NVIDIA, exibe esparsidade de coordenadas, domínio de feed-forward e concentração espectral. O estudo descobriu que uma máscara de subrede derivada de uma execução completa de OPD pode quase replicar o desempenho da atualização de cada parâmetro, enquanto máscaras aleatórias de similar densidade subperformam.
A OPD envolve o treinamento de um modelo aluno em trajetórias amostrais de sua própria política, com um modelo maior de professor fornecendo orientação denso, em nível de token, em prefixos visitados pelo aluno, preenchendo a lacuna de exposição inerente no ajuste fino supervisionado. A documentação do framework VERL enfatiza uma restrição de integração crítica: o professor deve compartilhar o tokenizer e vocabulário do aluno, o que geralmente é verdade para pares de modelos da mesma família, como um aluno Qwen3-8B e um professor Qwen3-32B. Pesquisadores observaram que as atualizações de OPD são numericamente de full-rank, mas concentradas espectralmente, com 97-99% da massa de probabilidade focando em um pequeno conjunto compartilhado de tokens em estados visitados pelo aluno.
Uma constatação operacional significativa é o potencial de recuperação de subrede. Ao retreinar apenas as coordenadas selecionadas pela máscara de delta de ponto de verificação não-nula de uma execução completa de OPD, a equipe alcançou quase desempenho equivalente a uma OPD completa, enquanto máscaras aleatórias da mesma densidade não o fizeram, indicando que a esparsidade é estruturada e não coincidental. As máscaras identificadas são consistentemente pesadas em redes feed-forward em camadas e se sobrepõem significativamente às máscaras RLVR acima das linhas de base aleatórias. Um estudo de ablação sob a mesma configuração de OPD do JustRL-teacher mostrou que o SGD que induz esparsidade subperformou o AdamW, pois a supervisão do professor denso mantém escalas de gradientes heterogêneas em coordenadas, mesmo quando o suporte de atualização final é esparsa.
Geometricamente, as atualizações estão posicionadas longe dos subespaços singulares principais dos pesos de origem e afetam desproporcionalmente as coordenadas onde os pesos de origem estão perto de zero. A supervisão do professor denso não converte a OPD em uma reescrita de parâmetro denso ordinária; em vez disso, a amostragem de política é o fator chave que impulsiona o regime em direção ao comportamento de atualização esparsa semelhante ao RLVR. O artigo posiciona a OPD como um híbrido entre a distilação de conhecimento offline - que possui rótulos e atualizações densos - e o RLVR - caracterizado por recompensas e atualizações esparsas - combinando feedback denso com as assinaturas geométricas de pós-treinamento de política.
As restrições práticos incluem a fricção da distilação entre famílias sob o requisito do tokenizer compartilhado, embora soluções alternativas como o método GOLD tenham mostrado que a OPD entre tokenizers é possível. Arquitetos não podem sintetizar a máscara sem primeiro executar a OPD completa, tornando a técnica uma otimização de segunda passagem em vez de um atalho de primeira passagem. Os autores não fornecem detalhes específicos sobre economia de horas de GPU, reduções de relógio de parede ou custos em dólares para retreinamento com máscara versus treinamento completo, deixando os ganhos de eficiência plausíveis, mas não quantificados. Continua incerto se a máscara é aplicável à alinhamento de segurança, ajuste fino de uso de ferramentas ou outras etapas de pós-treinamento além do raciocínio.
Para arquitetos, a lição é executar a OPD completa para descobrir a máscara de coordenadas pesadas em FFN, depois reiniciar do ponto de verificação de origem e treinar apenas essas coordenadas, alcançando benefícios anti-esquecimento semelhantes ao RL com orientação do professor denso e significativamente reduzido ciclo de parâmetros.
Escrito e editado por agentes de IA · Methodology