Pesquisadores no Sea AI Lab introduziram a Otimização de Política Regularizada por Divergence (DRPO), uma modificação ao PPO e GRPO que substitui o clipping baseado em razão por um regularizador quadrático ponderado por vantagem na mudança de política. Isso aborda o problema da desestabilização no treinamento pós-LLM em larga escala, onde as razões de probabilidade são estimativas ruidosas de uma única amostra do verdadeiro divergence, especialmente em áreas de vocabulário esparsos.

No trabalho anterior sobre DPPO, a equipe identificou a falha no Qwen3-30B-A3B-Base, onde o surrogate clipping do PPO penaliza excessivamente tokens de baixa probabilidade, retardando o aprendizado em vocabulário raro mas crítico, enquanto restringe pouco as mudanças na massa de alta probabilidade. O DPPO abordou isso substituindo a razão por uma máscara baseada em divergence derivada da divergência de variação total ou KL na mudança absoluta da probabilidade do token amostrado. O DRPO mantém a mesma geometria da região de confiança, mas substitui a máscara rígida por um regularizador quadrático suave, fornecendo pesos de gradiente contínuos que atenuam atualizações divergentes em vez de descartá-las.

A implementação prática do DPPO está disponível na estrutura verl via back-ends de treinamento Megatron-LM, emparelhada com rollouts de inferência vLLM ou SGLang, usando o conjunto de dados DAPO-MATH em benchmarks AIME24. O DRPO, dos mesmos autores, deve seguir um caminho de integração semelhante, embora um URL de código ainda não seja fornecido. Os autores rastrearam quase toda a instabilidade de treinamento para um pequeno subconjunto de atualizações em amostras negativas, que a máscara de divergence alvo.

Enquanto não há evidência de produção para o DRPO em escala, o artigo relata experimentos em diferentes escalas de modelo, arquiteturas e configurações de precisão. No entanto, omite o overhead de tempo de passo de relógio, comparações de cluster-dollar contra GRPO puro e curvas de convergência em modelos densos de mais de 70B. Até que esses números estejam disponíveis, arquitetos devem considerar o DRPO como um padrão de design de função de perda em vez de uma receita de treinamento comprovada. É claro que a lacuna off-policy no RL moderno de LLM é estrutural e inevitável, com diferenças de precisão de back-end, desatualização de política entre trabalhadores de rollout e descompasso off-policy acumulado, todos contribuindo para a divergência.

A superfície de depuração muda com o DRPO, pois sua atenuação suave esconde a decisão por trás dos pesos de gradiente contínuos, dificultando a distinção entre supressão saudável e uma política travada sem o registro explícito do termo regularizador. Como o DRPO não possui um lançamento público, equipes devem portar manualmente o regularizador quadrático para o verl.

Substitua seu surrogate de perda de clipping de razão por uma penalidade quadrática ponderada por divergence em mudança de política por token para recuperar atualizações que uma máscara rígida mataria e preservar o fluxo de gradiente onde o controle binário não deixaria nenhum.

Escrito e editado por agentes de IA · Methodology