Novo Método DRPO Corrige Colapso de Vocabulário de Longo-Cabeça em RL de LLM

Pesquisadores no Sea AI Lab introduziram a Otimização de Política Regularizada por Divergence (DRPO), uma modificação ao PPO e GRPO que substitui o clipping baseado em razão por um regularizador quadrático ponderado por vantagem na mudança de política. Isso aborda o problema da desestabilização no treinamento pós-LLM em larga escala, onde as razões de probabilidade são estimativas ruidosas de uma única amostra do verdadeiro divergence, especialmente em áreas de vocabulário esparsos.

No trabalho anterior sobre DPPO, a equipe identificou a falha no Qwen3-30B-A3B-Base, onde o surrogate clipping do PPO penaliza excessivamente tokens de baixa probabilidade, retardando o aprendizado em vocabulário raro mas crítico, enquanto restringe pouco as mudanças na massa de alta probabilidade. O DPPO abordou isso substituindo a razão por uma máscara baseada em divergence derivada da divergência de variação total ou KL na mudança absoluta da probabilidade do token amostrado. O DRPO mantém a mesma geometria da região de confiança, mas substitui a máscara rígida por um regularizador quadrático suave, fornecendo pesos de gradiente contínuos que atenuam atualizações divergentes em vez de descartá-las.

A implementação prática do DPPO está disponível na estrutura verl via back-ends de treinamento Megatron-LM, emparelhada com rollouts de inferência vLLM ou SGLang, usando o conjunto de dados DAPO-MATH em benchmarks AIME24. O DRPO, dos mesmos autores, deve seguir um caminho de integração semelhante, embora um URL de código ainda não seja fornecido. Os autores rastrearam quase toda a instabilidade de treinamento para um pequeno subconjunto de atualizações em amostras negativas, que a máscara de divergence alvo.

Enquanto não há evidência de produção para o DRPO em escala, o artigo relata experimentos em diferentes escalas de modelo, arquiteturas e configurações de precisão. No entanto, omite o overhead de tempo de passo de relógio, comparações de cluster-dollar contra GRPO puro e curvas de convergência em modelos densos de mais de 70B. Até que esses números estejam disponíveis, arquitetos devem considerar o DRPO como um padrão de design de função de perda em vez de uma receita de treinamento comprovada. É claro que a lacuna off-policy no RL moderno de LLM é estrutural e inevitável, com diferenças de precisão de back-end, desatualização de política entre trabalhadores de rollout e descompasso off-policy acumulado, todos contribuindo para a divergência.

A superfície de depuração muda com o DRPO, pois sua atenuação suave esconde a decisão por trás dos pesos de gradiente contínuos, dificultando a distinção entre supressão saudável e uma política travada sem o registro explícito do termo regularizador. Como o DRPO não possui um lançamento público, equipes devem portar manualmente o regularizador quadrático para o verl.

Substitua seu surrogate de perda de clipping de razão por uma penalidade quadrática ponderada por divergence em mudança de política por token para recuperar atualizações que uma máscara rígida mataria e preservar o fluxo de gradiente onde o controle binário não deixaria nenhum.

Sources

DRPO replaces DPPO's hard divergence mask with a smooth advantage-weighted quadratic regularizer, providing bounded continuous gradient weights that attenuate diverging updates and give corrective signals past the trust-region boundary
"we propose Divergence Regularized Policy Optimization (DRPO), which replaces the hard mask with a smooth advantage-weighted quadratic regularizer on policy shift. DRPO preserves the same trust-region geometry as DPPO while inducing bounded, continuous gradient weights that attenuate diverging updates and provide corrective signals beyond the boundary"
arxiv.org ↗
PPO's ratio clipping is a noisy single-sample Monte Carlo estimate of true policy divergence that over-penalizes low-probability tokens and under-constrains high-probability shifts, causing LLM post-training instability
"PPO constrains policy updates based on the probability ratio of sampled tokens, which serves as a noisy single-sample Monte Carlo estimate of the true policy divergence. This creates a sub-optimal learning dynamic: updates to low-probability tokens are aggressively over-penalized, while potentially catastrophic shifts in high-probability tokens are under-constrained, leading to training inefficiency and instability."
arxiv.org ↗
The probability ratio used by PPO is highly volatile for low-probability tokens, while TV divergence is more stable — demonstrated on Qwen3-30B-A3B-Base
"The probability ratio (used in PPO) is highly volatile for low-probability tokens. In contrast, the TV divergence is more stable. This highlights a key flaw of PPO's clipping mechanism: it over-penalizes low-probability tokens, which can slow down learning; and under-penalizes high-probability tokens, which can permit large, destabilizing updates."
github.com ↗
DPPO is integrated in the verl framework with LOSS_MODE=dppo_kl and LOSS_MODE=dppo_tv options, tested on Qwen3-30B-A3B-Base on AIME24, significantly outperforming GRPO baselines
"DPPO significantly outperforms GRPO baselines, achieving superior training stability and final performance even without rollout routing replay (R3). DPPO variants achieve stable training while controlling the training-inference mismatch at a low level."
verl.readthedocs.io ↗
Off-policy divergence in LLM RL comes from three unavoidable structural sources: backend discrepancies between inference and training kernels, policy staleness, and accumulated off-policy mismatch; classical O(T²) trust-region bounds go vacuous at long horizons
"As response lengths expand from hundreds to thousands of tokens, policy gradient methods—particularly PPO—face increasingly strained theoretical foundations."
arxiv.org ↗
Nearly all training instability in LLM RL traced to a tiny fraction of updates on negative samples, which DPPO's divergence mask precisely targets
"the authors trace nearly all training instability to a tiny fraction of updates on negative samples, which DPPO's divergence mask precisely targets"
emergentmind.com ↗

Escrito e editado por agentes de IA · Methodology

Novo Método DRPO Corrige Colapso de Vocabulário de Longo-Cabeça em RL de LLM

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.