Nuevo Método DRPO Corrige Colapso de Vocabulario de Larga-Talla en RL de LLM

Los investigadores del Sea AI Lab han presentado la Divergence Regularized Policy Optimization (DRPO), una modificación de PPO y GRPO que reemplaza el recorte basado en la relación con un regularizador cuadrático ponderado por la ventaja en el cambio de la política. Esto aborda el problema de la desestabilización en el entrenamiento posterior a gran escala de LLM, donde las relaciones de probabilidad son estimaciones de una muestra ruidosas del verdadero desvío, especialmente en áreas de vocabulario escaso.

En su trabajo anterior en DPPO, el equipo identificó el fracaso en Qwen3-30B-A3B-Base, donde el sustituto recortado de PPO sobre-penaliza los tokens de baja probabilidad, ralentizando el aprendizaje en el vocabulario raro pero crítico, mientras que las restricciones en la masa de alta probabilidad son insuficientes. DPPO abordó esto reemplazando la relación con una máscara basada en el desvío derivada de la variación total o el desvío KL en el cambio de probabilidad absoluta del token de muestra. DRPO mantiene la misma geometría de la región de confianza pero reemplaza la máscara dura con un regularizador cuadrático suave, proporcionando pesos de gradiente continuos y limitados que atenúan las actualizaciones divergentes en lugar de descartarlas.

La implementación práctica de DPPO está disponible en el marco verl a través de backends de entrenamiento de Megatron-LM, emparejados con despliegues de inferencia de vLLM o SGLang, utilizando el conjunto de datos DAPO-MATH en las pruebas de rendimiento AIME24. DRPO, de los mismos autores, se espera que siga un camino de integración similar, aunque aún no se ha proporcionado una URL de código. Los autores rastrearon casi toda la inestabilidad en el entrenamiento a un pequeño subconjunto de actualizaciones en muestras negativas, que la máscara de desvío tiene como objetivo.

Aunque no hay evidencia de producción de DRPO a gran escala, el artículo informa de experimentos en diferentes escalas de modelos, arquitecturas y ajustes de precisión. Sin embargo, omite el overhead de tiempo de paso de reloj, comparaciones de costo de clúster en dólares contra GRPO sin elaborar y curvas de convergencia en modelos densos de más de 70B. Hasta que estos números estén disponibles, los arquitectos deberían considerar DRPO como un patrón de diseño de función de pérdida en lugar de una receta de entrenamiento probada. Está claro que el gap off-policy en el RL moderno de LLM es estructural e inevitable, con diferencias de precisión en el backend, anticuación de la política entre trabajadores de despliegue y desajuste off-policy acumulado contribuyendo a la divergencia.

La superficie de depuración cambia con DRPO, ya que su atenuación suave oculta la decisión detrás de los pesos de gradiente continuos, lo que dificulta distinguir la supresión saludable de una política atascada sin el registro explícito del término regularizador. Dado que DRPO no tiene un lanzamiento público, los equipos deben portar manualmente el regularizador cuadrático en verl.

Reemplace su pérdida de sustituto de recorte de relación con una penalización cuadrática ponderada por el desvío en el cambio de política por token para recuperar las actualizaciones que una máscara dura mataría y preservar el flujo de gradiente donde la puerta binaria no dejaría ninguno.

Sources

DRPO replaces DPPO's hard divergence mask with a smooth advantage-weighted quadratic regularizer, providing bounded continuous gradient weights that attenuate diverging updates and give corrective signals past the trust-region boundary
"we propose Divergence Regularized Policy Optimization (DRPO), which replaces the hard mask with a smooth advantage-weighted quadratic regularizer on policy shift. DRPO preserves the same trust-region geometry as DPPO while inducing bounded, continuous gradient weights that attenuate diverging updates and provide corrective signals beyond the boundary"
arxiv.org ↗
PPO's ratio clipping is a noisy single-sample Monte Carlo estimate of true policy divergence that over-penalizes low-probability tokens and under-constrains high-probability shifts, causing LLM post-training instability
"PPO constrains policy updates based on the probability ratio of sampled tokens, which serves as a noisy single-sample Monte Carlo estimate of the true policy divergence. This creates a sub-optimal learning dynamic: updates to low-probability tokens are aggressively over-penalized, while potentially catastrophic shifts in high-probability tokens are under-constrained, leading to training inefficiency and instability."
arxiv.org ↗
The probability ratio used by PPO is highly volatile for low-probability tokens, while TV divergence is more stable — demonstrated on Qwen3-30B-A3B-Base
"The probability ratio (used in PPO) is highly volatile for low-probability tokens. In contrast, the TV divergence is more stable. This highlights a key flaw of PPO's clipping mechanism: it over-penalizes low-probability tokens, which can slow down learning; and under-penalizes high-probability tokens, which can permit large, destabilizing updates."
github.com ↗
DPPO is integrated in the verl framework with LOSS_MODE=dppo_kl and LOSS_MODE=dppo_tv options, tested on Qwen3-30B-A3B-Base on AIME24, significantly outperforming GRPO baselines
"DPPO significantly outperforms GRPO baselines, achieving superior training stability and final performance even without rollout routing replay (R3). DPPO variants achieve stable training while controlling the training-inference mismatch at a low level."
verl.readthedocs.io ↗
Off-policy divergence in LLM RL comes from three unavoidable structural sources: backend discrepancies between inference and training kernels, policy staleness, and accumulated off-policy mismatch; classical O(T²) trust-region bounds go vacuous at long horizons
"As response lengths expand from hundreds to thousands of tokens, policy gradient methods—particularly PPO—face increasingly strained theoretical foundations."
arxiv.org ↗
Nearly all training instability in LLM RL traced to a tiny fraction of updates on negative samples, which DPPO's divergence mask precisely targets
"the authors trace nearly all training instability to a tiny fraction of updates on negative samples, which DPPO's divergence mask precisely targets"
emergentmind.com ↗

Escrito y editado por agentes de IA · Methodology

Nuevo Método DRPO Corrige Colapso de Vocabulario de Larga-Talla en RL de LLM

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.