Nueva Familia de Funciones de Pérdida Corrige Fine-Tuning RLVR de Cold-Start

Los investigadores Chu-Cheng Lin y Eugene Ie publicaron una familia de funciones de pérdida construida en el q-logaritmo de Tsallis que resuelve directamente el problema de estancamiento en cold-start en aprendizaje por refuerzo de recompensas verificables (RLVR)—la condición donde la tasa de éxito inicial del modelo en una tarea nueva es cercana a cero, común al adaptar modelos de razonamiento frontier a dominios especializados.

El paper "How Fast Should a Model Commit to Supervision?" define una función de pérdida parametrizada J_Q controlada por un único dial, q. En q=0, la pérdida es RLVR puro, el modo de explotación que la mayoría de equipos usa con algoritmos como GRPO. En q=1, se convierte en estimación de log-marginal-likelihood sobre trayectorias de razonamiento latentes. El mecanismo es un factor de amplificación escalar P_θ^{-q} que repesa cada ejemplo de entrenamiento independientemente de la tasa de aprendizaje, sin cambios en la arquitectura del modelo o inferencia.

Bajo análisis de gradient flow, RLVR puro (q=0) requiere Ω(1/p₀) iteraciones para escapar del cold start cuando la probabilidad de éxito inicial por problema p₀ es pequeña. El polo de estimación de densidad (q=1) lo reduce a Θ(log(1/p₀))—una brecha log-versus-linear que se vuelve decisiva cuando p₀ es 0.01 en un nuevo dominio. Valores intermedios de q intercambian velocidad de escape contra memorización de ruido.

El paper deriva dos estimadores de Monte Carlo para el término de amplificación intratable P_θ. Aprendizaje por Refuerzo Amplificado en Gradiente (GARL) muestrea del prior y repesa el gradiente RL estándar. Fine-Tuning con Atenuación Posterior (PAFT) remuestrea por importancia del posterior y ejecuta fine-tuning supervisado en las trayectorias remuestreadas. GARL lleva varianza menor; PAFT produce gradientes más estables durante el entrenamiento. Ambos estimadores comparten sesgo O(q / (M · P_θ^{q+1})) donde M es el número de trayectorias muestreadas.

Benchmarks en FinQA, HotPotQA y MuSiQue validaron la teoría. En condiciones de cold-start, GARL con q=0.75 escapa del estancamiento en tareas donde GRPO falla completamente. En condiciones de warm-start, GARL con q bajo domina en FinQA. En HotPotQA y MuSiQue, q mayor desestabiliza; al cambiar a PAFT con q=0.75, se recuperó estabilidad y se logró 47.9 maj@16 en HotPotQA—una ganancia de 14.4 puntos sobre GRPO.

Para equipos empresariales, la implicación es directa. Fine-tuning RLVR se ha convertido en el estándar para extraer razonamiento de modelos como derivados de DeepSeek-R1 sin reentrenamiento completo, pero falla silenciosamente cuando la precisión lista para usar en la tarea objetivo es baja—común en verticales legales, científicas o financieras con vocabulario estrecho y razonamiento multi-hop. Este trabajo proporciona una actualización drop-in: use J_Q con q ligeramente por debajo de 1 durante cold start, luego haga annealing hacia q=0 conforme el modelo gana tracción, cambiando a PAFT cuando la estabilidad del gradiente importa.

Quedan preguntas abiertas en q-scheduling. El paper no proporciona un método automatizado para selección o annealing de q durante el entrenamiento. El comportamiento de scaling entre tamaños de modelo no está caracterizado. El análisis de gradient flow proporciona a los equipos un diagnóstico: medir p₀ en su tarea objetivo antes de comprometerse con una receta de entrenamiento, y dejar que ese número guíe la selección de q en lugar de usar por defecto RLVR puro.

Sources

The loss family J_Q interpolates between RLVR at q=0 (exploitation pole) and log-marginal-likelihood at q=1 (density-estimation pole)
"Using the Tsallis q-logarithm, we define a loss family J_Q that interpolates between RLVR (at q=0, the exploitation pole) and the log-marginal-likelihood over latent trajectories (at q=1, the density-estimation pole)."
arxiv.org ↗
Pure RLVR (q=0) requires Ω(1/p₀) iterations to escape cold start; the density-estimation pole (q=1) escapes in Θ(log(1/p₀))
"under gradient flow, the exploitation pole requires Ω(1/p_0) time to escape cold start, while the density-estimation pole escapes in Θ(log(1/p_0))"
arxiv.org ↗
The scalar amplification factor P_θ^{-q} reweights each training instance independently of the learning rate
"All members share the same per-example gradient direction, differing only by a scalar amplification P_{θ^{-q}} that reweights each instance independently of the learning rate."
arxiv.org ↗
GARL samples from the prior and amplifies the RL gradient; PAFT importance-resamples from the posterior and runs standard SFT
"Gradient-Amplified RL (GARL) samples from the prior and amplifies the RL gradient, and Posterior-Attenuated Fine-Tuning (PAFT) importance-resamples from the posterior and runs standard SFT."
arxiv.org ↗
Both estimators share a bias of O(q / (M · P_θ^{q+1})); GARL has lower variance, PAFT has semantically coherent gradients
"Both have bias O(q / (M P_θ^{q+1})); GARL has lower variance, PAFT has semantically coherent gradients."
arxiv.org ↗
GARL at q=0.75 escapes cold-start stalling where GRPO fails entirely on FinQA, HotPotQA, and MuSiQue
"GARL at q=0.75 substantially mitigates cold-start stalling, escaping cold start where GRPO fails entirely."
arxiv.org ↗
PAFT at q=0.75 achieves best overall result on HotPotQA at 47.9 maj@16, +14.4 over GRPO
"PAFT at q=0.75 provides stable gradients (best overall on HotPotQA at 47.9 maj@16, +14.4 over GRPO)."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Nueva Familia de Funciones de Pérdida Corrige Fine-Tuning RLVR de Cold-Start

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.