Nova Família de Funções de Perda Corrige Fine-Tuning RLVR de Cold-Start

Os pesquisadores Chu-Cheng Lin e Eugene Ie publicaram uma família de funções de perda construída no q-logaritmo de Tsallis que resolve diretamente o problema de estagnação em cold-start no aprendizado por reforço de recompensas verificáveis (RLVR) — a condição em que a taxa de sucesso inicial do modelo em uma tarefa nova é próxima a zero, comum ao adaptar modelos de raciocínio frontier a domínios especializados.

O paper "How Fast Should a Model Commit to Supervision?" define uma função de perda parametrizada J_Q controlada por um único dial, q. Em q=0, a perda é RLVR puro, o modo de exploração que a maioria dos times usa com algoritmos como GRPO. Em q=1, torna-se estimativa de log-marginal-likelihood sobre trajetórias latentes de raciocínio. O mecanismo é um fator de amplificação escalar P_θ^{-q} que repesa cada exemplo de treinamento independentemente da taxa de aprendizado, sem necessidade de mudanças na arquitetura do modelo ou inferência.

Sob análise de gradient flow, RLVR puro (q=0) requer Ω(1/p₀) iterações para escapar do cold start quando a probabilidade de sucesso inicial por problema p₀ é pequena. O polo de estimativa de densidade (q=1) reduz isso para Θ(log(1/p₀))—um gap log-versus-linear que se torna decisivo quando p₀ é 0.01 em um novo domínio. Valores intermediários de q trocam velocidade de escape contra memorização de ruído.

O paper deriva dois estimadores Monte Carlo para o termo de amplificação intratável P_θ. Aprendizado por Reforço Amplificado em Gradiente (GARL) amostra do prior e repesa o gradiente RL padrão. Fine-Tuning com Atenuação Posterior (PAFT) reamostra por importância do posterior e executa fine-tuning supervisionado nas trajetórias reamostradas. GARL carrega variância mais baixa; PAFT produz gradientes mais estáveis durante treinamento. Ambos os estimadores compartilham bias O(q / (M · P_θ^{q+1})) onde M é o número de trajetórias amostradas.

Benchmarks em FinQA, HotPotQA e MuSiQue validaram a teoria. Em condições de cold-start, GARL com q=0.75 escapa da estagnação em tarefas onde GRPO falha completamente. Em condições de warm-start, GARL com q baixo domina em FinQA. Em HotPotQA e MuSiQue, q maior desestabiliza; ao mudar para PAFT com q=0.75, recuperou-se estabilidade e alcançou-se 47.9 maj@16 em HotPotQA—um ganho de 14.4 pontos sobre GRPO.

Para times enterprise, a implicação é direta. Fine-tuning RLVR tornou-se o padrão para extrair raciocínio de modelos como derivados de DeepSeek-R1 sem retreinamento completo, mas falha silenciosamente quando a precisão pronta em uma tarefa alvo é baixa—comum em verticais legais, científicas ou financeiras com vocabulário estreito e raciocínio multi-hop. Este trabalho fornece uma upgrade drop-in: use J_Q com q ligeiramente abaixo de 1 durante cold start, depois anneal em direção a q=0 conforme o modelo ganha tração, mudando para PAFT quando estabilidade de gradiente importa.

Questões abertas permanecem em q-scheduling. O paper não fornece um método automatizado para seleção ou annealing de q durante treinamento. Comportamento de scaling entre tamanhos de modelo é não caracterizado. A análise de gradient flow oferece aos times um diagnóstico: medir p₀ em sua tarefa alvo antes de comprometer-se com uma receita de treinamento, e deixar esse número guiar a seleção de q em vez de usar RLVR puro como padrão.

Sources

The loss family J_Q interpolates between RLVR at q=0 (exploitation pole) and log-marginal-likelihood at q=1 (density-estimation pole)
"Using the Tsallis q-logarithm, we define a loss family J_Q that interpolates between RLVR (at q=0, the exploitation pole) and the log-marginal-likelihood over latent trajectories (at q=1, the density-estimation pole)."
arxiv.org ↗
Pure RLVR (q=0) requires Ω(1/p₀) iterations to escape cold start; the density-estimation pole (q=1) escapes in Θ(log(1/p₀))
"under gradient flow, the exploitation pole requires Ω(1/p_0) time to escape cold start, while the density-estimation pole escapes in Θ(log(1/p_0))"
arxiv.org ↗
The scalar amplification factor P_θ^{-q} reweights each training instance independently of the learning rate
"All members share the same per-example gradient direction, differing only by a scalar amplification P_{θ^{-q}} that reweights each instance independently of the learning rate."
arxiv.org ↗
GARL samples from the prior and amplifies the RL gradient; PAFT importance-resamples from the posterior and runs standard SFT
"Gradient-Amplified RL (GARL) samples from the prior and amplifies the RL gradient, and Posterior-Attenuated Fine-Tuning (PAFT) importance-resamples from the posterior and runs standard SFT."
arxiv.org ↗
Both estimators share a bias of O(q / (M · P_θ^{q+1})); GARL has lower variance, PAFT has semantically coherent gradients
"Both have bias O(q / (M P_θ^{q+1})); GARL has lower variance, PAFT has semantically coherent gradients."
arxiv.org ↗
GARL at q=0.75 escapes cold-start stalling where GRPO fails entirely on FinQA, HotPotQA, and MuSiQue
"GARL at q=0.75 substantially mitigates cold-start stalling, escaping cold start where GRPO fails entirely."
arxiv.org ↗
PAFT at q=0.75 achieves best overall result on HotPotQA at 47.9 maj@16, +14.4 over GRPO
"PAFT at q=0.75 provides stable gradients (best overall on HotPotQA at 47.9 maj@16, +14.4 over GRPO)."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Nova Família de Funções de Perda Corrige Fine-Tuning RLVR de Cold-Start

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.