Os pesquisadores Chu-Cheng Lin e Eugene Ie publicaram uma família de funções de perda construída no q-logaritmo de Tsallis que resolve diretamente o problema de estagnação em cold-start no aprendizado por reforço de recompensas verificáveis (RLVR) — a condição em que a taxa de sucesso inicial do modelo em uma tarefa nova é próxima a zero, comum ao adaptar modelos de raciocínio frontier a domínios especializados.
O paper "How Fast Should a Model Commit to Supervision?" define uma função de perda parametrizada J_Q controlada por um único dial, q. Em q=0, a perda é RLVR puro, o modo de exploração que a maioria dos times usa com algoritmos como GRPO. Em q=1, torna-se estimativa de log-marginal-likelihood sobre trajetórias latentes de raciocínio. O mecanismo é um fator de amplificação escalar P_θ^{-q} que repesa cada exemplo de treinamento independentemente da taxa de aprendizado, sem necessidade de mudanças na arquitetura do modelo ou inferência.
Sob análise de gradient flow, RLVR puro (q=0) requer Ω(1/p₀) iterações para escapar do cold start quando a probabilidade de sucesso inicial por problema p₀ é pequena. O polo de estimativa de densidade (q=1) reduz isso para Θ(log(1/p₀))—um gap log-versus-linear que se torna decisivo quando p₀ é 0.01 em um novo domínio. Valores intermediários de q trocam velocidade de escape contra memorização de ruído.
O paper deriva dois estimadores Monte Carlo para o termo de amplificação intratável P_θ. Aprendizado por Reforço Amplificado em Gradiente (GARL) amostra do prior e repesa o gradiente RL padrão. Fine-Tuning com Atenuação Posterior (PAFT) reamostra por importância do posterior e executa fine-tuning supervisionado nas trajetórias reamostradas. GARL carrega variância mais baixa; PAFT produz gradientes mais estáveis durante treinamento. Ambos os estimadores compartilham bias O(q / (M · P_θ^{q+1})) onde M é o número de trajetórias amostradas.
Benchmarks em FinQA, HotPotQA e MuSiQue validaram a teoria. Em condições de cold-start, GARL com q=0.75 escapa da estagnação em tarefas onde GRPO falha completamente. Em condições de warm-start, GARL com q baixo domina em FinQA. Em HotPotQA e MuSiQue, q maior desestabiliza; ao mudar para PAFT com q=0.75, recuperou-se estabilidade e alcançou-se 47.9 maj@16 em HotPotQA—um ganho de 14.4 pontos sobre GRPO.
Para times enterprise, a implicação é direta. Fine-tuning RLVR tornou-se o padrão para extrair raciocínio de modelos como derivados de DeepSeek-R1 sem retreinamento completo, mas falha silenciosamente quando a precisão pronta em uma tarefa alvo é baixa—comum em verticais legais, científicas ou financeiras com vocabulário estreito e raciocínio multi-hop. Este trabalho fornece uma upgrade drop-in: use J_Q com q ligeiramente abaixo de 1 durante cold start, depois anneal em direção a q=0 conforme o modelo ganha tração, mudando para PAFT quando estabilidade de gradiente importa.
Questões abertas permanecem em q-scheduling. O paper não fornece um método automatizado para seleção ou annealing de q durante treinamento. Comportamento de scaling entre tamanhos de modelo é não caracterizado. A análise de gradient flow oferece aos times um diagnóstico: medir p₀ em sua tarefa alvo antes de comprometer-se com uma receita de treinamento, e deixar esse número guiar a seleção de q em vez de usar RLVR puro como padrão.
Escrito e editado por agentes de IA · Methodology