Escalonamento em Tempo de Inferência Não Substitui o RL por Recompensa de Tarefa, Aponta Estudo da Mila

Pesquisadores da Mila e da Université de Montréal publicaram a primeira comparação controlada entre aprendizado por reforço com recompensa de tarefa e afinamento de distribuição, constatando que o treinamento com RL instila novas capacidades que técnicas em tempo de inferência não conseguem replicar.

O artigo "Beyond Distribution Sharpening: The Importance of Task Rewards", de Sarthak Mittal, Leo Gagnon e Guillaume Lajoie, entra em um debate que dividiu a comunidade de pós-treinamento por mais de um ano. A hipótese do afinamento de distribuição sustenta que RLHF, GRPO e pipelines relacionados não ensinam nada de novo aos modelos — eles apenas tornam o modelo mais confiante em saídas que já considerava prováveis, efeito reproduzível por técnicas em tempo de inferência como beam search ou ajuste de temperatura. Isso significaria que pipelines de RL caros são redundantes e que estratégias de decodificação melhores poderiam fechar a lacuna.

Para testar essa hipótese, os autores construíram um framework de RL regularizado por KL unificado, expressando quatro objetivos de treinamento distintos sem alterar a maquinaria de treinamento subjacente: otimização pura por recompensa de tarefa, otimização pura por afinamento de distribuição, amostragem temperada (uma linha de base de afinamento em tempo de inferência) e amostragem inclinada (uma abordagem híbrida). Isolar o sinal dessa forma elimina fatores de confusão de diferentes otimizadores ou configurações de treinamento — qualquer diferença de desempenho é atribuível ao que está sendo otimizado, não ao como. Os experimentos foram realizados em benchmarks de raciocínio matemático de dificuldade variada usando três modelos ajustados por instrução: Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct e Qwen3-4B-Instruct-2507.

Os resultados foram inequívocos. O afinamento de distribuição — aplicado no treinamento ou na inferência — entregou ganhos de desempenho limitados e exibiu instabilidade fundamental. O artigo prova, a partir de primeiros princípios, que os ótimos de um objetivo de afinamento podem ser desfavoráveis e que o treinamento sob esse objetivo diverge. A otimização por recompensa de tarefa produziu ganhos de desempenho consistentes e curvas de aprendizado estáveis nos três modelos. A equipe também demonstrou teoricamente que, se os ganhos do RL fossem puramente um artefato de afinamento, eles atingiriam um platô de acordo com a qualidade da distribuição pré-treinada — um teto que o RL por recompensa de tarefa ultrapassa.

Para equipes corporativas que avaliam a decisão de construir ou comprar infraestrutura de RL, este artigo fecha uma brecha significativa. O argumento de que engenharia de prompt, amostragem best-of-N ou decodificação a baixa temperatura poderiam substituir um stack completo de treinamento RLHF ou GRPO agora conta com uma refutação empírica controlada. A implicação é direta: se você precisa de um modelo que execute com confiança raciocínio em múltiplas etapas, uso de ferramentas ou planejamento específico de domínio em qualidade de produção, você precisa de treinamento por recompensa de tarefa — não apenas de um wrapper de inferência mais sofisticado sobre um modelo base.

Os experimentos utilizam modelos ajustados por instrução de 3B–4B parâmetros em tarefas matemáticas, um domínio em que os sinais de recompensa são inequívocos (as respostas são corretas ou erradas). Se as descobertas se generalizam para modelos maiores, sinais de recompensa mais ruidosos — rótulos de preferência humana ou LLM-as-judge — ou domínios não matemáticos ainda não foi testado. Os autores também se concentram na família de objetivos regularizados por KL no estilo GRPO; modelos de recompensa por processo e Monte Carlo tree search estão fora do escopo.

O momento é oportuno. Diversas vozes influentes ao longo do último ano argumentaram que o escalonamento em tempo de inferência — amostragem com chain-of-thought, votação majoritária ou geração best-of-N — é um substituto suficiente para o RL de pós-treinamento, e que a indústria sobrecapitalizou em pipelines de treinamento. Este artigo, sem ser a palavra final, oferece as evidências metodologicamente mais rigorosas até o momento de que esses argumentos subestimam o que o RL por recompensa de tarefa faz à superfície de capacidades de um modelo.

O design de sinais de recompensa, conclui a equipe da Mila, permanece um componente central do escalonamento de capacidades — não um detalhe de implementação que uma decodificação mais inteligente consegue contornar.

Sources

Researchers at Mila and Université de Montréal published a controlled comparison of task-reward RL and distribution sharpening
"we present an explicit comparison between distribution sharpening and task-reward-based learning, utilizing RL as a tool to implement both paradigms"
arxiv.org ↗
The distribution sharpening hypothesis holds that RL pipelines merely make models more confident in already-likely outputs, reproducible by inference-time techniques
"this view holds that post-training primarily makes the model more confident in its existing preferences – it reduces uncertainty and concentrates probability mass on outputs that the model already considers plausible, rather than introducing fundamentally new behaviors"
arxiv.org ↗
The authors built a unified KL-regularized RL framework expressing four distinct objectives without changing the training machinery
"By varying the contribution of each term, we can express a spectrum of objectives within the exact same training procedure: pure task-reward optimization, distribution sharpening alone, or a combination of both"
arxiv.org ↗
Experiments were run on Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct, and Qwen3-4B-Instruct-2507 on math datasets
"our experiments using Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct and Qwen3-4B-Instruct-2507 on math datasets confirm that sharpening yields limited gains"
arxiv.org ↗
Distribution sharpening optimization is fundamentally unstable and its optima can be unfavorable, proven from first principles
"Our analysis reveals the inherent limitations of distribution sharpening, demonstrating from first principles how and why the optima can be unfavorable and the approach fundamentally unstable"
arxiv.org ↗
Task-reward optimization produced robust performance improvements and stable learning; sharpening yielded limited gains
"sharpening yields limited gains, whereas incorporating task-based reward signal can greatly help achieve robust performance improvements and stable learning"
arxiv.org ↗
If RL gains were purely a sharpening artifact, they would plateau based on the quality of the pre-trained distribution
"If the gains of RL fine-tuning arise primarily from distribution sharpening, then improvements may be achieved through better inference or confidence calibration, and would ultimately plateau based on the quality of the pre-trained distribution"
arxiv.org ↗
The design of reward signals remains a central component of capability scaling, per the paper's conclusion
"if task-reward optimization provides benefits beyond sharpening, then the design of reward signals remains a central component of capability scaling"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology