Artigo do Mila Mostra que Recompensas de Tarefas em RL Ensinam Novas Habilidades, Não Apenas Aprimoram Modelos

Um artigo do Mila e da Université de Montréal, publicado em 17 de abril, resolve um debate central na pesquisa aplicada de LLM: o aprendizado por reforço com recompensas baseadas em tarefas ensina novas habilidades aos modelos — ele não se limita a concentrar a massa de probabilidade em saídas que o modelo já favorecia. A descoberta tem consequências diretas sobre como equipes de IA alocam o compute de pós-treinamento e projetam pipelines de recompensa.

O debate gira em torno da "hipótese de aguçamento de distribuição", que sustenta que o ajuste fino por RL funciona tornando o modelo mais confiante em suas preferências existentes, em vez de expandir sua superfície de capacidade. Os defensores apontam evidências de que procedimentos em tempo de inferência — que não exigem treinamento algum — conseguem recuperar desempenho sólido em benchmarks de raciocínio ao concentrar a probabilidade em saídas de alta verossimilhança. Se verdadeira, a implicação é que o treinamento por RL é uma redundância cara: uma calibração melhor ou uma decodificação mais inteligente seria suficiente.

Os pesquisadores Sarthak Mittal, Leo Gagnon e Guillaume Lajoie submeteram essa hipótese a testes rigorosos usando um framework unificado. Eles utilizaram o objetivo padrão de RL com regularização por KL — que equilibra um termo de maximização de recompensa contra uma penalidade de divergência KL em relação a uma distribuição de referência — e variaram a contribuição de cada componente para isolar quatro regimes de treinamento: otimização pura de recompensa de tarefa, otimização de aguçamento de distribuição (em que a "recompensa" é simplesmente a log-probabilidade sob o modelo base) e duas variantes híbridas chamadas Tilted Sampling e Tempered Sampling. Como todos os quatro métodos compartilham o mesmo procedimento de treinamento subjacente, as diferenças observadas refletem o sinal sendo otimizado, não artefatos de mudança de framework.

O veredicto contra o aguçamento de distribuição é tanto teórico quanto empírico. O artigo demonstra a partir de primeiros princípios que os ótimos dos objetivos de aguçamento puro são desfavoráveis e que a otimização é instável. Experimentos com Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct e Qwen3-4B-Instruct em conjuntos de dados de raciocínio matemático confirmam a teoria: o aguçamento isolado produz ganhos limitados, enquanto a incorporação de sinais de recompensa baseados em tarefas produz melhorias de desempenho estáveis nas três famílias de modelos.

Para equipes de IA empresariais, a implicação arquitetural é inequívoca: o design de funções de recompensa não é uma preocupação secundária que pode ser adiada ou aproximada. Se os ganhos pós-treinamento derivassem principalmente do aguçamento, as organizações poderiam ter trocado os pipelines de RL por escalonamento em tempo de inferência mais barato — amostragem best-of-N, estratégias de decodificação especulativa ou varreduras de temperatura. Este artigo fecha essa saída. A qualidade do sinal de recompensa de tarefa é um insumo de primeira ordem para o ganho de capacidade, não um detalhe a ser emprestado de trabalhos adjacentes.

Os resultados também recontextualizam a interpretação de saltos de avaliação após o ajuste fino por RL. Equipes que atribuíram melhorias de modelos a melhor formatação de saída ou maior confiança em padrões de raciocínio existentes talvez precisem revisitar essas atribuições. O framework do artigo fornece um diagnóstico controlado — executar um baseline de aguçamento puro contra uma execução com recompensa de tarefa na mesma arquitetura e conjunto de dados produz uma separação clara dos dois efeitos.

Limitações persistem. Os experimentos focam em raciocínio matemático, um domínio com recompensas binárias baratas e verificáveis. Tarefas em que o sinal de recompensa é ruidoso, atrasado ou requer modelagem de preferência humana — agentes de codificação, uso de ferramentas em múltiplas etapas, geração aberta — podem produzir trade-offs diferentes. Se a descoberta de instabilidade para o aguçamento puro se generaliza a contagens de parâmetros maiores e horizontes de treinamento mais longos ainda não foi demonstrado. Esses são os experimentos certos a serem realizados na sequência.

O veredicto central é direto: as recompensas de tarefas estão fazendo trabalho real. A engenharia de recompensa merece o mesmo rigor que a seleção de arquitetura.

Sources

Distribution sharpening optimization is fundamentally unstable and its optima are inherently unfavorable
"Our analysis reveals the inherent limitations of distribution sharpening, demonstrating from first principles how and why the optima can be unfavorable and the approach fundamentally unstable."
arxiv.org ↗
Sharpening alone yields limited gains while task-based rewards produce robust improvements and stable learning
"our experiments using Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct and Qwen3-4B-Instruct-2507 on math datasets confirm that sharpening yields limited gains, whereas incorporating task-based reward signal can greatly help achieve robust performance improvements and stable learning."
arxiv.org ↗
The paper compares four regimes — Task-Reward Optimization, Tilted Sampling, Distribution Sharpening Optimization, and Tempered Sampling — all within the same RL training framework
"we leverage the standard KL-regularized RL framework used for LLM fine-tuning, which combines a reward maximization objective with a KL divergence term against a target distribution. By varying the contribution of each term, we can express a spectrum of objectives within the exact same training procedure"
arxiv.org ↗
The distribution sharpening hypothesis holds that RL post-training primarily concentrates probability mass on existing high-likelihood outputs rather than introducing new behaviors
"this view holds that post-training primarily makes the model more confident in its existing preferences – it reduces uncertainty and concentrates probability mass on outputs that the model already considers plausible, rather than introducing fundamentally new behaviors."
arxiv.org ↗
Authors Sarthak Mittal, Leo Gagnon, and Guillaume Lajoie are affiliated with Mila and Université de Montréal
"Sarthak Mittal 1,2, Leo Gagnon1,2, Guillaume Lajoie1,2 1Mila 2Université de Montréal"
arxiv.org ↗
Inference-time training-free procedures that concentrate probability on high-likelihood trajectories can recover strong reasoning performance, cited as support for the sharpening hypothesis
"this hypothesis is supported by recent results showing that inference-time (i.e. training-free) procedures which concentrate probability mass on high-likelihood trajectories can recover strong performance on reasoning tasks"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology