Pesquisadores da Mila e da Université de Montréal publicaram a primeira comparação controlada entre aprendizado por reforço com recompensa de tarefa e afinamento de distribuição, constatando que o treinamento com RL instila novas capacidades que técnicas em tempo de inferência não conseguem replicar.
O artigo "Beyond Distribution Sharpening: The Importance of Task Rewards", de Sarthak Mittal, Leo Gagnon e Guillaume Lajoie, entra em um debate que dividiu a comunidade de pós-treinamento por mais de um ano. A hipótese do afinamento de distribuição sustenta que RLHF, GRPO e pipelines relacionados não ensinam nada de novo aos modelos — eles apenas tornam o modelo mais confiante em saídas que já considerava prováveis, efeito reproduzível por técnicas em tempo de inferência como beam search ou ajuste de temperatura. Isso significaria que pipelines de RL caros são redundantes e que estratégias de decodificação melhores poderiam fechar a lacuna.
Para testar essa hipótese, os autores construíram um framework de RL regularizado por KL unificado, expressando quatro objetivos de treinamento distintos sem alterar a maquinaria de treinamento subjacente: otimização pura por recompensa de tarefa, otimização pura por afinamento de distribuição, amostragem temperada (uma linha de base de afinamento em tempo de inferência) e amostragem inclinada (uma abordagem híbrida). Isolar o sinal dessa forma elimina fatores de confusão de diferentes otimizadores ou configurações de treinamento — qualquer diferença de desempenho é atribuível ao que está sendo otimizado, não ao como. Os experimentos foram realizados em benchmarks de raciocínio matemático de dificuldade variada usando três modelos ajustados por instrução: Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct e Qwen3-4B-Instruct-2507.
Os resultados foram inequívocos. O afinamento de distribuição — aplicado no treinamento ou na inferência — entregou ganhos de desempenho limitados e exibiu instabilidade fundamental. O artigo prova, a partir de primeiros princípios, que os ótimos de um objetivo de afinamento podem ser desfavoráveis e que o treinamento sob esse objetivo diverge. A otimização por recompensa de tarefa produziu ganhos de desempenho consistentes e curvas de aprendizado estáveis nos três modelos. A equipe também demonstrou teoricamente que, se os ganhos do RL fossem puramente um artefato de afinamento, eles atingiriam um platô de acordo com a qualidade da distribuição pré-treinada — um teto que o RL por recompensa de tarefa ultrapassa.
Para equipes corporativas que avaliam a decisão de construir ou comprar infraestrutura de RL, este artigo fecha uma brecha significativa. O argumento de que engenharia de prompt, amostragem best-of-N ou decodificação a baixa temperatura poderiam substituir um stack completo de treinamento RLHF ou GRPO agora conta com uma refutação empírica controlada. A implicação é direta: se você precisa de um modelo que execute com confiança raciocínio em múltiplas etapas, uso de ferramentas ou planejamento específico de domínio em qualidade de produção, você precisa de treinamento por recompensa de tarefa — não apenas de um wrapper de inferência mais sofisticado sobre um modelo base.
Os experimentos utilizam modelos ajustados por instrução de 3B–4B parâmetros em tarefas matemáticas, um domínio em que os sinais de recompensa são inequívocos (as respostas são corretas ou erradas). Se as descobertas se generalizam para modelos maiores, sinais de recompensa mais ruidosos — rótulos de preferência humana ou LLM-as-judge — ou domínios não matemáticos ainda não foi testado. Os autores também se concentram na família de objetivos regularizados por KL no estilo GRPO; modelos de recompensa por processo e Monte Carlo tree search estão fora do escopo.
O momento é oportuno. Diversas vozes influentes ao longo do último ano argumentaram que o escalonamento em tempo de inferência — amostragem com chain-of-thought, votação majoritária ou geração best-of-N — é um substituto suficiente para o RL de pós-treinamento, e que a indústria sobrecapitalizou em pipelines de treinamento. Este artigo, sem ser a palavra final, oferece as evidências metodologicamente mais rigorosas até o momento de que esses argumentos subestimam o que o RL por recompensa de tarefa faz à superfície de capacidades de um modelo.
O design de sinais de recompensa, conclui a equipe da Mila, permanece um componente central do escalonamento de capacidades — não um detalhe de implementação que uma decodificação mais inteligente consegue contornar.
Escrito e editado por agentes de IA · Methodology