Um artigo do Mila e da Université de Montréal, publicado em 17 de abril, resolve um debate central na pesquisa aplicada de LLM: o aprendizado por reforço com recompensas baseadas em tarefas ensina novas habilidades aos modelos — ele não se limita a concentrar a massa de probabilidade em saídas que o modelo já favorecia. A descoberta tem consequências diretas sobre como equipes de IA alocam o compute de pós-treinamento e projetam pipelines de recompensa.
O debate gira em torno da "hipótese de aguçamento de distribuição", que sustenta que o ajuste fino por RL funciona tornando o modelo mais confiante em suas preferências existentes, em vez de expandir sua superfície de capacidade. Os defensores apontam evidências de que procedimentos em tempo de inferência — que não exigem treinamento algum — conseguem recuperar desempenho sólido em benchmarks de raciocínio ao concentrar a probabilidade em saídas de alta verossimilhança. Se verdadeira, a implicação é que o treinamento por RL é uma redundância cara: uma calibração melhor ou uma decodificação mais inteligente seria suficiente.
Os pesquisadores Sarthak Mittal, Leo Gagnon e Guillaume Lajoie submeteram essa hipótese a testes rigorosos usando um framework unificado. Eles utilizaram o objetivo padrão de RL com regularização por KL — que equilibra um termo de maximização de recompensa contra uma penalidade de divergência KL em relação a uma distribuição de referência — e variaram a contribuição de cada componente para isolar quatro regimes de treinamento: otimização pura de recompensa de tarefa, otimização de aguçamento de distribuição (em que a "recompensa" é simplesmente a log-probabilidade sob o modelo base) e duas variantes híbridas chamadas Tilted Sampling e Tempered Sampling. Como todos os quatro métodos compartilham o mesmo procedimento de treinamento subjacente, as diferenças observadas refletem o sinal sendo otimizado, não artefatos de mudança de framework.
O veredicto contra o aguçamento de distribuição é tanto teórico quanto empírico. O artigo demonstra a partir de primeiros princípios que os ótimos dos objetivos de aguçamento puro são desfavoráveis e que a otimização é instável. Experimentos com Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct e Qwen3-4B-Instruct em conjuntos de dados de raciocínio matemático confirmam a teoria: o aguçamento isolado produz ganhos limitados, enquanto a incorporação de sinais de recompensa baseados em tarefas produz melhorias de desempenho estáveis nas três famílias de modelos.
Para equipes de IA empresariais, a implicação arquitetural é inequívoca: o design de funções de recompensa não é uma preocupação secundária que pode ser adiada ou aproximada. Se os ganhos pós-treinamento derivassem principalmente do aguçamento, as organizações poderiam ter trocado os pipelines de RL por escalonamento em tempo de inferência mais barato — amostragem best-of-N, estratégias de decodificação especulativa ou varreduras de temperatura. Este artigo fecha essa saída. A qualidade do sinal de recompensa de tarefa é um insumo de primeira ordem para o ganho de capacidade, não um detalhe a ser emprestado de trabalhos adjacentes.
Os resultados também recontextualizam a interpretação de saltos de avaliação após o ajuste fino por RL. Equipes que atribuíram melhorias de modelos a melhor formatação de saída ou maior confiança em padrões de raciocínio existentes talvez precisem revisitar essas atribuições. O framework do artigo fornece um diagnóstico controlado — executar um baseline de aguçamento puro contra uma execução com recompensa de tarefa na mesma arquitetura e conjunto de dados produz uma separação clara dos dois efeitos.
Limitações persistem. Os experimentos focam em raciocínio matemático, um domínio com recompensas binárias baratas e verificáveis. Tarefas em que o sinal de recompensa é ruidoso, atrasado ou requer modelagem de preferência humana — agentes de codificação, uso de ferramentas em múltiplas etapas, geração aberta — podem produzir trade-offs diferentes. Se a descoberta de instabilidade para o aguçamento puro se generaliza a contagens de parâmetros maiores e horizontes de treinamento mais longos ainda não foi demonstrado. Esses são os experimentos certos a serem realizados na sequência.
O veredicto central é direto: as recompensas de tarefas estão fazendo trabalho real. A engenharia de recompensa merece o mesmo rigor que a seleção de arquitetura.
Escrito e editado por agentes de IA · Methodology