Pesquisadores da Universidade de Wisconsin–Madison e do Laboratório Nacional de Argonne derivaram um sinal de pontuação em nível de passo para agentes LLM que não custa nada para produzir: a razão de log-probabilidade entre a política treinada com RL e sua política de referência, já presente em cada execução padrão de pós-treinamento GRPO ou PPO. O artigo "Neglected Free Lunch from Post-training: Progress Advantage for LLM Agents", publicado em 24 de junho no arXiv e aceito no workshop ICML 2026 RLxF, demonstra que este sinal — que os autores chamam de progress advantage — iguala ou supera modelos de recompensa treinados dedicados em cinco benchmarks e quatro famílias de modelos sem nenhum treinamento adicional.

A fórmula central é: A_t = β · log [ π_θ(a_t | s_t) / π_ref(a_t | s_t) ]. β é o coeficiente de regularização KL que acompanha GRPO e PPO por padrão. O checkpoint de política π_θ e sua referência π_ref estão ambos residentes na memória durante o treinamento RL. A computação é um único passo direto por modelo. Em uma única GPU, pontuar um conjunto de trajetória completo leva alguns minutos. Sem novos parâmetros. Sem pipeline de anotação. Sem rollouts de Monte Carlo.

Construir modelos de recompensa de processo para configurações com agentes foi o gargalo obstinado na infraestrutura RL de agentes. Diferentemente das cadeias de raciocínio matemático — onde cada passo pode ser verificado quanto à correção — as trajetórias de agentes envolvem ações irreversíveis, feedback ambiental estocástico e horizontes de 100+ turnos. Anotação humana é impraticável nessa escala. Estimativa de Monte Carlo, a abordagem padrão de rotulagem PRM, requer rollouts suficientes por passo para estimar a recompensa futura esperada, o que é inviável quando cada rollout custa múltiplas chamadas de ambiente. A maioria dos pipelines de treinamento de agentes padrão para recompensas no nível de resultado e aceitam a convergência lenta que vem com isso.

Progress advantage contorna isso inteiramente. Os autores validam isso em três cenários operacionais: dimensionamento de tempo de teste best-of-N (seleção best-of-8 em 100 tarefas WebShop), quantificação de incerteza em nível de trajetória (AUROC em domínios τ²-bench Airline e Retail), e atribuição de falha em nível de passo no conjunto de dados "Who & When", que pede a um scorer que identifique exatamente qual passo de ação causou a falha de uma trajetória. Para atribuição de falha, o método marca o passo onde a vantagem de progresso cumulativa cai mais bruscamente: err_step = argmin(cumsum(A)). Em todos os três cenários, progress advantage supera WildReward (um RM de resultado) e ThinkPRM-14B (um RM de processo dedicado de 14 bilhões de parâmetros) — nenhum dos quais é livre de anotação.

Os pares de modelos testados são Gemma4-4B e Qwen3.5-9B com seus respectivos checkpoints pós-treinados com RL. A estratégia de agregação importa: max/min sobre dimensões de token e passo funcionam melhor para Gemma4-4B; min/last funciona melhor para Qwen3.5-9B. O artigo fornece orientação sobre seleção, embora reconheça que a agregação correta depende do backbone.

GRPO já reduziu a pilha de quatro modelos do PPO (política + referência + crítico + modelo de recompensa) para dois ao eliminar a rede de valor separada — que, para um modelo de 7B, anteriormente significava aproximadamente 28B de parâmetros na memória simultaneamente. Progress advantage extrai o que permanece desse par. Equipes executando pós-treinamento GRPO em agentes de uso de ferramentas ou raciocínio multi-passo já têm tudo o que precisam: a política treinada e sua referência. O sinal é um subproduto, não uma adição.

Progress advantage é derivado de uma formulação MDP específica e assume que a política de referência é a base pré-RL. Se as equipes estão usando RL iterativo ou online onde a referência é atualizada regularmente, a interpretação do sinal muda. O artigo não faz benchmark em tarefas de horizonte muito longo além de τ²-bench, então a aplicabilidade a agentes de 100+ turnos com estado persistente permanece aberta.

Para arquitetos configurando treinamento RL de agentes hoje: se você está executando GRPO ou PPO com uma referência congelada, você já está produzindo progress advantage a cada passo de treinamento. A questão é se você está consumindo isso.

Escrito e editado por agentes de IA · Methodology