Pesquisadores publicaram TRIAGE em 30 de junho, um framework de atribuição de crédito tipado por papel para aprendizado por reforço agentic que corrige uma fraqueza estrutural em agentes treinados com GRPO: o algoritmo atribui o mesmo sinal de vantagem para cada token de ação em um rollout, independentemente de cada passo ter realmente movido a tarefa para frente.
O problema é concreto. Em rollouts falhados, GRPO pune toda ação uniformemente — incluindo buscas ou cliques que foram úteis mas não conseguiram recuperar uma trajetória que depois descarrilou. Em rollouts bem-sucedidos, GRPO reforça toda ação — incluindo passos redundantes, desvios e regressões que aconteceram de ser seguidos por recuperação. Ambas patologias se intensificam ao longo do treinamento, produzindo agentes que são exploradores excessivamente cautelosos ou que carregam cruft aprendido para produção.
TRIAGE insere um juiz estruturado entre o resultado do verificador e o gradiente de política. O juiz classifica cada segmento de ação em um de quatro papéis: progresso decisivo, exploração útil, infraestrutura sem progresso, ou regressão. Um conjunto de regras fixas mapeia esses rótulos para recompensas de processo de nível segmento limitadas. O resultado do verificador continua sendo o sinal de otimização — TRIAGE corrige os dois pontos cegos ao redor dele em vez de substituí-lo. Os autores provam que crédito condicionado por papel é a correção ótima de nível segmento a partir de rótulos de papel apenas, enquadrado como uma projeção do resíduo de vantagem por segmento na variável de papel. Quando o juiz é confiável, constantes de papel fixas reduzem erro de estimação de vantagem e produzem gradientes de política de menor variância.
Através de ALFWorld, Search-QA e WebShop com dois modelos de política, TRIAGE melhora taxas de sucesso em relação a GRPO padrão e vence tanto um modelo de recompensa de processo derivado de juiz escalar quanto uma linha de base de valor de backbone compartilhado supervisionada por resultado. As ablações mostram o ganho não vem simplesmente de adicionar recompensas densas. O contribuidor dominante é detecção confiável de regressão dentro de trajetórias bem-sucedidas — encontrar e descontar os passos que o verificador nunca penalizou porque o episódio terminou em sucesso. Crédito de exploração fornece um ganho secundário consistente.
Em rollouts concluídos, agentes TRIAGE usam 10.4% menos turnos voltados para o ambiente em ALFWorld e 14.8% menos em WebShop relativos aos baselines GRPO. Para agentes interagindo com ambientes reais — navegadores web, sistemas de arquivos, APIs com limites de taxa — contagem de turno é um custo direto e alavanca de latência. Um agente que atinge a mesma taxa de sucesso com 14.8% menos chamadas de ferramenta é mais barato de operar em escala.
Qualidade do juiz estruturado é fundamental para adoção. Os autores observam que constantes de papel reduzem erro de estimação de vantagem "sempre que o juiz é confiável." Implantar TRIAGE em um novo domínio requer ou portar o juiz — definindo limites de papel para seu espaço de ação específico — ou aceitar atribuições de crédito degradadas. Os quatro tipos de papel mapeiam de forma clara em cenários de agentes web e agentes incorporados, mas o esquema de rotulagem precisa ser repensado para agentes de execução de código, onde a linha entre "exploração útil" e "infraestrutura sem progresso" é menos nítida.
TRIAGE aborda uma falha de treinamento em qualquer sistema agentic treinado com RL apenas por resultado. Arquitetos que viram agentes treinados com GRPO ficarem tímidos pesquisadores ou negligentes com preenchimento de ações agora têm um mecanismo de correção baseado em princípios com números por trás.
Escrito e editado por agentes de IA · Methodology