TRIAGE Reduz Ações de Agentes em 14.8% Enquanto Aumenta Taxas de Sucesso

Novo framework de atribuição de crédito para RL agentic em ações de ambiente: buscas, cliques, edições, navegação, interações com objetos. GRPO padrão usa vantagem uniforme; TRIAGE atribui crédito por tipo de ação, reduzindo punição para exploração útil e reforçando apenas passos produtivos. Resolve um ponto de dor real no treinamento.

Pesquisadores publicaram TRIAGE em 30 de junho, um framework de atribuição de crédito tipado por papel para aprendizado por reforço agentic que corrige uma fraqueza estrutural em agentes treinados com GRPO: o algoritmo atribui o mesmo sinal de vantagem para cada token de ação em um rollout, independentemente de cada passo ter realmente movido a tarefa para frente.

O problema é concreto. Em rollouts falhados, GRPO pune toda ação uniformemente — incluindo buscas ou cliques que foram úteis mas não conseguiram recuperar uma trajetória que depois descarrilou. Em rollouts bem-sucedidos, GRPO reforça toda ação — incluindo passos redundantes, desvios e regressões que aconteceram de ser seguidos por recuperação. Ambas patologias se intensificam ao longo do treinamento, produzindo agentes que são exploradores excessivamente cautelosos ou que carregam cruft aprendido para produção.

TRIAGE insere um juiz estruturado entre o resultado do verificador e o gradiente de política. O juiz classifica cada segmento de ação em um de quatro papéis: progresso decisivo, exploração útil, infraestrutura sem progresso, ou regressão. Um conjunto de regras fixas mapeia esses rótulos para recompensas de processo de nível segmento limitadas. O resultado do verificador continua sendo o sinal de otimização — TRIAGE corrige os dois pontos cegos ao redor dele em vez de substituí-lo. Os autores provam que crédito condicionado por papel é a correção ótima de nível segmento a partir de rótulos de papel apenas, enquadrado como uma projeção do resíduo de vantagem por segmento na variável de papel. Quando o juiz é confiável, constantes de papel fixas reduzem erro de estimação de vantagem e produzem gradientes de política de menor variância.

Através de ALFWorld, Search-QA e WebShop com dois modelos de política, TRIAGE melhora taxas de sucesso em relação a GRPO padrão e vence tanto um modelo de recompensa de processo derivado de juiz escalar quanto uma linha de base de valor de backbone compartilhado supervisionada por resultado. As ablações mostram o ganho não vem simplesmente de adicionar recompensas densas. O contribuidor dominante é detecção confiável de regressão dentro de trajetórias bem-sucedidas — encontrar e descontar os passos que o verificador nunca penalizou porque o episódio terminou em sucesso. Crédito de exploração fornece um ganho secundário consistente.

Em rollouts concluídos, agentes TRIAGE usam 10.4% menos turnos voltados para o ambiente em ALFWorld e 14.8% menos em WebShop relativos aos baselines GRPO. Para agentes interagindo com ambientes reais — navegadores web, sistemas de arquivos, APIs com limites de taxa — contagem de turno é um custo direto e alavanca de latência. Um agente que atinge a mesma taxa de sucesso com 14.8% menos chamadas de ferramenta é mais barato de operar em escala.

Qualidade do juiz estruturado é fundamental para adoção. Os autores observam que constantes de papel reduzem erro de estimação de vantagem "sempre que o juiz é confiável." Implantar TRIAGE em um novo domínio requer ou portar o juiz — definindo limites de papel para seu espaço de ação específico — ou aceitar atribuições de crédito degradadas. Os quatro tipos de papel mapeiam de forma clara em cenários de agentes web e agentes incorporados, mas o esquema de rotulagem precisa ser repensado para agentes de execução de código, onde a linha entre "exploração útil" e "infraestrutura sem progresso" é menos nítida.

TRIAGE aborda uma falha de treinamento em qualquer sistema agentic treinado com RL apenas por resultado. Arquitetos que viram agentes treinados com GRPO ficarem tímidos pesquisadores ou negligentes com preenchimento de ações agora têm um mecanismo de correção baseado em princípios com números por trás.

Sources

TRIAGE reduces environment-facing turns by 10.4% on ALFWorld and 14.8% on WebShop relative to GRPO on completed rollouts
"on completed ALFWorld and WebShop rollouts, TRIAGE also reduces environment-facing turns by an additional 10.4% and 14.8% relative to GRPO"
arxiv.org ↗
Standard GRPO applies a uniform advantage over all action tokens from the final verifier outcome, punishing useful exploration in failed rollouts and reinforcing redundant actions in successful ones
"it punishes useful exploration in failed rollouts and reinforces redundant or regressive actions in successful rollouts"
arxiv.org ↗
TRIAGE classifies each action segment into four semantic roles: decisive progress, useful exploration, no-progress infrastructure, or regression
"A structured judge classifies each segment as decisive progress, useful exploration, no-progress infrastructure, or regression"
arxiv.org ↗
Role-conditioned credit is the optimal segment-level correction expressible from role labels alone, framing it as a projection of the per-segment advantage residual onto the role variable
"role-conditioned credit is the optimal segment-level correction expressible from role labels alone -- a projection of the per-segment advantage residual onto the role variable"
arxiv.org ↗
TRIAGE improves success rates over GRPO across ALFWorld, Search-QA, and WebShop for two policy models, and outperforms scalar judge-derived process reward and outcome-supervised shared-backbone value baseline
"Across ALFWorld, Search-QA, and WebShop, TRIAGE improves success rates over GRPO for two policy models and outperforms both a scalar judge-derived process reward and an outcome-supervised shared-backbone value baseline"
arxiv.org ↗
Ablations confirm the gain comes from role typing rather than adding dense rewards, with regression detection in successful trajectories as the dominant contributor
"Ablations show that the gain comes from role typing rather than merely adding dense rewards: reliable detection of regression inside successful trajectories is the dominant contributor"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

TRIAGE Reduz Ações de Agentes em 14.8% Enquanto Aumenta Taxas de Sucesso

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.