TRIAGE Reduce Acciones de Agentes 14.8% Mientras Aumenta Tasas de Éxito

Nuevo framework de asignación de crédito para RL agentic en acciones de ambiente: búsquedas, clics, ediciones, navegación, interacciones con objetos. GRPO estándar usa ventaja uniforme; TRIAGE asigna crédito por tipo de acción, reduciendo castigo para exploración útil y reforzando solo pasos productivos. Soluciona un punto crítico real del entrenamiento.

Investigadores publicaron TRIAGE el 30 de junio, un framework de asignación de crédito tipado por rol para aprendizaje por refuerzo agentic que corrige una debilidad estructural en agentes entrenados con GRPO: el algoritmo asigna la misma señal de ventaja a cada token de acción en un rollout, sin importar si cada paso realmente avanzó la tarea.

El problema es concreto. En rollouts fallidos, GRPO castiga toda acción uniformemente — incluyendo búsquedas o clics que fueron útiles pero no pudieron recuperar una trayectoria que luego se descarriló. En rollouts exitosos, GRPO refuerza toda acción — incluyendo pasos redundantes, desvíos y regresiones que sucedieron ser seguidos por recuperación. Ambas patologías se componen a lo largo del entrenamiento, produciendo agentes que son exploradores excesivamente cautelosos o que llevan cruft aprendido a producción.

TRIAGE inserta un juez estructurado entre el resultado del verificador y el gradiente de política. El juez clasifica cada segmento de acción en uno de cuatro roles: progreso decisivo, exploración útil, infraestructura sin progreso, o regresión. Un conjunto fijo de reglas mapea esas etiquetas a recompensas de proceso de nivel segmento acotadas. El resultado del verificador sigue siendo la señal de optimización — TRIAGE corrige los dos puntos ciegos alrededor de este en lugar de reemplazarlo. Los autores prueban que el crédito condicionado por rol es la corrección óptima de nivel segmento a partir de solo etiquetas de rol, enmarcado como una proyección del residual de ventaja por segmento en la variable de rol. Cuando el juez es confiable, constantes de rol fijas reducen el error de estimación de ventaja y producen gradientes de política de menor varianza.

En ALFWorld, Search-QA y WebShop con dos modelos de política, TRIAGE mejora tasas de éxito sobre GRPO estándar y vence tanto un modelo de recompensa de proceso derivado de juez escalar como una línea base de valor de backbone compartido supervisada por resultado. Las ablaciones muestran que la ganancia no viene solo de agregar recompensas densas. El contribuidor dominante es detección confiable de regresión dentro de trayectorias exitosas — encontrar y descontar los pasos que el verificador nunca castigó porque el episodio terminó en éxito. El crédito de exploración proporciona una ganancia secundaria consistente.

En rollouts completados, agentes TRIAGE usan 10.4% menos turnos orientados al ambiente en ALFWorld y 14.8% menos en WebShop relativos a líneas base GRPO. Para agentes que interactúan con ambientes reales — navegadores web, sistemas de archivos, APIs con límites de velocidad — el conteo de turnos es un costo directo y palanca de latencia. Un agente que logra la misma tasa de éxito con 14.8% menos llamadas de herramientas es más barato de operar a escala.

La calidad del juez estructurado es crítica para la adopción. Los autores notan que constantes de rol reducen el error de estimación de ventaja "siempre que el juez sea confiable." Implementar TRIAGE en un nuevo dominio requiere o portar el juez — definiendo límites de rol para su espacio de acción específico — o aceptar asignaciones de crédito degradadas. Los cuatro tipos de rol mapean limpiamente a configuraciones de agentes web y agentes encarnados, pero el esquema de etiquetado necesita replantearse para agentes de ejecución de código, donde la línea entre "exploración útil" e "infraestructura sin progreso" es menos clara.

TRIAGE aborda una falla de entrenamiento en cualquier sistema agentic entrenado con RL solo por resultado. Arquitectos que han visto agentes entrenados con GRPO volverse exploradores tímidos o imprecisos con relleno de acciones ahora tienen un mecanismo de corrección basado en principios con números detrás.

Sources

TRIAGE reduces environment-facing turns by 10.4% on ALFWorld and 14.8% on WebShop relative to GRPO on completed rollouts
"on completed ALFWorld and WebShop rollouts, TRIAGE also reduces environment-facing turns by an additional 10.4% and 14.8% relative to GRPO"
arxiv.org ↗
Standard GRPO applies a uniform advantage over all action tokens from the final verifier outcome, punishing useful exploration in failed rollouts and reinforcing redundant actions in successful ones
"it punishes useful exploration in failed rollouts and reinforces redundant or regressive actions in successful rollouts"
arxiv.org ↗
TRIAGE classifies each action segment into four semantic roles: decisive progress, useful exploration, no-progress infrastructure, or regression
"A structured judge classifies each segment as decisive progress, useful exploration, no-progress infrastructure, or regression"
arxiv.org ↗
Role-conditioned credit is the optimal segment-level correction expressible from role labels alone, framing it as a projection of the per-segment advantage residual onto the role variable
"role-conditioned credit is the optimal segment-level correction expressible from role labels alone -- a projection of the per-segment advantage residual onto the role variable"
arxiv.org ↗
TRIAGE improves success rates over GRPO across ALFWorld, Search-QA, and WebShop for two policy models, and outperforms scalar judge-derived process reward and outcome-supervised shared-backbone value baseline
"Across ALFWorld, Search-QA, and WebShop, TRIAGE improves success rates over GRPO for two policy models and outperforms both a scalar judge-derived process reward and an outcome-supervised shared-backbone value baseline"
arxiv.org ↗
Ablations confirm the gain comes from role typing rather than adding dense rewards, with regression detection in successful trajectories as the dominant contributor
"Ablations show that the gain comes from role typing rather than merely adding dense rewards: reliable detection of regression inside successful trajectories is the dominant contributor"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

TRIAGE Reduce Acciones de Agentes 14.8% Mientras Aumenta Tasas de Éxito

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.