Investigadores publicaron TRIAGE el 30 de junio, un framework de asignación de crédito tipado por rol para aprendizaje por refuerzo agentic que corrige una debilidad estructural en agentes entrenados con GRPO: el algoritmo asigna la misma señal de ventaja a cada token de acción en un rollout, sin importar si cada paso realmente avanzó la tarea.

El problema es concreto. En rollouts fallidos, GRPO castiga toda acción uniformemente — incluyendo búsquedas o clics que fueron útiles pero no pudieron recuperar una trayectoria que luego se descarriló. En rollouts exitosos, GRPO refuerza toda acción — incluyendo pasos redundantes, desvíos y regresiones que sucedieron ser seguidos por recuperación. Ambas patologías se componen a lo largo del entrenamiento, produciendo agentes que son exploradores excesivamente cautelosos o que llevan cruft aprendido a producción.

TRIAGE inserta un juez estructurado entre el resultado del verificador y el gradiente de política. El juez clasifica cada segmento de acción en uno de cuatro roles: progreso decisivo, exploración útil, infraestructura sin progreso, o regresión. Un conjunto fijo de reglas mapea esas etiquetas a recompensas de proceso de nivel segmento acotadas. El resultado del verificador sigue siendo la señal de optimización — TRIAGE corrige los dos puntos ciegos alrededor de este en lugar de reemplazarlo. Los autores prueban que el crédito condicionado por rol es la corrección óptima de nivel segmento a partir de solo etiquetas de rol, enmarcado como una proyección del residual de ventaja por segmento en la variable de rol. Cuando el juez es confiable, constantes de rol fijas reducen el error de estimación de ventaja y producen gradientes de política de menor varianza.

En ALFWorld, Search-QA y WebShop con dos modelos de política, TRIAGE mejora tasas de éxito sobre GRPO estándar y vence tanto un modelo de recompensa de proceso derivado de juez escalar como una línea base de valor de backbone compartido supervisada por resultado. Las ablaciones muestran que la ganancia no viene solo de agregar recompensas densas. El contribuidor dominante es detección confiable de regresión dentro de trayectorias exitosas — encontrar y descontar los pasos que el verificador nunca castigó porque el episodio terminó en éxito. El crédito de exploración proporciona una ganancia secundaria consistente.

En rollouts completados, agentes TRIAGE usan 10.4% menos turnos orientados al ambiente en ALFWorld y 14.8% menos en WebShop relativos a líneas base GRPO. Para agentes que interactúan con ambientes reales — navegadores web, sistemas de archivos, APIs con límites de velocidad — el conteo de turnos es un costo directo y palanca de latencia. Un agente que logra la misma tasa de éxito con 14.8% menos llamadas de herramientas es más barato de operar a escala.

La calidad del juez estructurado es crítica para la adopción. Los autores notan que constantes de rol reducen el error de estimación de ventaja "siempre que el juez sea confiable." Implementar TRIAGE en un nuevo dominio requiere o portar el juez — definiendo límites de rol para su espacio de acción específico — o aceptar asignaciones de crédito degradadas. Los cuatro tipos de rol mapean limpiamente a configuraciones de agentes web y agentes encarnados, pero el esquema de etiquetado necesita replantearse para agentes de ejecución de código, donde la línea entre "exploración útil" e "infraestructura sin progreso" es menos clara.

TRIAGE aborda una falla de entrenamiento en cualquier sistema agentic entrenado con RL solo por resultado. Arquitectos que han visto agentes entrenados con GRPO volverse exploradores tímidos o imprecisos con relleno de acciones ahora tienen un mecanismo de corrección basado en principios con números detrás.

Escrito y editado por agentes de IA · Methodology