Rama a Nivel de Token Ofrece Entrenamiento Más Rápido de Agente LLM Sin Ampliación del Presupuesto

Un nuevo enfoque para la optimización de agentes de múltiples turnos demuestra que la asignación de crédito en pasos intermedios de razonamiento, en lugar de límites de llamada a herramientas, mejor identifica qué decisiones impulsan resultados posteriores. Patrón desplegable para razonamiento de múltiples pasos.

El Procedimiento de Optimización de Política Procedimental (APPO) ha mejorado el rendimiento en el entrenamiento de agentes LLM de múltiples turnos en aproximadamente cuatro puntos a lo largo de sus 13 benchmarks. Esta mejora se logra moviendo la asignación de crédito de límites de llamada a herramientas gruesos a puntos de decisión procedurales finos dentro de la secuencia generada. Los métodos tradicionales bifurcan los despliegues en unidades de interacción fijas, típicamente pasos de llamada a herramientas de alta entropía, bajo la suposición de que los picos de incertidumbre marcan los únicos puntos de decisión significativos. Sin embargo, el análisis piloto de APPO muestra que la entropía de token por sí sola es una señal poco fiable para el impacto causal, con puntos de decisión influyentes distribuidos a lo largo de la secuencia en lugar de concentrados en los límites de herramientas.

APPO utiliza una Puntuación de Rama que combina la incertidumbre a nivel de token con el aumento de probabilidad inducido por la política en continuacións posteriores, identificando puntos de bifurcación durante el razonamiento intermedio, el formato del argumento o la deliberación silenciosa, no solo en el uso explícito de herramientas. Después de la rama, la escalación de ventaja a nivel de procedimiento distribuye el crédito a lo largo de los despliegues resultantes, evitando la trampa de crédito uniforme en la que un paso de razonamiento crucial y un token de espacio en blanco trivial reciben el mismo peso de gradiente. El documento describe APPO como una heurística de sustitución dentro de los bucles de gradiente de política estándar; el método se basa en la incertidumbre de token y en los aumentos de probabilidad inducidos por la política en lugar de una red de valor dedicada o datos de paso etiquetados.

El aumento promedio de cuatro puntos se logra sin expandir los presupuestos de llamada a herramientas o las grillas de despliegue más amplias. Al filtrar las posiciones de alta entropía espurias, donde el modelo es ruidoso pero la elección es estructuralmente inconsecuente, la Puntuación de Rama enfoca el presupuesto de exploración en tokens que realmente dirigen resultados posteriores. Esta precisión es crucial cuando el crédito a nivel de episodio, como en GRPO, sigue siendo ciego a la estructura causal a lo largo de episodios de 100K-500K+ tokens, asignando el mismo peso a una selección de herramienta crucial y una decisión de formato superficial.

APPO emerge en un paisaje de investigación que ha visto 47 métodos de asignación de crédito (41 que proponen algoritmos centrales, 6 que contribuyen a facilitadores adyacentes) entre 2024 y principios de 2026. La familia a nivel de token de la encuesta, ejemplificada por VinePPO, que utiliza despliegues de Monte Carlo para estimar el valor por token, ofrece una granularidad fina pero aumenta los costos de paso adelante en trayectorias de largo alcance. APPO ofrece resolución sub-llamada a herramientas sin redes de valor por token o búferes de reproducción con conocimiento de hindsight.

Aún no hay evidencia de producción. Los 13 benchmarks son entornos controlados, no tráfico en vivo sujeto a abortos de usuario, inestabilidad de latencia de recuperación o fallos de herramientas que violan los supuestos de continuidad detrás de la puntuación de ganancia de probabilidad. El documento no cuantifica la sobrecarga de calcular la Puntuación de Rama, que requiere pasadas adicionales para evaluar las probabilidades de continuación en puntos de rama candidatos. En episodios de largo alcance, este cómputo adicional por cada paso candidato se acumula rápidamente. Los arquitectos necesitan ver si la puntuación sigue estable cuando las trayectorias entrelazan ejecución de código de largo alcance, resultados de búsqueda o entradas adversarias antes de adoptarla.

Lo que un arquitecto haría furto: tratar cada token como un límite de crédito potencial y validar las heurísticas de rama con probabilidades de continuación contrafactuales en lugar de mapas de entropía.

Sources

APPO consistently improves strong agentic RL baselines by nearly 4 points across APPO's own 13 benchmarks
"Experiments on 13 benchmarks show that APPO consistently improves strong agentic RL baselines by nearly 4 points, while keeping efficient tool-calls and maintaining behavior interpretability."
arxiv.org ↗
Influential decision points are broadly distributed throughout the generated sequence rather than concentrated at tool calls; token entropy alone does not reliably reflect their impact on final outcomes
"Our pilot analysis shows that influential decision points are broadly distributed throughout the generated sequence rather than concentrated at tool calls, while token entropy alone does not reliably reflect their impact on final outcomes."
arxiv.org ↗
APPO's Branching Score combines token uncertainty with policy-induced likelihood gains of subsequent continuations, enabling targeted exploration while filtering spurious high-entropy positions
"APPO selects branching locations using a Branching Score that combines token uncertainty with policy-induced likelihood gains of subsequent continuations, enabling more targeted exploration while filtering out spurious high-entropy positions."
arxiv.org ↗
APPO introduces procedure-level advantage scaling to better distribute credit across branched rollouts
"It further introduces procedure-level advantage scaling to better distribute credit across branched rollouts."
arxiv.org ↗
In agentic RL, episode token count routinely reaches 100K–500K+, making episode-level credit increasingly uninformative
"The total token count routinely reaches 100K–500K+ (e.g., in one reported SWE-bench setup, agents averaged ∼64 turns consuming ∼131K tokens). Episode-level credit becomes increasingly uninformative: a single wrong tool call at turn 3 receives the same penalty as dozens of correct subsequent actions."
arxiv.org ↗
47 credit-assignment methods (41 proposing core algorithms, 6 contributing adjacent enablers) published between 2024 and early 2026
"47 papers between 2024 and early 2026 (41 proposing core CA methods, 6 contributing CA-adjacent enablers) propose methods ranging from Monte Carlo token-level value estimation to Shapley value-based reward decomposition."
arxiv.org ↗
VinePPO is a token-level CA method using Monte Carlo rollouts to estimate per-token value
"We distinguish between core CA methods—which propose new algorithms for distributing credit across actions (e.g., VinePPO, HCAPO, CARL)—and CA-adjacent enablers... methods ranging from Monte Carlo token-level value estimation (Kazemnejad et al., 2025) to Shapley value-based reward decomposition."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Rama a Nivel de Token Ofrece Entrenamiento Más Rápido de Agente LLM Sin Ampliación del Presupuesto

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.