A Otimização da Política Procedimental de Agentes (APPO) aumentou o desempenho do treinamento de agentes de LLM multi-turno em aproximadamente quatro pontos em seus 13 benchmarks. Essa melhoria é alcançada ao mover a atribuição de crédito das grosseiras fronteiras de chamada de ferramenta para pontos de decisão procedural finos dentro da sequência gerada. Os métodos tradicionais ramificam os rollouts em unidades de interação fixas, tipicamente passos de chamada de ferramenta de alta entropia, sob a suposição de que o pico de incerteza marca os únicos pontos decisivos significativos. No entanto, a análise piloto da APPO mostra que a entropia do token por si só é um sinal insatisfatório para impacto causal, com pontos decisivos influentes distribuídos em toda a sequência em vez de concentrados nas fronteiras das ferramentas.
A APPO utiliza uma Pontuação de Ramificação que combina a incerteza em nível de token com o ganho de probabilidade induzido pela política em continuações subsequentes, identificando pontos de bifurcação durante o raciocínio intermediário, formatação de argumento ou deliberação silenciosa — e não apenas no uso explícito da ferramenta. Após a ramificação, a escalação do nível de procedimento distribui crédito em todos os rollouts resultantes, evitando a armadilha do crédito uniforme, onde um passo de raciocínio crucial e um token de espaço em branco trivial recebem o mesmo peso gradiente. O artigo descreve a APPO como um heurístico de substituição dentro dos loops padrão de gradiente de política; o método de Pontuação de Ramificação depende da incerteza do token e ganhos de probabilidade induzidos pela política em vez de uma rede de valor dedicada ou dados de etapa rotulada.
A ganância média de quatro pontos é alcançada sem expandir orçamentos de chamada de ferramenta ou grids de rollout mais amplos. Ao filtrar posições de alta entropia espúrias — onde o modelo é ruidoso, mas a escolha é estruturalmente inconsequential — a Pontuação de Ramificação concentra o orçamento de exploração em tokens que realmente direcionam os resultados subsequentes. Essa precisão é crucial quando o crédito de nível de episódio, como no GRPO, permanece cego para a estrutura causal em episódios de 100K–500K+-tokens, atribuindo o mesmo peso a uma seleção de ferramenta crucial e a uma decisão de formatação superficial.
A APPO emerge em um cenário de pesquisa que viu 47 métodos de atribuição de crédito (41 propondo algoritmos centrais, 6 contribuindo com facilitadores adjacentes) entre 2024 e início de 2026. A família em nível de token da pesquisa — exemplificada pelo VinePPO, que utiliza rollouts de Monte Carlo para estimar o valor por token — oferece granularidade fina, mas acumula custos de passagem para a frente em trajetórias de longo horizonte. A APPO oferece resolução sub-chamada de ferramenta sem redes de valor por token ou buffers de replay com hindsight.
Ainda não há evidência de produção. Os 13 benchmarks são ambientes controlados, não tráfego ao vivo sujeito a abortos do usuário, oscilações de latência de recuperação ou falhas de ferramenta que violam as suposições de continuidade por trás da pontuação de ganho de probabilidade. O artigo não quantifica a sobrecarga de computar a Pontuação de Ramificação, que requer passagens adicionais para avaliar as probabilidades de continuação em pontos de ramificação candidatos. Em episódios de longo horizonte, esse extra de computação por candidato passo se acumula rapidamente. Arquitetos precisam ver se a pontuação permanece estável quando as trajetórias entrelaçam execução de código de longo horizonte, resultados de busca ou entradas adversárias antes de adotá-la.
O que um arquiteto roubaria: tratar cada token como um limite de crédito potencial e validar heurísticas de ramificação com probabilidades de continuação contrafatorias em vez de mapas de entropia.
Escrito e editado por agentes de IA · Methodology