Baselines de Prompting Simples Superam Métodos de Supervisão Complexa

Novo framework de avaliação para métodos de supervisão densa em agentes LLM de horizonte longo. Quando agentes executam centenas de ações por episódio, recompensas apenas por resultado falham—este trabalho compara supervisão densa alternativa (confiança, auto-destilação, embeddings). Diretamente aplicável a equipes treinando agentes multi-passo.

Pesquisadores da Universidade de Tübingen e ETH Zurique lançaram QVal em 30 de junho, um benchmark sem treinamento que avalia sinais de supervisão densa para agentes LLM de horizonte longo. O artigo compara 21 métodos em quatro ambientes e sete famílias metodológicas, com mais de 1.200 experimentos em seis backbones de modelos de peso aberto.

O problema central: quando agentes executam trajetórias abrangendo centenas ou milhares de ações, um sinal de recompensa que só funciona na conclusão do episódio fornece quase nenhuma orientação sobre quais ações intermediárias funcionaram. Métodos de supervisão densa avaliam cada passo, mas equipes só poderiam avaliá-los executando pipelines completos de treinamento até a conclusão. Isso confunde qualidade de supervisão com engenharia de treinamento e torna a comparação entre métodos impossível.

QVal se baseia em Q-alinhamento. Dado um par estado-ação, a pontuação de um método de supervisão classifica corretamente as ações como um Q-valor de política de referência forte faria? Métodos bem Q-alinhados espelham o que uma política ótima considera bom; métodos mal alinhados injetam ruído ou enganam o treinamento. Ao se basear em Q-valores de referência em vez de métricas de tarefa downstream, QVal isola qualidade de supervisão da maquinaria de treinamento. Todo o benchmark é executado antes do treinamento começar, tornando a iteração barata.

O achado principal contradiz literatura recente: baselines de prompting simples—pedindo ao modelo para avaliar seus próprios passos intermediários—consistentemente superam métodos complexos de supervisão densa, incluindo abordagens de auto-destilação e similaridade de embedding. Isso se manteve em todos os quatro ambientes, todos os seis backbones de modelo e ambas as modalidades texto e visual. O desempenho se agrupa por família metodológica em vez de por variante, significando que equipes podem descartar famílias inteiras cedo.

Para equipes treinando agentes multi-passo, a implicação é clara: o scaffolding em torno de supervisão densa fez mais trabalho do que os métodos em si. Se um pipeline complexo de auto-destilação vencesse um baseline de prompting em seu benchmark, o ganho provavelmente veio de configuração de treinamento, não sinal de supervisão. QVal deixa equipes testarem isso sem re-executar o pipeline completo.

Uma restrição: Q-alinhamento é apenas tão bom quanto a política de referência. Onde uma política de referência forte não existe—ambientes novos de uso de ferramentas, planejamento de horizonte longo em APIs privadas—computar Q-valores confiáveis para avaliação não é trivial. Construir avaliações no estilo QVal em novos ambientes requer uma política pronta ou investimento significativo. Equipes trabalhando em benchmarks bem definidos (navegação web, execução de código, jogos) se beneficiam imediatamente; equipes em ambientes proprietários ou escassos em dados precisarão aguardar o amadurecimento de ferramentas.

Os seis backbones de peso aberto testados não foram nomeados, mas a amplitude sugere generalização em toda a paisagem de modelos publicamente disponíveis atual em vez de especificidade para uma arquitetura.

Antes de adicionar um método de supervisão densa ao seu pipeline de agentes, execute-o através de análise de Q-alinhamento no estilo QVal. Se um baseline de prompting direto vencer em qualidade de sinal, o método complexo não recuperará essa lacuna durante o treinamento.

Sources

QVal benchmarks 21 dense supervision methods across four environments and seven methodological families, with over 1,200 evaluation experiments on six open-weight model backbones
"benchmarking 21 dense supervision methods across four diverse environments and seven methodological families, with over 1.2K evaluation experiments across six open-weight model backbones"
arxiv.org ↗
Simple prompting baselines consistently outperform recent dense supervision methods including self-distillation and embedding-similarity approaches
"simple prompting baselines consistently outperform recent dense supervision methods from the literature"
arxiv.org ↗
Performance clusters strongly by methodological family rather than by specific method variant
"performance clusters strongly by family"
arxiv.org ↗
QVal measures Q-alignment: whether a method's score orders actions according to the Q-values of a strong reference policy
"QVal measures how well a method's score is Q-aligned: whether it orders actions according to the Q-values of a strong reference-policy"
arxiv.org ↗
A single agent trajectory in long-horizon settings can contain hundreds or thousands of actions, making outcome-only rewards too sparse
"a single trajectory can contain hundreds or thousands of actions. In these settings, outcome-only rewards provide too sparse guidance"
arxiv.org ↗
QVal is training-free and designed to be extensible to new environments and methods
"QVal is designed to be easily extensible to new environments and methods, enabling researchers to iterate on dense supervision methods before any training run"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Baselines de Prompting Simples Superam Métodos de Supervisão Complexa

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.