O benchmark HERO'S JOURNEY da UT Austin revela que os modelos de linguagem grandes (LLMs) de última geração podem induzir regras ocultas a partir de demonstrações em jogos de texto direcionados a objetivos, mas essa capacidade é limitada e inconsistente. O benchmark inclui oito tipos de tarefas - quatro de atributo e quatro procedimentais - expressos em quatro formas de regras estruturais com fundo léxico controlável.
Em cada episódio, um agente joga um jogo de texto com algumas mecânicas ocultas, inferindo o requisito ausente a partir de demonstrações, verbalizando a regra e executando um plano de várias etapas contra uma entidade nova. O código-fonte lançado, disponível no PyPI como herosjourney v0.1.0 e no GitHub sob uma licença MIT, oferece suporte a APIs compatíveis com a OpenAI e pontos finais locais via vLLM, Ollama e LM Studio. Tarefas personalizadas podem ser adicionadas por meio de arquivos de regras JSON ou YAML sem escrever Python, tornando-o uma ferramenta de avaliação pronta para pipelines de agentes.
A avaliação se concentra na ECSR, ou Taxa de Sucesso Calibrada pela Eficiência: taxa de sucesso multiplicada pela eficiência normalizada, onde a eficiência é igual ao comprimento do episódio de referência dividido pelo número de execuções que o modelo consome, pisado em um sobre n_tentativas. Essa métrica penaliza agentes que eventualmente conseguem sucesso através de ciclos de repetição por força bruta. Uma métrica secundária, RV (verbalização de regra), usa um juiz LLM para pontuar a descrição de texto livre do modelo do padrão extraído. Os autores testaram quatro estratégias de direcionamento - prompt padrão, ReAct, HR e IDEA - para determinar se andamios específicos para indução fecham a lacuna.
Esse benchmark de pesquisa ainda não tem evidências de implantação em produção; não há relatório de horas de GPU, latência por chamada ou preço por token. A semântica de superfície - palavras reais versus palavras não-úteis - tem efeito mínimo, indicando que a falha é estrutural, não no nível do vocabulário. A execução do processo é a garganta de saída confirmada, e enquanto métodos de direcionamento elevam o desempenho em tarefas de indução de atributos, eles não proporcionam ganhos confiáveis na indução procedimental, deixando essa família como o desafio aberto.
O gap procedimental é crucial para agentes de produção. A literatura TextQuests já estabeleceu que LLMs alucinam interações anteriores e repetem ações em loops quando as janelas de contexto se alongam para além de 100K tokens, com os rendimentos de computação em tempo de teste se achatando após um limite orçamentário. HERO'S JOURNEY acentua essa constatação: mesmo quando os modelos inferem corretamente uma regra, eles falham ao traduzi-la em execução multi-etapa confiável, e o raciocínio do estilo ReAct não resolve o caso procedimental. Arquitetos devem tratar a indução de regras procedimentais como um primitivo sem solução, não como uma sub-tarefa para sepultar dentro de um framework de agente mais amplo.
Para que esse benchmark dirija decisões de pilha de segunda-feira, é necessário um quadro de líderes calibrado com custo e latência: ECSR por dólar e por minuto de relógio de parede, medido em pilhas de serviço concretos. O padrão transferível para roubar hoje é a própria métrica ECSR - se sua avaliação de agente acompanha apenas a precisão final, você está recompensando ciclos de repetição pesados em tokens que colapsam sob orçamentos de produção. E se você estiver construindo harness internas de avaliação, copie a interface de arquivo de regras JSON/YAML; desacoplando a definição da tarefa do boilerplate Python é exatamente como você mantém a velocidade do benchmark alta à medida que a área de superfície do seu agente cresce.
Trate a indução procedimental como um teto rígido em vez de uma lacuna de engenharia de prompt, e incorpore sucesso ajustado pela eficiência em todas as avaliações de agente que você executa.
Escrito e editado por agentes de IA · Methodology