LLMs Podem Induzir Regras Ocultas, mas Execução Procedimental Continua Sem Solução

O benchmark HERO'S JOURNEY da UT Austin revela que os modelos de linguagem grandes (LLMs) de última geração podem induzir regras ocultas a partir de demonstrações em jogos de texto direcionados a objetivos, mas essa capacidade é limitada e inconsistente. O benchmark inclui oito tipos de tarefas - quatro de atributo e quatro procedimentais - expressos em quatro formas de regras estruturais com fundo léxico controlável.

Em cada episódio, um agente joga um jogo de texto com algumas mecânicas ocultas, inferindo o requisito ausente a partir de demonstrações, verbalizando a regra e executando um plano de várias etapas contra uma entidade nova. O código-fonte lançado, disponível no PyPI como herosjourney v0.1.0 e no GitHub sob uma licença MIT, oferece suporte a APIs compatíveis com a OpenAI e pontos finais locais via vLLM, Ollama e LM Studio. Tarefas personalizadas podem ser adicionadas por meio de arquivos de regras JSON ou YAML sem escrever Python, tornando-o uma ferramenta de avaliação pronta para pipelines de agentes.

A avaliação se concentra na ECSR, ou Taxa de Sucesso Calibrada pela Eficiência: taxa de sucesso multiplicada pela eficiência normalizada, onde a eficiência é igual ao comprimento do episódio de referência dividido pelo número de execuções que o modelo consome, pisado em um sobre n_tentativas. Essa métrica penaliza agentes que eventualmente conseguem sucesso através de ciclos de repetição por força bruta. Uma métrica secundária, RV (verbalização de regra), usa um juiz LLM para pontuar a descrição de texto livre do modelo do padrão extraído. Os autores testaram quatro estratégias de direcionamento - prompt padrão, ReAct, HR e IDEA - para determinar se andamios específicos para indução fecham a lacuna.

Esse benchmark de pesquisa ainda não tem evidências de implantação em produção; não há relatório de horas de GPU, latência por chamada ou preço por token. A semântica de superfície - palavras reais versus palavras não-úteis - tem efeito mínimo, indicando que a falha é estrutural, não no nível do vocabulário. A execução do processo é a garganta de saída confirmada, e enquanto métodos de direcionamento elevam o desempenho em tarefas de indução de atributos, eles não proporcionam ganhos confiáveis na indução procedimental, deixando essa família como o desafio aberto.

O gap procedimental é crucial para agentes de produção. A literatura TextQuests já estabeleceu que LLMs alucinam interações anteriores e repetem ações em loops quando as janelas de contexto se alongam para além de 100K tokens, com os rendimentos de computação em tempo de teste se achatando após um limite orçamentário. HERO'S JOURNEY acentua essa constatação: mesmo quando os modelos inferem corretamente uma regra, eles falham ao traduzi-la em execução multi-etapa confiável, e o raciocínio do estilo ReAct não resolve o caso procedimental. Arquitetos devem tratar a indução de regras procedimentais como um primitivo sem solução, não como uma sub-tarefa para sepultar dentro de um framework de agente mais amplo.

Para que esse benchmark dirija decisões de pilha de segunda-feira, é necessário um quadro de líderes calibrado com custo e latência: ECSR por dólar e por minuto de relógio de parede, medido em pilhas de serviço concretos. O padrão transferível para roubar hoje é a própria métrica ECSR - se sua avaliação de agente acompanha apenas a precisão final, você está recompensando ciclos de repetição pesados em tokens que colapsam sob orçamentos de produção. E se você estiver construindo harness internas de avaliação, copie a interface de arquivo de regras JSON/YAML; desacoplando a definição da tarefa do boilerplate Python é exatamente como você mantém a velocidade do benchmark alta à medida que a área de superfície do seu agente cresce.

Trate a indução procedimental como um teto rígido em vez de uma lacuna de engenharia de prompt, e incorpore sucesso ajustado pela eficiência em todas as avaliações de agente que você executa.

Sources

HERO'S JOURNEY covers eight tasks across attribute and procedural induction families, each with four structural rule forms, controllable lexical grounding, and identifiability conditions
"HERO'S JOURNEY covers eight tasks across attribute and procedural induction families, each with four structural rule forms, controllable lexical grounding, and identifiability conditions."
arxiv.org ↗
Models show evidence of rule induction, but the ability is limited and uneven; process execution adds an execution bottleneck; surface semantics has minimal effect; induction-specific steering methods show no reliable gains on procedural tasks
"models show evidence of rule induction, but the ability is limited and uneven across tasks. Meanwhile, process execution adds an execution bottleneck for models, whereas surface semantics has minimal effect. Induction-specific steering methods improve performance on attribute tasks but show no reliable gains on procedural tasks."
arxiv.org ↗
ECSR (Efficiency-Calibrated Success Rate) = success_rate × normalized_efficiency, where efficiency = reference_length / num_runs, floored at 1 / n_tries
"success_rate × normalized_efficiency, where efficiency = reference_length / num_runs and the floor is 1 / n_tries."
github.com ↗
The codebase is available on PyPI as herosjourney v0.1.0, MIT-licensed, supports OpenAI-compatible APIs and local endpoints; custom tasks injectable via JSON/YAML
"pip install herosjourney ... License MIT — see LICENSE."
github.com ↗
Four induction steering strategies were tested: standard, ReAct, HR, and IDEA
"episode_mode selects a steering strategy applied on top of your agent ... "standard" (default), "react", "hr", "idea""
github.com ↗
LLMs hallucinate prior interactions and repeat actions in loops as context windows stretch past 100K tokens, with test-time compute yields flattening after a budget threshold
"current models often hallucinate about prior interactions... Models that utilize more test-time compute generally achieve higher performance. However, this trend starts to diminish after a certain budget."
huggingface.co ↗
Knowledge benchmarks like MMLU and GPQA are now largely saturated; static knowledge success does not always translate to dynamic, interactive settings
"Knowledge benchmarks, such as MMLU and GPQA, are now largely saturated... this success in static, knowledge-based tasks does not always translate to effectiveness in dynamic, interactive settings."
huggingface.co ↗

Escrito e editado por agentes de IA · Methodology

LLMs Podem Induzir Regras Ocultas, mas Execução Procedimental Continua Sem Solução

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.