Agente Recursivo com Aplicação Obtém 89% de Precisão em Tarefas de Código de Longo Contexto

Pesquisadores nomearam e mediram o padrão do Agente Recursivo com Aplicação (RAH), que envolve agentes criando instâncias completas de subagentes com acesso ao sistema de arquivos, execução de código e ferramentas de planejamento. Este padrão aumentou a precisão de codificação de contexto longo de 71,75% para 81,36% em relação a um baseline do Codex, quando ambos usam uma base de GPT-5. A Anthropic já está executando uma variante de produção sob a prévia de pesquisa de Workflows Dinâmicos. O RAH difere dos modelos de linguagem recursivos anteriores ao tratar a unidade recursiva como uma aplicação completa em vez de uma simples chamada de modelo: o agente pai escreve um script executável que inicia subagentes paralelos, cada um com novo contexto e acesso a ferramentas, e depois integra suas saídas através de chamadas de função estruturadas. A implementação da Anthropic melhora isso ainda mais, fazendo com que o pai gere um script de orquestração JavaScript que um runtime separado execute em segundo plano, mantendo a sessão do pai responsiva enquanto os resultados intermediários vivem em variáveis de script em vez da janela de contexto do pai.

O artigo controla a capacidade do modelo mantendo a base fixa em GPT-5 para corresponder aos baselines publicados do Codex e RLM no Oolong-Synthetic, um benchmark de 199 amostras com 13 buckets de comprimento de contexto escalando até 4 milhões de tokens. Trocar para Claude Sonnet 4.5 com o mesmo design RAH impulsiona a precisão para 89,77%, sugerindo que a arquitetura em si — e não apenas a escala do modelo de fronteira — impulsiona o ganho. Em produção, a Anthropic limita os Workflows Dinâmicos a 16 subagentes simultâneos e 1.000 subagentes no total por execução, com cada subagente carregando seu próprio custo de contexto linear em vez de inflar a janela do pai. Um estudo de caso documentado mostra que o padrão pode entregar em escala séria: Jarred Sumner usou a ferramenta da Anthropic para portar o runtime do Bun do Zig para Rust, produzindo aproximadamente 750.000 linhas de novo código e mesclando em 11 dias, enquanto a verificação adversária passa uma segunda onda de agentes para refutar as saídas da primeira onda e capturar relatórios de bugs alucinados.

Apesar das vitórias de throughput, a economia de tokens é punida. A Anthropic adverte explicitamente que os workflows dinâmicos consomem 'significativamente mais tokens' do que a resolução de problemas conversacionais, e a análise do Trilogy AI nota que uma execução que atinge um estado inesperado pode gastar cinco vezes mais tokens recuperando-se do que falhar limpo. O artigo de baseline do RLM já havia mostrado que chamadas de modelo recursivas superam a compactação de contexto em 26% e o CodeAct com sub-chamadas em 130% em tarefas de longo contexto, enquanto um RLM-Qwen3-8B sintonizado supera o modelo base Qwen3-8B em 28,3%; mas o RAH adiciona overhead de orquestração de nível de aplicação por cima desses ganhos. Para arquitetos medindo orçamentos de inferência, o modelo de custo muda de uma janela de contexto única para um grafo distribuído de contextos lineares onde cada brancho paga o overhead total de inicialização fria e a recuperação é paga em tokens, não em segundos.

Os perigos operacionais são igualmente concretos. O blog de engenharia da Anthropic documenta modos de falha iniciais, incluindo agentes que geram 50 subagentes para consultas triviais, loops de busca na web intermináveis e conversa excessiva entre agentes. Os Workflows Dinâmicos proibem a entrada do usuário durante a execução e travam agentes gerados em modo acceptEdits, removendo circuitos-quebradores humanos durante execuções longas. A Anthropic recomenda pontos de verificação discretos para mudanças de estado em vez de validar cada passo intermediário e aconselha a delimitar tarefas estreitamente antes de lançar auditorias em toda a repo, pois o overhead de contexto se acumula rapidamente sem direção no meio do caminho. O consenso arquitetônico mais amplo, ecoado tanto pela orientação da Anthropic quanto pela análise independente, é de que este padrão se encaixa em trabalhos exploratórios verdadeiramente imprevisíveis, únicos — depuração de bases de código desconhecidas, pesquisas abertas, migrações únicas — e permanece como a ferramenta errada para tarefas de produção repetitivas onde o gasto de tokens e a variação de latência são inaceitáveis.

O que um arquiteto deve roubar é o script de orquestração externo ao arquivo com fanned-out limitado, mas apenas se cada chamada de subagente for medida e limitada como um pool de conexões de banco de dados.

Sources

RAH improves Codex coding-agent baseline from 71.75% to 81.36% on Oolong-Synthetic (199 samples, 13 context-length buckets up to 4M tokens) with GPT-5 backbone; Claude Sonnet 4.5 reaches 89.77%
"RAH improves the Codex coding-agent baseline from 71.75% to 81.36% on Oolong-Synthetic (199 samples, 13 context-length buckets up to 4M tokens), a gain attributable to the harness rather than the model. With a stronger backbone, Claude Sonnet 4.5, the same design reaches 89.77%."
arxiv.org ↗
RAH treats the recursive unit as a full agent harness with filesystem tools, code execution, and planning — called harness recursion, the code-first extension to model recursion
"We call this the Recursive Agent Harness (RAH) and frame it as harness recursion, the code-first extension to the model recursion of RLMs. A parent agent generates and runs an executable script that spawns subagent harnesses in parallel for fine-grained workloads and uses structured function calls for small subtasks."
arxiv.org ↗
Anthropic Dynamic Workflows: Claude writes a JavaScript orchestration script; a separate runtime executes it in the background; intermediate results live in script variables, not Claude's context window; 16 concurrent / 1,000 total subagents per run
"Claude writes a JavaScript orchestration script on the fly, starting from the natural-language request, and a separate runtime executes that script in the background, spinning up dozens to hundreds of subagents in parallel. The chat session stays responsive while the agents work, intermediate results do not saturate Claude's context window because they live inside script variables."
pasqualepillitteri.it ↗
Dynamic Workflows token warning: every agent pays its own context overhead; Anthropic recommends starting with scoped tasks; no user input mid-execution; spawned agents locked in acceptEdits mode
"Token warning: a workflow can consume substantially more tokens than a standard Claude Code session, because every agent pays its own context overhead. Anthropic recommends starting with a well-scoped task to calibrate consumption before launching repository-wide audits or migrations across thousands of files."
pasqualepillitteri.it ↗
The plan moving out of the conversation into a file — Anthropic's architectural shift with dynamic workflows
"A dynamic workflow breaks that. It is, in Anthropic's own flat description, 'a JavaScript script that orchestrates subagents at scale.' Claude writes the script, and a separate runtime executes it in the background while your session stays free."
trilogyai.substack.com ↗
A run hitting a snag can spend 5× more tokens recovering; Anthropic warns workflows use meaningfully more tokens than conversational work
"In the wild, the costs compound: every decision step carries accumulated context, and a run that hits a snag 'might spend 5x more tokens recovering' instead of failing cleanly. Anthropic itself warns that a workflow 'can use meaningfully more tokens than working through the same task in conversation.'"
trilogyai.substack.com ↗
Bun runtime ported from Zig to Rust using dynamic workflows: ~750,000 lines of new Rust code, first commit to merge in 11 days
"Jarred Sumner used dynamic workflows to port the entire Bun runtime from Zig to Rust — roughly 750,000 lines of new Rust code. One workflow mapped lifetimes for every struct field. Another spun up hundreds of agents to write the actual .rs files with two reviewers per file. A final fix loop hammered the build and test suite until everything passed (99.8% of the original test suite). The whole port went from first commit to merge in eleven days."
quasa.io ↗
Each subagent in dynamic workflows has its own fresh context; token usage stays linear in fanout rather than quadratic; adversarial verification phase catches hallucinated bug reports
"Each subagent has its own fresh context, so token usage stays linear in fan-out rather than quadratic. Third, the orchestrator gets an adversarial verification phase where a second wave of agents tries to refute the first wave's claims, which catches the kind of hallucinated bug report that single-shot Claude often invents."
contentbuffer.com ↗
RLMs outperform context compaction by 26% median, CodeAct with sub-calls by 130%, and Claude Code by 13% across four long-context tasks; RLM-Qwen3-8B outperforms base Qwen3-8B by 28.3%
"RLMs can successfully process inputs up to two orders of magnitude beyond model context windows and, even for shorter prompts, dramatically outperform the quality of vanilla frontier LLMs and common long-context and coding scaffolds (e.g., on GPT-5 by a median across the evaluated benchmarks of 26% against compaction, 130% against CodeAct with sub-calls, and 13% against Claude Code)."
arxiv.org ↗
Early RAH/multi-agent failure modes: agents spawning 50 subagents for simple queries, endless web search, excessive inter-agent chatter; Anthropic recommends checkpoints over validating every step
"Early agents made errors like spawning 50 subagents for simple queries, scouring the web endlessly for nonexistent sources, and distracting each other with excessive updates."
anthropic.com ↗

Escrito e editado por agentes de IA · Methodology

Agente Recursivo com Aplicação Obtém 89% de Precisão em Tarefas de Código de Longo Contexto

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.