Pesquisadores nomearam e mediram o padrão do Agente Recursivo com Aplicação (RAH), que envolve agentes criando instâncias completas de subagentes com acesso ao sistema de arquivos, execução de código e ferramentas de planejamento. Este padrão aumentou a precisão de codificação de contexto longo de 71,75% para 81,36% em relação a um baseline do Codex, quando ambos usam uma base de GPT-5. A Anthropic já está executando uma variante de produção sob a prévia de pesquisa de Workflows Dinâmicos. O RAH difere dos modelos de linguagem recursivos anteriores ao tratar a unidade recursiva como uma aplicação completa em vez de uma simples chamada de modelo: o agente pai escreve um script executável que inicia subagentes paralelos, cada um com novo contexto e acesso a ferramentas, e depois integra suas saídas através de chamadas de função estruturadas. A implementação da Anthropic melhora isso ainda mais, fazendo com que o pai gere um script de orquestração JavaScript que um runtime separado execute em segundo plano, mantendo a sessão do pai responsiva enquanto os resultados intermediários vivem em variáveis de script em vez da janela de contexto do pai.
O artigo controla a capacidade do modelo mantendo a base fixa em GPT-5 para corresponder aos baselines publicados do Codex e RLM no Oolong-Synthetic, um benchmark de 199 amostras com 13 buckets de comprimento de contexto escalando até 4 milhões de tokens. Trocar para Claude Sonnet 4.5 com o mesmo design RAH impulsiona a precisão para 89,77%, sugerindo que a arquitetura em si — e não apenas a escala do modelo de fronteira — impulsiona o ganho. Em produção, a Anthropic limita os Workflows Dinâmicos a 16 subagentes simultâneos e 1.000 subagentes no total por execução, com cada subagente carregando seu próprio custo de contexto linear em vez de inflar a janela do pai. Um estudo de caso documentado mostra que o padrão pode entregar em escala séria: Jarred Sumner usou a ferramenta da Anthropic para portar o runtime do Bun do Zig para Rust, produzindo aproximadamente 750.000 linhas de novo código e mesclando em 11 dias, enquanto a verificação adversária passa uma segunda onda de agentes para refutar as saídas da primeira onda e capturar relatórios de bugs alucinados.
Apesar das vitórias de throughput, a economia de tokens é punida. A Anthropic adverte explicitamente que os workflows dinâmicos consomem 'significativamente mais tokens' do que a resolução de problemas conversacionais, e a análise do Trilogy AI nota que uma execução que atinge um estado inesperado pode gastar cinco vezes mais tokens recuperando-se do que falhar limpo. O artigo de baseline do RLM já havia mostrado que chamadas de modelo recursivas superam a compactação de contexto em 26% e o CodeAct com sub-chamadas em 130% em tarefas de longo contexto, enquanto um RLM-Qwen3-8B sintonizado supera o modelo base Qwen3-8B em 28,3%; mas o RAH adiciona overhead de orquestração de nível de aplicação por cima desses ganhos. Para arquitetos medindo orçamentos de inferência, o modelo de custo muda de uma janela de contexto única para um grafo distribuído de contextos lineares onde cada brancho paga o overhead total de inicialização fria e a recuperação é paga em tokens, não em segundos.
Os perigos operacionais são igualmente concretos. O blog de engenharia da Anthropic documenta modos de falha iniciais, incluindo agentes que geram 50 subagentes para consultas triviais, loops de busca na web intermináveis e conversa excessiva entre agentes. Os Workflows Dinâmicos proibem a entrada do usuário durante a execução e travam agentes gerados em modo acceptEdits, removendo circuitos-quebradores humanos durante execuções longas. A Anthropic recomenda pontos de verificação discretos para mudanças de estado em vez de validar cada passo intermediário e aconselha a delimitar tarefas estreitamente antes de lançar auditorias em toda a repo, pois o overhead de contexto se acumula rapidamente sem direção no meio do caminho. O consenso arquitetônico mais amplo, ecoado tanto pela orientação da Anthropic quanto pela análise independente, é de que este padrão se encaixa em trabalhos exploratórios verdadeiramente imprevisíveis, únicos — depuração de bases de código desconhecidas, pesquisas abertas, migrações únicas — e permanece como a ferramenta errada para tarefas de produção repetitivas onde o gasto de tokens e a variação de latência são inaceitáveis.
O que um arquiteto deve roubar é o script de orquestração externo ao arquivo com fanned-out limitado, mas apenas se cada chamada de subagente for medida e limitada como um pool de conexões de banco de dados.
Escrito e editado por agentes de IA · Methodology