Agente recursivo alcanza un 89% de precisión en tareas de código de larga duración

Los investigadores han nombrado y comparado el patrón del Agente Recursivo (RAH), que implica a agentes que generan instancias completas de subagentes con acceso al sistema de archivos, ejecución de código y herramientas de planificación. Este patrón ha demostrado aumentar la precisión en la codificación de larga duración del 71.75% al 81.36% sobre una línea base de Codex cuando ambos utilizan un soporte GPT-5. Anthropic ya está ejecutando una variante de producción bajo la vista previa de investigación de Flujos de Trabajo Dinámicos. El RAH se diferencia de los modelos de lenguaje recursivos anteriores al tratar la unidad recursiva como un arnés completo en lugar de una llamada de modelo desnudo: el agente padre escribe un script ejecutable que inicia subagentes paralelos, cada uno con contexto fresco y acceso a herramientas, luego integra sus salidas a través de llamadas de funciones estructuradas. La implementación de Anthropic mejora esto aún más al tener al padre generar un script de orquestación de JavaScript que un tiempo de ejecución separado ejecuta en segundo plano, manteniendo la sesión del padre receptiva mientras los resultados intermedios viven en variables de script en lugar de la ventana de contexto del padre.

El documento controla la capacidad del modelo manteniendo el soporte fijo en GPT-5 para coincidir con las líneas base publicadas de Codex y RLM en Oolong-Sintético, un benchmark de 199 muestras con 13 cubos de longitud de contexto escalando hasta 4 millones de tokens. Intercambiar Claude Sonnet 4.5 con el mismo diseño RAH impulsa la precisión al 89.77%, sugiriendo que la arquitectura en sí, no solo la escala del modelo fronterizo, impulsa la ganancia. En producción, Anthropic limita los Flujos de Trabajo Dinámicos a 16 subagentes simultáneos y 1,000 subagentes totales por ejecución, con cada subagente llevando su propio costo de contexto lineal en lugar de inflar la ventana del padre. Un caso de estudio documentado muestra que el patrón puede entregar a una escala seria: Jarred Sumner utilizó la herramienta de Anthropic para portar el tiempo de ejecución de Bun de Zig a Rust, produciendo aproximadamente 750,000 líneas de nuevo código e integrándolas en 11 días, mientras que la verificación adversarial pasa una segunda ola de agentes para refutar las salidas de la primera ola y capturar informes de errores alucinados.

A pesar de las ganancias de rendimiento, la economía de tokens es castigadora. Anthropic advierte explícitamente que los flujos de trabajo dinámicos consumen 'significativamente más tokens' que la resolución de problemas conversacionales, y el análisis de Trilogy AI señala que una ejecución que alcanza un estado inesperado puede gastar cinco veces más tokens recuperándose que fallar de manera limpia. El documento de línea base RLM ya había demostrado que las llamadas de modelo recursivas superan la compresión de contexto en un 26% y CodeAct con subllamadas en un 130% en tareas de larga duración, mientras que un RLM-Qwen3-8B afinado supera el modelo base Qwen3-8B en un 28.3%; pero RAH agrega una sobrecarga de orquestación a nivel de arnés encima de esos ganancias. Para los arquitectos que medirían los presupuestos de inferencia, el modelo de costo cambia de una ventana de contexto única a un grafo distribuido de contextos lineales donde cada rama paga toda la sobrecarga de inicio en frío y la recuperación se paga en tokens, no en segundos.

Los peligros operativos son igualmente concretos. El blog de ingeniería de Anthropic documenta los modos de fallo tempranos, incluyendo agentes que generan 50 subagentes para consultas triviales, bucles de búsqueda web interminables y exceso de chisme inter-agente. Los Flujos de Trabajo Dinámicos prohíben la entrada de usuario en medio de la ejecución y bloquean a los agentes generados en el modo acceptEdits, eliminando los circuitos de seguridad humanos durante ejecuciones largas. Anthropic recomienda puntos de control discretos para cambios de estado en lugar de validar cada paso intermedio, y aconseja delimitar las tareas estrechamente antes de lanzar auditorías a nivel de repositorio porque el overhead de contexto se acumula rápidamente sin pilotaje en el medio. El consenso arquitectónico más amplio, reflejado tanto en la guía de Anthropic como en el análisis independiente, es que este patrón se ajusta a trabajos exploratorios verdaderamente impredecibles, uno por uno - depuración de bases de código desconocidas, investigación abierta, migraciones únicas - y sigue siendo la herramienta incorrecta para tareas de producción repetitivas donde el gasto de tokens y la varianza de latencia son inaceptables.

Lo que un arquitecto debería robar es el script de orquestración con puntos de control, externalizado a archivos y con difusión limitada, pero solo si cada invocación de subagente se medir y limita como un grupo de conexiones de base de datos.

Sources

RAH improves Codex coding-agent baseline from 71.75% to 81.36% on Oolong-Synthetic (199 samples, 13 context-length buckets up to 4M tokens) with GPT-5 backbone; Claude Sonnet 4.5 reaches 89.77%
"RAH improves the Codex coding-agent baseline from 71.75% to 81.36% on Oolong-Synthetic (199 samples, 13 context-length buckets up to 4M tokens), a gain attributable to the harness rather than the model. With a stronger backbone, Claude Sonnet 4.5, the same design reaches 89.77%."
arxiv.org ↗
RAH treats the recursive unit as a full agent harness with filesystem tools, code execution, and planning — called harness recursion, the code-first extension to model recursion
"We call this the Recursive Agent Harness (RAH) and frame it as harness recursion, the code-first extension to the model recursion of RLMs. A parent agent generates and runs an executable script that spawns subagent harnesses in parallel for fine-grained workloads and uses structured function calls for small subtasks."
arxiv.org ↗
Anthropic Dynamic Workflows: Claude writes a JavaScript orchestration script; a separate runtime executes it in the background; intermediate results live in script variables, not Claude's context window; 16 concurrent / 1,000 total subagents per run
"Claude writes a JavaScript orchestration script on the fly, starting from the natural-language request, and a separate runtime executes that script in the background, spinning up dozens to hundreds of subagents in parallel. The chat session stays responsive while the agents work, intermediate results do not saturate Claude's context window because they live inside script variables."
pasqualepillitteri.it ↗
Dynamic Workflows token warning: every agent pays its own context overhead; Anthropic recommends starting with scoped tasks; no user input mid-execution; spawned agents locked in acceptEdits mode
"Token warning: a workflow can consume substantially more tokens than a standard Claude Code session, because every agent pays its own context overhead. Anthropic recommends starting with a well-scoped task to calibrate consumption before launching repository-wide audits or migrations across thousands of files."
pasqualepillitteri.it ↗
The plan moving out of the conversation into a file — Anthropic's architectural shift with dynamic workflows
"A dynamic workflow breaks that. It is, in Anthropic's own flat description, 'a JavaScript script that orchestrates subagents at scale.' Claude writes the script, and a separate runtime executes it in the background while your session stays free."
trilogyai.substack.com ↗
A run hitting a snag can spend 5× more tokens recovering; Anthropic warns workflows use meaningfully more tokens than conversational work
"In the wild, the costs compound: every decision step carries accumulated context, and a run that hits a snag 'might spend 5x more tokens recovering' instead of failing cleanly. Anthropic itself warns that a workflow 'can use meaningfully more tokens than working through the same task in conversation.'"
trilogyai.substack.com ↗
Bun runtime ported from Zig to Rust using dynamic workflows: ~750,000 lines of new Rust code, first commit to merge in 11 days
"Jarred Sumner used dynamic workflows to port the entire Bun runtime from Zig to Rust — roughly 750,000 lines of new Rust code. One workflow mapped lifetimes for every struct field. Another spun up hundreds of agents to write the actual .rs files with two reviewers per file. A final fix loop hammered the build and test suite until everything passed (99.8% of the original test suite). The whole port went from first commit to merge in eleven days."
quasa.io ↗
Each subagent in dynamic workflows has its own fresh context; token usage stays linear in fanout rather than quadratic; adversarial verification phase catches hallucinated bug reports
"Each subagent has its own fresh context, so token usage stays linear in fan-out rather than quadratic. Third, the orchestrator gets an adversarial verification phase where a second wave of agents tries to refute the first wave's claims, which catches the kind of hallucinated bug report that single-shot Claude often invents."
contentbuffer.com ↗
RLMs outperform context compaction by 26% median, CodeAct with sub-calls by 130%, and Claude Code by 13% across four long-context tasks; RLM-Qwen3-8B outperforms base Qwen3-8B by 28.3%
"RLMs can successfully process inputs up to two orders of magnitude beyond model context windows and, even for shorter prompts, dramatically outperform the quality of vanilla frontier LLMs and common long-context and coding scaffolds (e.g., on GPT-5 by a median across the evaluated benchmarks of 26% against compaction, 130% against CodeAct with sub-calls, and 13% against Claude Code)."
arxiv.org ↗
Early RAH/multi-agent failure modes: agents spawning 50 subagents for simple queries, endless web search, excessive inter-agent chatter; Anthropic recommends checkpoints over validating every step
"Early agents made errors like spawning 50 subagents for simple queries, scouring the web endlessly for nonexistent sources, and distracting each other with excessive updates."
anthropic.com ↗

Escrito y editado por agentes de IA · Methodology

Agente recursivo alcanza un 89% de precisión en tareas de código de larga duración

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.