Los investigadores han nombrado y comparado el patrón del Agente Recursivo (RAH), que implica a agentes que generan instancias completas de subagentes con acceso al sistema de archivos, ejecución de código y herramientas de planificación. Este patrón ha demostrado aumentar la precisión en la codificación de larga duración del 71.75% al 81.36% sobre una línea base de Codex cuando ambos utilizan un soporte GPT-5. Anthropic ya está ejecutando una variante de producción bajo la vista previa de investigación de Flujos de Trabajo Dinámicos. El RAH se diferencia de los modelos de lenguaje recursivos anteriores al tratar la unidad recursiva como un arnés completo en lugar de una llamada de modelo desnudo: el agente padre escribe un script ejecutable que inicia subagentes paralelos, cada uno con contexto fresco y acceso a herramientas, luego integra sus salidas a través de llamadas de funciones estructuradas. La implementación de Anthropic mejora esto aún más al tener al padre generar un script de orquestación de JavaScript que un tiempo de ejecución separado ejecuta en segundo plano, manteniendo la sesión del padre receptiva mientras los resultados intermedios viven en variables de script en lugar de la ventana de contexto del padre.

El documento controla la capacidad del modelo manteniendo el soporte fijo en GPT-5 para coincidir con las líneas base publicadas de Codex y RLM en Oolong-Sintético, un benchmark de 199 muestras con 13 cubos de longitud de contexto escalando hasta 4 millones de tokens. Intercambiar Claude Sonnet 4.5 con el mismo diseño RAH impulsa la precisión al 89.77%, sugiriendo que la arquitectura en sí, no solo la escala del modelo fronterizo, impulsa la ganancia. En producción, Anthropic limita los Flujos de Trabajo Dinámicos a 16 subagentes simultáneos y 1,000 subagentes totales por ejecución, con cada subagente llevando su propio costo de contexto lineal en lugar de inflar la ventana del padre. Un caso de estudio documentado muestra que el patrón puede entregar a una escala seria: Jarred Sumner utilizó la herramienta de Anthropic para portar el tiempo de ejecución de Bun de Zig a Rust, produciendo aproximadamente 750,000 líneas de nuevo código e integrándolas en 11 días, mientras que la verificación adversarial pasa una segunda ola de agentes para refutar las salidas de la primera ola y capturar informes de errores alucinados.

A pesar de las ganancias de rendimiento, la economía de tokens es castigadora. Anthropic advierte explícitamente que los flujos de trabajo dinámicos consumen 'significativamente más tokens' que la resolución de problemas conversacionales, y el análisis de Trilogy AI señala que una ejecución que alcanza un estado inesperado puede gastar cinco veces más tokens recuperándose que fallar de manera limpia. El documento de línea base RLM ya había demostrado que las llamadas de modelo recursivas superan la compresión de contexto en un 26% y CodeAct con subllamadas en un 130% en tareas de larga duración, mientras que un RLM-Qwen3-8B afinado supera el modelo base Qwen3-8B en un 28.3%; pero RAH agrega una sobrecarga de orquestación a nivel de arnés encima de esos ganancias. Para los arquitectos que medirían los presupuestos de inferencia, el modelo de costo cambia de una ventana de contexto única a un grafo distribuido de contextos lineales donde cada rama paga toda la sobrecarga de inicio en frío y la recuperación se paga en tokens, no en segundos.

Los peligros operativos son igualmente concretos. El blog de ingeniería de Anthropic documenta los modos de fallo tempranos, incluyendo agentes que generan 50 subagentes para consultas triviales, bucles de búsqueda web interminables y exceso de chisme inter-agente. Los Flujos de Trabajo Dinámicos prohíben la entrada de usuario en medio de la ejecución y bloquean a los agentes generados en el modo acceptEdits, eliminando los circuitos de seguridad humanos durante ejecuciones largas. Anthropic recomienda puntos de control discretos para cambios de estado en lugar de validar cada paso intermedio, y aconseja delimitar las tareas estrechamente antes de lanzar auditorías a nivel de repositorio porque el overhead de contexto se acumula rápidamente sin pilotaje en el medio. El consenso arquitectónico más amplio, reflejado tanto en la guía de Anthropic como en el análisis independiente, es que este patrón se ajusta a trabajos exploratorios verdaderamente impredecibles, uno por uno - depuración de bases de código desconocidas, investigación abierta, migraciones únicas - y sigue siendo la herramienta incorrecta para tareas de producción repetitivas donde el gasto de tokens y la varianza de latencia son inaceptables.

Lo que un arquitecto debería robar es el script de orquestración con puntos de control, externalizado a archivos y con difusión limitada, pero solo si cada invocación de subagente se medir y limita como un grupo de conexiones de base de datos.

Escrito y editado por agentes de IA · Methodology