RunAgent Impone Ejecución Determinística en Flujos de Trabajo de LLM

Investigadores de NEC Laboratories y la University of Maryland publicaron RunAgent, una plataforma de ejecución multiagente que impone ejecución determinística, paso a paso, de flujos de trabajo sobre planes en lenguaje natural. El sistema apunta directamente a la brecha de confiabilidad que bloquea los despliegues de LLM en pipelines corporativos de producción.

El problema central es estructural: los LLMs generan planes coherentes pero carecen del flujo de control formal para ejecutarlos de forma confiable a escala. RunAgent introduce un lenguaje agentic con construcciones explícitas—IF, GOTO y FORALL—que superponen determinismo a nivel de lenguaje de programación a instrucciones en lenguaje natural. Cada paso es controlado por restricciones derivadas autónomamente y rúbricas generadas a partir de la descripción de la tarea, sin requerir que los usuarios las especifiquen previamente. Esta derivación autónoma de restricciones diferencia a RunAgent de Magentic UI, que depende de retroalimentación humana para verificación, y XPF, que requiere edición de plan en bucle con humano.

En la ejecución, RunAgent selecciona entre tres estrategias en cada paso: razonamiento basado en LLM, invocación de herramientas o generación de código Python. Se aplica verificación sintáctica y semántica a las salidas de los pasos. Un mecanismo de corrección de errores incorporado reintentan pasos fallidos. Un filtro de historial de contexto elimina el estado anterior irrelevante antes de cada paso para reducir context drift—una fuente conocida de error en ejecuciones de agente de largo horizonte.

La interfaz es bidireccional: los operadores pueden inyectar restricciones y rúbricas por adelantado o anular cualquier paso durante la ejecución. Esto hace que RunAgent sea compatible con flujos de trabajo de cumplimiento donde la auditabilidad y los derechos de intervención son requisitos regulatorios.

El framework fue evaluado en el conjunto de datos Natural-plan y SciBench. RunAgent supera tanto a los LLMs de línea base como a los métodos PlanGEN de última generación en ambos, con desglose numérico completo en la sección de evaluación.

El conjunto de comparación destaca la estrategia de integración de RunAgent. AutoGen y Voyager delegan sub-tareas a ejecutores programáticos pero no imponen validación de restricciones en cada paso. Los métodos PlanGEN generan planes estructurados pero dejan la verificación en gran medida al LLM subyacente. RunAgent integra generación de restricciones, verificación a nivel de paso y selección de estrategia de ejecución adaptativa en un único runtime—no añadido a un andamio de agente de propósito general post hoc.

Quedan preguntas abiertas en torno a latencia y costo. La derivación autónoma de restricciones y verificación por paso agregan llamadas de LLM a cada paso del flujo de trabajo; a escala empresarial, ese overhead debe caracterizarse contra las ganancias de confiabilidad. El documento tampoco reporta resultados en GAIA o WebArena, lo que contextualizaría a RunAgent contra benchmarks de sistemas de agente más amplios. Una ruta de integración en producción—ya sea como runtime independiente o una capa sobre LangGraph o AutoGen—aún no está descrita.

Para equipos que requieren determinismo en flujos de trabajo de agente, RunAgent ofrece un blueprint arquitectónico revisado por pares. Los primitivos de flujo de control y la derivación autónoma de rúbricas son las piezas que vale la pena stress-testing contra casos de uso internos.

Sources

RunAgent uses explicit control constructs — IF, GOTO, and FORALL — to enforce deterministic execution over natural-language plans
"RunAgent bridges the expressiveness of natural language with the determinism of programming via an agentic language with explicit control constructs (e.g., IF, GOTO, FORALL)."
arxiv.org ↗
RunAgent autonomously derives and validates constraints from the task description at each step, without requiring user pre-specification
"RunAgent autonomously derives and validates constraints based on the description of the task and its instance at each step."
arxiv.org ↗
RunAgent dynamically selects among LLM-based reasoning, tool usage, and Python code generation and execution at each step
"RunAgent also dynamically selects among LLM-based reasoning, tool usage, and code generation and execution (e.g., in Python), and incorporates error correction mechanisms to ensure correctness."
arxiv.org ↗
RunAgent applies both syntactic and semantic verification to each step's output
"Beyond verifying syntactic and semantic verification of the step output, which is performed based on the specific instruction of each step, RunAgent autonomously derives and validates constraints."
arxiv.org ↗
RunAgent filters context history to retain only relevant information at each execution step
"RunAgent filters the context history by retaining only relevant information during the execution of each step."
arxiv.org ↗
RunAgent supports user-specification (injecting constraints and rubrics) and user-feedback (auditing and overriding mid-run) as human-in-the-loop modes
"User-specification: This feature allows the user to furnish desired workflows, constraints, facts or specifications, and rubrics; and (b) User-feedback: The HITL feature also allows the user to provide feedback on an operation, enabling users to audit the log and provide feedback on steps of the workflow."
arxiv.org ↗
Magentic UI relies heavily on human feedback for verification, unlike RunAgent's autonomous constraint checking
"Magentic UI explores plan generation with HITL interaction via multi-agent orchestration, co-planning, co-execution, action guards, and memory, but relies heavily on human feedback for verification."
arxiv.org ↗
RunAgent outperforms baseline LLMs and state-of-the-art PlanGEN methods on Natural-plan and SciBench datasets
"Evaluations on Natural-plan and SciBench Datasets demonstrate that RunAgent outperforms baseline LLMs and state-of-the-art PlanGEN methods."
arxiv.org ↗
AutoGen and Voyager improve multi-step accuracy by delegating sub-tasks to programmatic or symbolic executors
"Systems such as AutoGen, Voyager, and LLM-generated plan heuristics demonstrate that delegating sub-tasks to programmatic or symbolic executors improves the accuracy of multi-step plan execution."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

RunAgent Impone Ejecución Determinística en Flujos de Trabajo de LLM

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.