RunAgent Impõe Execução Determinística em Workflows de LLM

Pesquisadores da NEC Laboratories e da University of Maryland publicaram RunAgent, uma plataforma de execução multi-agente que impõe execução determinística, step-by-step, de workflows sobre planos em linguagem natural. O sistema aponta diretamente para a lacuna de confiabilidade que bloqueia implantações de LLM em pipelines corporativos de produção.

O problema central é estrutural: LLMs geram planos coerentes mas carecem do fluxo de controle formal para executá-los de forma confiável em escala. RunAgent introduz uma linguagem agentic com construtos explícitos—IF, GOTO e FORALL—que sobrepõem determinismo em nível de linguagem de programação a instruções em linguagem natural. Cada passo é controlado por restrições derivadas autonomamente e rubricas geradas a partir da descrição da tarefa, sem exigir que usuários as pré-especifiquem. Essa derivação autônoma de restrições diferencia RunAgent de Magentic UI, que depende de feedback humano para verificação, e XPF, que requer edição de plano em loop com humano.

Na execução, RunAgent seleciona entre três estratégias em cada passo: raciocínio baseado em LLM, invocação de ferramenta ou geração de código Python. Verificação sintática e semântica são aplicadas às saídas dos passos. Um mecanismo de correção de erro incorporado tenta novamente passos com falha. Um filtro de histórico de contexto remove estado anterior irrelevante antes de cada passo para reduzir context drift—uma fonte conhecida de erro em execuções de agente de longo horizonte.

A interface é bidirecional: operadores podem injetar restrições e rubricas antecipadamente ou sobrescrever qualquer passo durante a execução. Isso torna RunAgent compatível com workflows de compliance onde auditabilidade e direitos de intervenção são requisitos regulatórios.

O framework foi avaliado no dataset Natural-plan e SciBench. RunAgent supera tanto LLMs baseline quanto métodos PlanGEN de ponta em ambos, com breakdowns numéricos completos na seção de avaliação.

O conjunto de comparação destaca a estratégia de integração de RunAgent. AutoGen e Voyager delegam sub-tarefas a executores programáticos mas não impõem validação de restrição em cada passo. Métodos PlanGEN geram planos estruturados mas deixam verificação largamente para o LLM subjacente. RunAgent integra geração de restrição, verificação em nível de passo e seleção de estratégia de execução adaptativa em um único runtime—não aparafusado em scaffold de agente de propósito geral post hoc.

Questões abertas permanecem em torno de latência e custo. Derivação autônoma de restrição e verificação por passo adicionam chamadas de LLM a cada passo de workflow; em escala corporativa, esse overhead precisa ser caracterizado contra ganhos de confiabilidade. O paper também não relata resultados em GAIA ou WebArena, o que contextualizaria RunAgent contra benchmarks de sistemas de agente mais amplos. Um caminho de integração em produção—seja como runtime standalone ou uma camada sobre LangGraph ou AutoGen—ainda não é descrito.

Para equipes que requerem determinismo em workflows de agente, RunAgent oferece um blueprint arquitetural revisado por pares. Os primitivos de fluxo de controle e derivação autônoma de rubrica são as peças que valem a pena stress-testar contra casos de uso internos.

Sources

RunAgent uses explicit control constructs — IF, GOTO, and FORALL — to enforce deterministic execution over natural-language plans
"RunAgent bridges the expressiveness of natural language with the determinism of programming via an agentic language with explicit control constructs (e.g., IF, GOTO, FORALL)."
arxiv.org ↗
RunAgent autonomously derives and validates constraints from the task description at each step, without requiring user pre-specification
"RunAgent autonomously derives and validates constraints based on the description of the task and its instance at each step."
arxiv.org ↗
RunAgent dynamically selects among LLM-based reasoning, tool usage, and Python code generation and execution at each step
"RunAgent also dynamically selects among LLM-based reasoning, tool usage, and code generation and execution (e.g., in Python), and incorporates error correction mechanisms to ensure correctness."
arxiv.org ↗
RunAgent applies both syntactic and semantic verification to each step's output
"Beyond verifying syntactic and semantic verification of the step output, which is performed based on the specific instruction of each step, RunAgent autonomously derives and validates constraints."
arxiv.org ↗
RunAgent filters context history to retain only relevant information at each execution step
"RunAgent filters the context history by retaining only relevant information during the execution of each step."
arxiv.org ↗
RunAgent supports user-specification (injecting constraints and rubrics) and user-feedback (auditing and overriding mid-run) as human-in-the-loop modes
"User-specification: This feature allows the user to furnish desired workflows, constraints, facts or specifications, and rubrics; and (b) User-feedback: The HITL feature also allows the user to provide feedback on an operation, enabling users to audit the log and provide feedback on steps of the workflow."
arxiv.org ↗
Magentic UI relies heavily on human feedback for verification, unlike RunAgent's autonomous constraint checking
"Magentic UI explores plan generation with HITL interaction via multi-agent orchestration, co-planning, co-execution, action guards, and memory, but relies heavily on human feedback for verification."
arxiv.org ↗
RunAgent outperforms baseline LLMs and state-of-the-art PlanGEN methods on Natural-plan and SciBench datasets
"Evaluations on Natural-plan and SciBench Datasets demonstrate that RunAgent outperforms baseline LLMs and state-of-the-art PlanGEN methods."
arxiv.org ↗
AutoGen and Voyager improve multi-step accuracy by delegating sub-tasks to programmatic or symbolic executors
"Systems such as AutoGen, Voyager, and LLM-generated plan heuristics demonstrate that delegating sub-tasks to programmatic or symbolic executors improves the accuracy of multi-step plan execution."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

RunAgent Impõe Execução Determinística em Workflows de LLM

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.