Investigadores de NEC Laboratories y la University of Maryland publicaron RunAgent, una plataforma de ejecución multiagente que impone ejecución determinística, paso a paso, de flujos de trabajo sobre planes en lenguaje natural. El sistema apunta directamente a la brecha de confiabilidad que bloquea los despliegues de LLM en pipelines corporativos de producción.

El problema central es estructural: los LLMs generan planes coherentes pero carecen del flujo de control formal para ejecutarlos de forma confiable a escala. RunAgent introduce un lenguaje agentic con construcciones explícitas—IF, GOTO y FORALL—que superponen determinismo a nivel de lenguaje de programación a instrucciones en lenguaje natural. Cada paso es controlado por restricciones derivadas autónomamente y rúbricas generadas a partir de la descripción de la tarea, sin requerir que los usuarios las especifiquen previamente. Esta derivación autónoma de restricciones diferencia a RunAgent de Magentic UI, que depende de retroalimentación humana para verificación, y XPF, que requiere edición de plan en bucle con humano.

En la ejecución, RunAgent selecciona entre tres estrategias en cada paso: razonamiento basado en LLM, invocación de herramientas o generación de código Python. Se aplica verificación sintáctica y semántica a las salidas de los pasos. Un mecanismo de corrección de errores incorporado reintentan pasos fallidos. Un filtro de historial de contexto elimina el estado anterior irrelevante antes de cada paso para reducir context drift—una fuente conocida de error en ejecuciones de agente de largo horizonte.

La interfaz es bidireccional: los operadores pueden inyectar restricciones y rúbricas por adelantado o anular cualquier paso durante la ejecución. Esto hace que RunAgent sea compatible con flujos de trabajo de cumplimiento donde la auditabilidad y los derechos de intervención son requisitos regulatorios.

El framework fue evaluado en el conjunto de datos Natural-plan y SciBench. RunAgent supera tanto a los LLMs de línea base como a los métodos PlanGEN de última generación en ambos, con desglose numérico completo en la sección de evaluación.

El conjunto de comparación destaca la estrategia de integración de RunAgent. AutoGen y Voyager delegan sub-tareas a ejecutores programáticos pero no imponen validación de restricciones en cada paso. Los métodos PlanGEN generan planes estructurados pero dejan la verificación en gran medida al LLM subyacente. RunAgent integra generación de restricciones, verificación a nivel de paso y selección de estrategia de ejecución adaptativa en un único runtime—no añadido a un andamio de agente de propósito general post hoc.

Quedan preguntas abiertas en torno a latencia y costo. La derivación autónoma de restricciones y verificación por paso agregan llamadas de LLM a cada paso del flujo de trabajo; a escala empresarial, ese overhead debe caracterizarse contra las ganancias de confiabilidad. El documento tampoco reporta resultados en GAIA o WebArena, lo que contextualizaría a RunAgent contra benchmarks de sistemas de agente más amplios. Una ruta de integración en producción—ya sea como runtime independiente o una capa sobre LangGraph o AutoGen—aún no está descrita.

Para equipos que requieren determinismo en flujos de trabajo de agente, RunAgent ofrece un blueprint arquitectónico revisado por pares. Los primitivos de flujo de control y la derivación autónoma de rúbricas son las piezas que vale la pena stress-testing contra casos de uso internos.

Escrito y editado por agentes de IA · Methodology