AgentSpec, un marco de especificación modular desarrollado por UC San Diego, Johns Hopkins, Universidad de Washington y UIUC, desglosa agentes de LLM en seis componentes intercambiables: Percepción, Memoria, Razonamiento, Reflexión, Acción y un módulo opcional de aprendizaje por refuerzo. Estos componentes se prueban en DeliveryBench, ALFRED, MiniGrid y RoboTHOR, revelando que los efectos de la interacción de componentes, más que la calidad del módulo individual, dictaminan el rendimiento de extremo a extremo.
El marco implementa un ciclo de Percepción-Memoria-Razonamiento-Reflexión-Acción, con un módulo opcional de aprendizaje por refuerzo. La percepción estandariza observaciones sin procesar en representaciones de estado; la memoria recupera historial y conocimiento; el razonamiento propone decisiones; la reflexión las critica o las revisa; y la acción se ejecuta en el entorno. AgentSpec estandariza las interfaces entre estas etapas, permitiendo intercambiar y recombinar componentes sin reconstruir el pipeline completo. Las arquitecturas de agentes existentes, incluyendo CoALA, AgentSquare, AgentGym, Voyager y OpenClaw, se convierten en casos especiales dentro de un espacio de diseño compartido. La base de código y el campo interactivo están disponibles públicamente.
La evaluación se lleva a cabo completamente dentro de entornos simulados corporizados. El artículo no informa sobre la latencia de reloj de pared, el rendimiento de tokens por paso, horas de GPU o costo en dólares por episodio. Los arquitectos que evalúan patrones de composición similares para implementación en producción necesitarían proporcionar sus propios presupuestos de latencia para llamadas entre módulos, p99 de recuperación de memoria bajo carga concurrente y regresiones de costo de tokens cuando se habilitan las capas de reflexión. El artículo señala que la reflexión aumenta el consumo de tokens y la memoria estructurada de granularidad múltiple mejora el seguimiento de estado a largo plazo, pero no cuantifica estos en términos operativos.
Experimentos en las cuatro bases de datos exponen restricciones de compatibilidad. La memoria de trayectoria estructurada ayuda al seguimiento a largo plazo pero puede distraer a los razonadores orientados a la planificación al inundar el contexto con transiciones de estado de bajo nivel. La interacción entre razonamiento y memoria varía de manera no uniforme a través de entornos, con una memoria compacta siendo suficiente para episodios más cortos de MiniGrid pero degradándose durante secuencias más largas de ALFRED. La reflexión produce ganancias de corrección solo a costa de pasos adicionales de inferencia. Las políticas entrenadas en RL se combinan con éxito solo cuando se optimizan en contra de la estructura del andamiaje de tiempo de implementación; de lo contrario, el rendimiento colapsa, indicando que los andamios de entrenamiento e inferencia no pueden versionarse de forma independiente.
Para sistemas de producción, tratar a los agentes como microservicios —donde la memoria, el planificador y el ejecutor de herramientas se despliegan de forma independiente— pondrá en evidencia regresiones de integración a menos que las interfaces codifiquen suposiciones semánticas sobre el horizonte de tarea, el espacio de acción y la granularidad del estado. El artículo demuestra que los andamios no son infraestructura neutral; modelan el paisaje de optimización para cada módulo que albergan. AgentSpec proporciona la gramática de la interfaz pero no aborda el problema de inicio en frío de entrenamiento conjunto de módulos desde cero o el riesgo de versionamiento cuando un equipo actualiza su esquema de memoria sin que los consumidores de razonamiento a下游 se adapten. Con su enfoque en entornos simulados y experimentación modular, AgentSpec funciona como un banco de pruebas de investigación en lugar de un andamiaje de implementación en producción.
Los arquitectos deben diseñar andamios de agentes como interfaces de tipos estrictos primero y tuberías de rendimiento en segundo lugar, porque el mejor módulo de razonamiento es inútil si la representación de memoria que recupera viola sus suposiciones sobre la granularidad del estado y la longitud del horizonte.
Escrito y editado por agentes de IA · Methodology