O AgentSpec, um framework de especificação modular desenvolvido pela UC San Diego, Johns Hopkins, Universidade de Washington e UIUC, descompõe agentes LLM corporificados em seis componentes intercambiáveis: Percepção, Memória, Raciocínio, Reflexão, Ação e um módulo opcional de aprendizado por reforço. Esses componentes são testados em DeliveryBench, ALFRED, MiniGrid e RoboTHOR, revelando que os efeitos da interação dos componentes, e não a qualidade dos módulos individuais, ditam o desempenho de ponta a ponta.

O framework implementa um ciclo Percepção–Memória–Raciocínio–Reflexão–Ação, com um módulo opcional de aprendizado por reforço. A percepção padroniza observações brutas em representações de estado; a memória recupera histórico e conhecimento; o raciocínio propõe decisões; a reflexão as critica ou revisa; e a ação é executada no ambiente. O AgentSpec padroniza as interfaces entre essas etapas, permitindo que os componentes sejam trocados e recombinados sem reconstruir o pipeline completo. Arquiteturas de agentes existentes, incluindo CoALA, AgentSquare, AgentGym, Voyager e OpenClaw, se tornam casos especiais dentro de um espaço de design compartilhado. A base de código e o playground interativo estão disponíveis publicamente.

A avaliação é conduzida inteiramente dentro de ambientes corporificados simulados. O artigo não relata latência de relógio de parede, throughput de token por passo, horas de GPU ou custo em dólares por episódio. Arquitetos avaliando padrões de composição semelhantes para implantação em produção precisariam fornecer seus próprios orçamentos de latência para chamadas entre módulos, p99s de recuperação de memória sob carga concorrente e regressões de custo de token quando as camadas de reflexão estão habilitadas. O artigo nota que a reflexão aumenta o consumo de token e a memória multi-granular estruturada melhora o acompanhamento do estado de longo prazo, mas não quantifica esses em termos operacionais.

Experimentos em quatro benchmarks expõem restrições de compatibilidade. A memória de trajetória estruturada ajuda no acompanhamento de longo prazo, mas pode distrair raciocinadores orientados à planejamento ao inundar o contexto com transições de estado de baixo nível. Raciocínio e memória interagem de forma não uniforme entre ambientes, com memória compacta sendo suficiente para episódios mais curtos do MiniGrid, mas degradando durante sequências mais longas do ALFRED. A reflexão proporciona ganhos de correção apenas ao custo de passos adicionais de inferência. As políticas treinadas com RL se componem com sucesso apenas quando otimizadas em relação à estrutura da scaffold de tempo de implantação; caso contrário, o desempenho colapsa, indicando que os treinamentos e scaffolds de inferência não podem ser versionados independentemente.

Para sistemas de produção, tratar agentes como microsserviços — onde memória, planejador e executor de ferramentas são implantados independentemente — exibirá regressões de integração a menos que as interfaces codifiquem suposições semânticas sobre horizonte de tarefa, espaço de ação e granularidade de estado. O artigo demonstra que as scaffolds não são infraestrutura neutra; elas moldam o cenário de otimização para cada módulo que hospedam. O AgentSpec fornece a gramática de interface, mas não aborda o problema de inicialização em frio de co-treinamento de módulos do zero ou o risco de versionamento quando uma equipe atualiza seu esquema de memória sem que os consumidores de raciocínio downstream se adaptem. Com seu foco em ambientes simulados e experimentação modular, o AgentSpec atua como um banco de teste de pesquisa em vez de uma scaffold de implantação em produção.

Arquitetos devem projetar scaffolds de agentes como interfaces tipadas rigorosas primeiro e pipelines de desempenho em segundo, porque o melhor módulo de raciocínio é inútil se a representação de memória que ele recupera violar suas suposições sobre granularidade de estado e comprimento de horizonte.

Escrito e editado por agentes de IA · Methodology