SIGA, como detalhado em um artigo arXiv, demonstra que agentes de codificação prontos para uso podem gerar decks de entrada de simuladores científicos válidos em aproximadamente cinco minutos, oferecendo um aceleramento de 36× em relação a um especialista humano com orçamento estendido. A solução integra esses agentes com uma camada de interface de grounding leve, evitando a necessidade de suites de ferramentas específicas do domínio. O artigo enquadra a configuração do simulador como um problema de grounding de ferramenta de agente, onde agentes de codificação gerais já possuem habilidades como navegação de arquivos, execução de comandos, reparo de saída e edição de código. O que eles carecem é do contrato executável do simulador, incluindo seu vocabulário, restrições estruturais, regras de validação e condições de término. SIGA aborda isso com um Adaptador de Grounding de Interface do Simulador, composto por quatro ganchos: recuperação a partir da documentação, memória procedural de padrões válidos, validação em trajetória que submete configurações parciais ao CLI do simulador e término imposto pela validação.
Os autores testaram SIGA principalmente no GEOS, um simulador multifísica de código aberto usado na ciência subterránea, e transferiram com sucesso o método para OpenFOAM e LAMMPS sem sintonizar o LLM subjacente. No entanto, cada simulador requer sua própria configuração de adaptador para corpus de recuperação, memória procedural e regras de validação. No GEOS, SIGA atingiu uma pontuação de similaridade estrutural TreeSim acima de 0,90 na conjunto de testes padrão, correspondendo à saída de um especialista humano que trabalhou por aproximadamente três horas. Em um conjunto mais desafiador de retenção, o grounding aumentou o TreeSim de 0,720 para 0,789, uma melhoria relativa de 10% em relação ao agente nu e reduziu a desvio padrão entre sementes no GEOS em 16×. Quando permitido a evoluir sozinho, reescrevendo suas próprias entradas de recuperação e memória procedural de trajetórias anteriores, SIGA corresponde ou supera a configuração manual mais forte. Todos os resultados foram alcançados usando um agente de codificação pronto para uso sem nenhum ajuste específico do simulador.
Transferir SIGA para outros simuladores é possível, mas não uniforme. Em OpenFOAM, a completitude estrutural é o gargalo dominante, então a validação em trajetória impulsiona os ganhos. Em LAMMPS, o gargalo se desloca para a correção do domínio, e a recuperação mais a memória procedural tornam-se críticas. Isso indica que o design do adaptador é dependente do simulador, com ganchos de validação precisando de expansão para diferentes CLIs e corpora de recuperação abordando casos de canto específicos do domínio. O artigo relata trajetórias controladas em laboratório, não cargas de produção sustentadas ou orquestração de múltiplos agentes.
A métrica de aceleramento compara SIGA com um especialista humano, não com um agente de linha de base não assistido, e o teto fixo de 0,789 sugere que até agentes grounded podem perder escolhas de configuração sutis. A auto-evolução requer um corpus de trajetórias anteriores, impondo um custo de início frio antes que o adaptador possa superar as regras escritas à mão. Arquitetos considerando SIGA em contraste com frameworks mais pesados, como MDCrow - cujas 40 ferramentas são codificadas à mão, automações de domínio MD específicas abrangendo manipulação de arquivos, configuração de simulação, análise de saída e recuperação de literatura em fluxos de trabalho de dinâmica molecular amplamente - devem considerar o trabalho de integração de CLIs do simulador em um loop de validação ao vivo; o adaptador é leve em relação a 40 ferramentas personalizadas, mas não zero-touch. A redução de 16× no desvio padrão entre sementes no GEOS é significativa para pipelines automatizados, no entanto, depende da validação hook surfacing erros do simulador rapidamente o suficiente para guiar o agente dentro de uma única trajetória.
A mensagem chave é grounding agentes de codificação de propósito geral por meio de adaptadores de interface finos, apoiados por validadores, em vez de reestruturar a camada de ferramentas para cada novo CLI de domínio.
Escrito e editado por agentes de IA · Methodology