SIGA Acelera Agentes de Codificação em Simuladores Científicos por 36×

SIGA, como detalhado em um artigo arXiv, demonstra que agentes de codificação prontos para uso podem gerar decks de entrada de simuladores científicos válidos em aproximadamente cinco minutos, oferecendo um aceleramento de 36× em relação a um especialista humano com orçamento estendido. A solução integra esses agentes com uma camada de interface de grounding leve, evitando a necessidade de suites de ferramentas específicas do domínio. O artigo enquadra a configuração do simulador como um problema de grounding de ferramenta de agente, onde agentes de codificação gerais já possuem habilidades como navegação de arquivos, execução de comandos, reparo de saída e edição de código. O que eles carecem é do contrato executável do simulador, incluindo seu vocabulário, restrições estruturais, regras de validação e condições de término. SIGA aborda isso com um Adaptador de Grounding de Interface do Simulador, composto por quatro ganchos: recuperação a partir da documentação, memória procedural de padrões válidos, validação em trajetória que submete configurações parciais ao CLI do simulador e término imposto pela validação.

Os autores testaram SIGA principalmente no GEOS, um simulador multifísica de código aberto usado na ciência subterránea, e transferiram com sucesso o método para OpenFOAM e LAMMPS sem sintonizar o LLM subjacente. No entanto, cada simulador requer sua própria configuração de adaptador para corpus de recuperação, memória procedural e regras de validação. No GEOS, SIGA atingiu uma pontuação de similaridade estrutural TreeSim acima de 0,90 na conjunto de testes padrão, correspondendo à saída de um especialista humano que trabalhou por aproximadamente três horas. Em um conjunto mais desafiador de retenção, o grounding aumentou o TreeSim de 0,720 para 0,789, uma melhoria relativa de 10% em relação ao agente nu e reduziu a desvio padrão entre sementes no GEOS em 16×. Quando permitido a evoluir sozinho, reescrevendo suas próprias entradas de recuperação e memória procedural de trajetórias anteriores, SIGA corresponde ou supera a configuração manual mais forte. Todos os resultados foram alcançados usando um agente de codificação pronto para uso sem nenhum ajuste específico do simulador.

Transferir SIGA para outros simuladores é possível, mas não uniforme. Em OpenFOAM, a completitude estrutural é o gargalo dominante, então a validação em trajetória impulsiona os ganhos. Em LAMMPS, o gargalo se desloca para a correção do domínio, e a recuperação mais a memória procedural tornam-se críticas. Isso indica que o design do adaptador é dependente do simulador, com ganchos de validação precisando de expansão para diferentes CLIs e corpora de recuperação abordando casos de canto específicos do domínio. O artigo relata trajetórias controladas em laboratório, não cargas de produção sustentadas ou orquestração de múltiplos agentes.

A métrica de aceleramento compara SIGA com um especialista humano, não com um agente de linha de base não assistido, e o teto fixo de 0,789 sugere que até agentes grounded podem perder escolhas de configuração sutis. A auto-evolução requer um corpus de trajetórias anteriores, impondo um custo de início frio antes que o adaptador possa superar as regras escritas à mão. Arquitetos considerando SIGA em contraste com frameworks mais pesados, como MDCrow - cujas 40 ferramentas são codificadas à mão, automações de domínio MD específicas abrangendo manipulação de arquivos, configuração de simulação, análise de saída e recuperação de literatura em fluxos de trabalho de dinâmica molecular amplamente - devem considerar o trabalho de integração de CLIs do simulador em um loop de validação ao vivo; o adaptador é leve em relação a 40 ferramentas personalizadas, mas não zero-touch. A redução de 16× no desvio padrão entre sementes no GEOS é significativa para pipelines automatizados, no entanto, depende da validação hook surfacing erros do simulador rapidamente o suficiente para guiar o agente dentro de uma única trajetória.

A mensagem chave é grounding agentes de codificação de propósito geral por meio de adaptadores de interface finos, apoiados por validadores, em vez de reestruturar a camada de ferramentas para cada novo CLI de domínio.

Sources

SIGA produces a complete GEOS deck in about five minutes with TreeSim above 0.90, matching an extended-budget human expert who took about three hours — a roughly 36× wall-clock speedup
"SIGA produces a complete GEOS deck in about five minutes with TreeSim above 0.90, matching an extended-budget human expert who took about three hours, a roughly 36x wall-clock speedup."
arxiv.org ↗
On a harder held-out set, grounding raises TreeSim from 0.720 to 0.789, a roughly 10% relative gain over the bare agent
"On a harder held-out set, grounding raises TreeSim from 0.720 to 0.789, a roughly 10% relative gain over the bare agent."
arxiv.org ↗
SIGA can reduce the across-seed standard deviation on GEOS by 16×
"can reduce the across-seed standard deviation by 16x"
arxiv.org ↗
Self-evolution improves SIGA by rewriting adapter contents from prior trajectories, yielding the highest held-out GEOS mean and matching or outperforming the strongest hand-designed configuration
"Self-evolution further improves SIGA by rewriting adapter contents from prior trajectories, yielding the highest held-out GEOS mean and matching or outperforming the strongest hand-designed configuration."
arxiv.org ↗
In OpenFOAM validation matters most when structural completeness is the bottleneck; in LAMMPS memory and retrieval matter most when domain correctness is the bottleneck
"validation matters most when structural completeness is the bottleneck, while memory and retrieval matter most when domain correctness is the bottleneck."
arxiv.org ↗
MDCrow uses more than 40 hand-coded, MD-domain-specific tools spanning file handling, simulation setup, output analysis, and literature retrieval across molecular dynamics workflows broadly — not GROMACS-specific
"MDCrow uses chain-of-thought over 40 expert-designed tools for handling and processing files, setting up simulations, analyzing the simulation outputs, and retrieving relevant information from literature and databases."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

SIGA Acelera Agentes de Codificação em Simuladores Científicos por 36×

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.