SIGA Acelera Agentes de Codificación en Simuladores Científicos por 36×

SIGA, como se detalla en un artículo de arXiv, demuestra que agentes de codificación de fábrica pueden generar valiosas entradas de simuladores científicos en aproximadamente cinco minutos, ofreciendo un acelereo de 36× sobre un experto humano con un presupuesto extendido. La solución integra estos agentes con una capa de enlace de interfaz ligera, evitando la necesidad de suites de herramientas específicas del dominio. El artículo enmarca la configuración del simulador como un problema de enlace de herramienta-agente, donde los agentes de codificación generales ya poseen capacidades como la navegación de archivos, ejecución de comandos, reparación de salida y edición de código. Lo que les falta es el contrato ejecutable del simulador, incluyendo su vocabulario, restricciones estructurales, reglas de validación y condiciones de terminación. SIGA aborda esto con un Adaptador de Enlace de Interfaz del Simulador que consta de cuatro ganchos: recuperación de documentación, memoria procedural de patrones válidos, validación en trayectoria que envía configuraciones parciales al CLI del simulador y terminación impuesta por validación.

Los autores probaron SIGA principalmente en GEOS, un simulador multi-físico de código abierto utilizado en la ciencia subterránea, y exitosamente transferieron el enfoque a OpenFOAM y LAMMPS sin sintonizar el LLM subyacente. Sin embargo, cada simulador requiere su propia configuración de adaptador para corpus de recuperación, memoria procedural y reglas de validación. En GEOS, SIGA logró un puntaje de similitud estructural TreeSim superior al 0.90 en el conjunto de pruebas estándar, coincidiendo con la salida de un experto humano que trabajó durante aproximadamente tres horas. En un conjunto desafiante retenido, la vinculación aumentó TreeSim de 0.720 a 0.789, una mejora relativa del 10 por ciento sobre el agente sin asistencia, y redujo la desviación estándar entre semillas en GEOS en 16×. Cuando se le permite evolucionarse a sí mismo, reescribiendo sus propias entradas de recuperación y memoria procedural de trayectorias anteriores, SIGA coincide o supera la configuración diseñada a mano más fuerte. Todos los resultados se lograron utilizando un agente de codificación de fábrica sin sintonización específica del simulador.

La transferencia de SIGA a otros simuladores es posible pero no uniforme. En OpenFOAM, la completitud estructural es el cuello de botella dominante, por lo que la validación en trayectoria impulsa las ganancias. En LAMMPS, el cuello de botella se desplaza a la corrección del dominio, y la recuperación más la memoria procedural se vuelven críticas. Esto indica que el diseño del adaptador depende del simulador, con ganchos de validación que necesitan expansión para diferentes CLIs y corpus de recuperación que cubren casos extremos específicos del dominio. El artículo informa de trayectorias controladas en laboratorio, no cargas de producción sostenidas o orquestración multi-agente.

La métrica de aceleración compara SIGA contra un experto humano, no un agente de línea base sin asistencia, y el techo establecido de 0.789 sugiere que incluso los agentes vinculados pueden omitir elecciones de configuración sutiles. La auto-evolución requiere un corpus de trayectorias previas, imponer un costo de inicio en frío antes de que el adaptador pueda superar las reglas escritas a mano. Los arquitectos que consideran SIGA en contra de marcos más pesados como MDCrow—whose 40 herramientas están codificadas a mano, MD-dominio específicas de automatizaciones que abarcan el manejo de archivos, configuración de simulación, análisis de salida y recuperación de literatura en flujos de trabajo de dinámica molecular ampliamente—deberían tener en cuenta el trabajo de integración de CLIs del simulador en un bucle de validación en vivo; el adaptador es ligero en comparación con 40 herramientas personalizadas, pero no toque cero. La reducción de 16× en la desviación estándar entre semillas en GEOS es significativa para las tuberías automatizadas, pero depende de que el gancho de validación surja errores del simulador lo suficientemente rápido como para guiar al agente dentro de una sola trayectoria.

El mensaje clave es vincular agentes de codificación de propósito general a través de delgados adaptadores de interfaz respaldados por validadores en lugar de reconstruir la capa de herramientas para cada nuevo CLI de dominio.

Sources

SIGA produces a complete GEOS deck in about five minutes with TreeSim above 0.90, matching an extended-budget human expert who took about three hours — a roughly 36× wall-clock speedup
"SIGA produces a complete GEOS deck in about five minutes with TreeSim above 0.90, matching an extended-budget human expert who took about three hours, a roughly 36x wall-clock speedup."
arxiv.org ↗
On a harder held-out set, grounding raises TreeSim from 0.720 to 0.789, a roughly 10% relative gain over the bare agent
"On a harder held-out set, grounding raises TreeSim from 0.720 to 0.789, a roughly 10% relative gain over the bare agent."
arxiv.org ↗
SIGA can reduce the across-seed standard deviation on GEOS by 16×
"can reduce the across-seed standard deviation by 16x"
arxiv.org ↗
Self-evolution improves SIGA by rewriting adapter contents from prior trajectories, yielding the highest held-out GEOS mean and matching or outperforming the strongest hand-designed configuration
"Self-evolution further improves SIGA by rewriting adapter contents from prior trajectories, yielding the highest held-out GEOS mean and matching or outperforming the strongest hand-designed configuration."
arxiv.org ↗
In OpenFOAM validation matters most when structural completeness is the bottleneck; in LAMMPS memory and retrieval matter most when domain correctness is the bottleneck
"validation matters most when structural completeness is the bottleneck, while memory and retrieval matter most when domain correctness is the bottleneck."
arxiv.org ↗
MDCrow uses more than 40 hand-coded, MD-domain-specific tools spanning file handling, simulation setup, output analysis, and literature retrieval across molecular dynamics workflows broadly — not GROMACS-specific
"MDCrow uses chain-of-thought over 40 expert-designed tools for handling and processing files, setting up simulations, analyzing the simulation outputs, and retrieving relevant information from literature and databases."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

SIGA Acelera Agentes de Codificación en Simuladores Científicos por 36×

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.