FORGE Reduce Fallos de Agentes a 1% Sin Fine-Tuning del Modelo

Artículo de arXiv presenta FORGE, un protocolo basado en población que evoluciona la memoria de agentes ReAct mediante reflexión estilo Reflexion sin reentrenamiento ni intercambio de modelo. Los operadores que ejecutan flujos de trabajo de agentes multi-paso pueden ahora iterar sobre prompts específicos de la tarea y artefactos de memoria en producción, mejorando la toma de decisiones en patrones de tareas repetidas sin actualizaciones de modelo.

Investigadores de Carleton University, Defence R&D Canada y Cistel Technology publicaron FORGE, un protocolo solo-prompt donde los agentes aprenden de los fallos mutuos sin actualizaciones de modelo, fine-tuning o destilación. En CybORG CAGE-2, una tarea de defensa de red de 30 pasos con observabilidad parcial, FORGE redujo eventos de fallo mayor a ~1% y logró una mejora de 1,7–7,7× sobre baselines zero-shot en 12 combinaciones de representación de modelo.

El mecanismo tiene dos bucles. Un bucle interno espeja Reflexion: un agente de reflexión convierte trayectorias fallidas en uno de tres artefactos de memoria—Reglas (heurísticas textuales), Ejemplos (demostraciones few-shot), o ambas—e los inyecta en el contexto del prompt. Los pesos del modelo permanecen congelados. Un bucle externo difunde el artefacto de memoria del agente con mejor desempeño a todos los demás agentes en la población. Los agentes que cumplen un criterio de graduación se retiran del entrenamiento.

Los autores probaron cuatro familias de modelos—Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick y Qwen3-235B. Todos mostraron recompensas zero-shot negativas en CAGE-2 debido a la observabilidad parcial de 30 pasos del entorno y retroalimentación dispersa. FORGE redujo eventos de fallo mayor a tan solo ~1% en sus mejores condiciones.

Las ablaciones mostraron que la difusión poblacional es crítica. Eliminar la difusión colapsó los resultados hacia Reflexion estándar. Los Ejemplos (demostraciones few-shot) lograron los retornos más altos para tres de las cuatro familias de modelos. Las Reglas consumieron aproximadamente 40% menos tokens mientras sacrificaban una precisión modesta—el equilibrio correcto para pipelines de alto rendimiento. Los modelos base más débiles se beneficiaron más que los más fuertes, sugiriendo que FORGE reduce brechas de capacidad en lugar de amplificar fortalezas existentes.

Ausente del artículo: latencia absoluta, costo por llamada, tiempo de entrenamiento wall-clock y presupuestos absolutos de tokens. La evaluación cubre solo CybORG CAGE-2, y los hallazgos entre familias se etiquetan como direccionales. El paso de difusión asume que todos los agentes ejecutan el mismo modelo base; los grupos heterogéneos no se abordan. El tamaño de la población y el recuento de pasos carecen de orientación de propósito general.

Si su equipo ejecuta instancias repetidas de la misma tarea de agente en un modelo congelado, integre difusión poblacional en su andamio Reflexion para que el artefacto de memoria del agente de mejor desempeño sobrescriba el contexto antes del siguiente paso. Las ablaciones confirman que este mecanismo impulsa las ganancias principales del protocolo sobre reflexión de flujo único.

Sources

FORGE improves average evaluation return by 1.7–7.7× over zero-shot and 29–72% over Reflexion across all 12 model-representation conditions
"FORGE improves average evaluation return by 1.7-7.7× over zero-shot and by 29-72% over Reflexion in all 12 model-representation conditions"
arxiv.org ↗
FORGE uses a dedicated reflection agent running on the same underlying LLM — no distillation from a stronger model
"a dedicated reflection agent (using the same underlying LLM, no distillation from a stronger model) converts failed trajectories into reusable knowledge artifacts"
arxiv.org ↗
Memory artifact types are Rules (textual heuristics), Examples (few-shot demonstrations), or Mixed
"textual heuristics (Rules), few-shot demonstrations (Examples), or both (Mixed)"
arxiv.org ↗
Population broadcast is the critical mechanism; graduation primarily saves compute rather than driving performance
"population broadcast is the critical mechanism, with a no-graduation ablation confirming that broadcast carries the performance gains while graduation primarily saves compute"
arxiv.org ↗
Rules representation uses ~40% fewer tokens than Examples
"Rules offers the best cost-reliability profile with ~40% fewer tokens"
arxiv.org ↗
Major-failure rates (below −100) are reduced to as low as ~1% in FORGE's best-performing conditions, not uniformly across all 12 conditions
"reducing major-failure rates (below −100) to as low as ~1%"
arxiv.org ↗
Weaker baseline models benefit disproportionately from FORGE
"weaker baseline models benefit disproportionately, suggesting FORGE may mitigate capability gaps rather than amplify strong models"
arxiv.org ↗
All four tested model families exhibit strongly negative, heavy-tailed zero-shot rewards on CAGE-2 B-line
"all four tested LLM families (Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick, Qwen3-235B) exhibit strongly negative, heavy-tailed zero-shot rewards"
arxiv.org ↗
DRL top score on CybORG CAGE-2 leaderboard is −3.47
"DRL top score −3.47 (Kiely et al., 2023)) providing absolute reference points"
arxiv.org ↗
Cross-family findings are labeled directional evidence; all results are confined to CAGE-2 B-line
"All evidence is confined to CAGE-2 B_line; cross-family findings are directional evidence"
arxiv.org ↗
FORGE is set to appear at ACM Conference on AI and Agentic Systems (CAIS '26), May 26–29, 2026, San Jose
"ACM Conference on AI and Agentic Systems; May 26–29, 2026; San Jose, CA, USA"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

FORGE Reduce Fallos de Agentes a 1% Sin Fine-Tuning del Modelo

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.