FORGE Reduz Falhas de Agentes para 1% Sem Fine-Tuning do Modelo

Artigo arXiv apresenta FORGE, um protocolo baseado em população que evolui memória de agentes ReAct via reflexão estilo Reflexion sem retreinamento ou troca de modelo. Operadores executando workflows de agentes multi-etapa podem agora iterar sobre prompts específicos da tarefa e artefatos de memória em produção, melhorando a tomada de decisão em padrões de tarefas repetidas sem atualizações de modelo.

Pesquisadores da Carleton University, Defence R&D Canada e Cistel Technology publicaram FORGE, um protocolo apenas-prompt onde agentes aprendem com as falhas uns dos outros sem atualizações de modelo, fine-tuning ou destilação. No CybORG CAGE-2, uma tarefa de defesa de rede com 30 etapas e observabilidade parcial, FORGE reduziu eventos de falha maior para ~1% e alcançou melhoria de 1,7–7,7× sobre baselines zero-shot em 12 combinações de representação de modelo.

O mecanismo tem dois loops. Um loop interno espelha Reflexion: um agente de reflexão converte trajetórias falhadas em um de três artefatos de memória—Regras (heurísticas textuais), Exemplos (demonstrações few-shot), ou ambos—e os injeta no contexto do prompt. Os pesos do modelo permanecem congelados. Um loop externo distribui o artefato de memória do melhor agente em desempenho para todos os outros agentes na população. Agentes que atendem a um critério de conclusão são então removidos do treinamento.

Os autores testaram quatro famílias de modelo—Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick e Qwen3-235B. Todos mostraram recompensas zero-shot negativas no CAGE-2 devido à observabilidade parcial de 30 etapas do ambiente e feedback esparso. FORGE reduziu eventos de falha maior para tão baixo quanto ~1% em suas melhores condições.

As ablações mostraram que a transmissão populacional é crítica. Remover a transmissão colapsou os resultados em direção ao Reflexion padrão. Exemplos (demonstrações few-shot) alcançaram os maiores retornos para três das quatro famílias de modelo. Regras consumiram aproximadamente 40% menos tokens enquanto sacrificavam acurácia modesta—a compensação certa para pipelines de alto throughput. Modelos baseline mais fracos se beneficiaram mais que os mais fortes, sugerindo que FORGE reduz lacunas de capacidade em vez de amplificar forças existentes.

Ausente do artigo: latência absoluta, custo por chamada, tempo de treinamento wall-clock e orçamentos absolutos de token. A avaliação cobre apenas CybORG CAGE-2 e os achados entre famílias são rotulados como direcionais. A etapa de transmissão assume que todos os agentes executam o mesmo modelo base; pools heterogêneas não são abordadas. Tamanho da população e contagem de etapas carecem de orientação de propósito geral.

Se sua equipe executa instâncias repetidas da mesma tarefa de agente em um modelo congelado, integre transmissão populacional em seu scaffold Reflexion para que o artefato de memória do agente melhor em desempenho sobrescreva o contexto antes do próximo estágio. As ablações confirmam que este mecanismo impulsiona os ganhos principais do protocolo sobre reflexão de stream único.

Sources

FORGE improves average evaluation return by 1.7–7.7× over zero-shot and 29–72% over Reflexion across all 12 model-representation conditions
"FORGE improves average evaluation return by 1.7-7.7× over zero-shot and by 29-72% over Reflexion in all 12 model-representation conditions"
arxiv.org ↗
FORGE uses a dedicated reflection agent running on the same underlying LLM — no distillation from a stronger model
"a dedicated reflection agent (using the same underlying LLM, no distillation from a stronger model) converts failed trajectories into reusable knowledge artifacts"
arxiv.org ↗
Memory artifact types are Rules (textual heuristics), Examples (few-shot demonstrations), or Mixed
"textual heuristics (Rules), few-shot demonstrations (Examples), or both (Mixed)"
arxiv.org ↗
Population broadcast is the critical mechanism; graduation primarily saves compute rather than driving performance
"population broadcast is the critical mechanism, with a no-graduation ablation confirming that broadcast carries the performance gains while graduation primarily saves compute"
arxiv.org ↗
Rules representation uses ~40% fewer tokens than Examples
"Rules offers the best cost-reliability profile with ~40% fewer tokens"
arxiv.org ↗
Major-failure rates (below −100) are reduced to as low as ~1% in FORGE's best-performing conditions, not uniformly across all 12 conditions
"reducing major-failure rates (below −100) to as low as ~1%"
arxiv.org ↗
Weaker baseline models benefit disproportionately from FORGE
"weaker baseline models benefit disproportionately, suggesting FORGE may mitigate capability gaps rather than amplify strong models"
arxiv.org ↗
All four tested model families exhibit strongly negative, heavy-tailed zero-shot rewards on CAGE-2 B-line
"all four tested LLM families (Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick, Qwen3-235B) exhibit strongly negative, heavy-tailed zero-shot rewards"
arxiv.org ↗
DRL top score on CybORG CAGE-2 leaderboard is −3.47
"DRL top score −3.47 (Kiely et al., 2023)) providing absolute reference points"
arxiv.org ↗
Cross-family findings are labeled directional evidence; all results are confined to CAGE-2 B-line
"All evidence is confined to CAGE-2 B_line; cross-family findings are directional evidence"
arxiv.org ↗
FORGE is set to appear at ACM Conference on AI and Agentic Systems (CAIS '26), May 26–29, 2026, San Jose
"ACM Conference on AI and Agentic Systems; May 26–29, 2026; San Jose, CA, USA"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

FORGE Reduz Falhas de Agentes para 1% Sem Fine-Tuning do Modelo

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.