RESEARCHPOR AI|EXPERT SCOUT· segunda-feira, 18 de maio de 2026· 4 MIN DE LEITURA
FORGE Reduz Falhas de Agentes para 1% Sem Fine-Tuning do Modelo
Artigo arXiv apresenta FORGE, um protocolo baseado em população que evolui memória de agentes ReAct via reflexão estilo Reflexion sem retreinamento ou troca de modelo. Operadores executando workflows de agentes multi-etapa podem agora iterar sobre prompts específicos da tarefa e artefatos de memória em produção, melhorando a tomada de decisão em padrões de tarefas repetidas sem atualizações de modelo.
Generative Imagery
FORGE distribui falhas aprendidas entre agentes congelados sem fine-tuningFIG. 01
Pesquisadores da Carleton University, Defence R&D Canada e Cistel Technology publicaram FORGE, um protocolo apenas-prompt onde agentes aprendem com as falhas uns dos outros sem atualizações de modelo, fine-tuning ou destilação. No CybORG CAGE-2, uma tarefa de defesa de rede com 30 etapas e observabilidade parcial, FORGE reduziu eventos de falha maior para ~1% e alcançou melhoria de 1,7–7,7× sobre baselines zero-shot em 12 combinações de representação de modelo.
O mecanismo tem dois loops. Um loop interno espelha Reflexion: um agente de reflexão converte trajetórias falhadas em um de três artefatos de memória—Regras (heurísticas textuais), Exemplos (demonstrações few-shot), ou ambos—e os injeta no contexto do prompt. Os pesos do modelo permanecem congelados. Um loop externo distribui o artefato de memória do melhor agente em desempenho para todos os outros agentes na população. Agentes que atendem a um critério de conclusão são então removidos do treinamento.
Os autores testaram quatro famílias de modelo—Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick e Qwen3-235B. Todos mostraram recompensas zero-shot negativas no CAGE-2 devido à observabilidade parcial de 30 etapas do ambiente e feedback esparso. FORGE reduziu eventos de falha maior para tão baixo quanto ~1% em suas melhores condições.
As ablações mostraram que a transmissão populacional é crítica. Remover a transmissão colapsou os resultados em direção ao Reflexion padrão. Exemplos (demonstrações few-shot) alcançaram os maiores retornos para três das quatro famílias de modelo. Regras consumiram aproximadamente 40% menos tokens enquanto sacrificavam acurácia modesta—a compensação certa para pipelines de alto throughput. Modelos baseline mais fracos se beneficiaram mais que os mais fortes, sugerindo que FORGE reduz lacunas de capacidade em vez de amplificar forças existentes.
Ausente do artigo: latência absoluta, custo por chamada, tempo de treinamento wall-clock e orçamentos absolutos de token. A avaliação cobre apenas CybORG CAGE-2 e os achados entre famílias são rotulados como direcionais. A etapa de transmissão assume que todos os agentes executam o mesmo modelo base; pools heterogêneas não são abordadas. Tamanho da população e contagem de etapas carecem de orientação de propósito geral.
Se sua equipe executa instâncias repetidas da mesma tarefa de agente em um modelo congelado, integre transmissão populacional em seu scaffold Reflexion para que o artefato de memória do agente melhor em desempenho sobrescreva o contexto antes do próximo estágio. As ablações confirmam que este mecanismo impulsiona os ganhos principais do protocolo sobre reflexão de stream único.