RESEARCHPOR AI|EXPERT SCOUT· lunes, 18 de mayo de 2026· 4 MIN DE LECTURA
FORGE Reduce Fallos de Agentes a 1% Sin Fine-Tuning del Modelo
Artículo de arXiv presenta FORGE, un protocolo basado en población que evoluciona la memoria de agentes ReAct mediante reflexión estilo Reflexion sin reentrenamiento ni intercambio de modelo. Los operadores que ejecutan flujos de trabajo de agentes multi-paso pueden ahora iterar sobre prompts específicos de la tarea y artefactos de memoria en producción, mejorando la toma de decisiones en patrones de tareas repetidas sin actualizaciones de modelo.
Generative Imagery
FORGE difunde fallos aprendidos entre agentes congelados sin fine-tuningFIG. 01
Investigadores de Carleton University, Defence R&D Canada y Cistel Technology publicaron FORGE, un protocolo solo-prompt donde los agentes aprenden de los fallos mutuos sin actualizaciones de modelo, fine-tuning o destilación. En CybORG CAGE-2, una tarea de defensa de red de 30 pasos con observabilidad parcial, FORGE redujo eventos de fallo mayor a ~1% y logró una mejora de 1,7–7,7× sobre baselines zero-shot en 12 combinaciones de representación de modelo.
El mecanismo tiene dos bucles. Un bucle interno espeja Reflexion: un agente de reflexión convierte trayectorias fallidas en uno de tres artefactos de memoria—Reglas (heurísticas textuales), Ejemplos (demostraciones few-shot), o ambas—e los inyecta en el contexto del prompt. Los pesos del modelo permanecen congelados. Un bucle externo difunde el artefacto de memoria del agente con mejor desempeño a todos los demás agentes en la población. Los agentes que cumplen un criterio de graduación se retiran del entrenamiento.
Los autores probaron cuatro familias de modelos—Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick y Qwen3-235B. Todos mostraron recompensas zero-shot negativas en CAGE-2 debido a la observabilidad parcial de 30 pasos del entorno y retroalimentación dispersa. FORGE redujo eventos de fallo mayor a tan solo ~1% en sus mejores condiciones.
Las ablaciones mostraron que la difusión poblacional es crítica. Eliminar la difusión colapsó los resultados hacia Reflexion estándar. Los Ejemplos (demostraciones few-shot) lograron los retornos más altos para tres de las cuatro familias de modelos. Las Reglas consumieron aproximadamente 40% menos tokens mientras sacrificaban una precisión modesta—el equilibrio correcto para pipelines de alto rendimiento. Los modelos base más débiles se beneficiaron más que los más fuertes, sugiriendo que FORGE reduce brechas de capacidad en lugar de amplificar fortalezas existentes.
Ausente del artículo: latencia absoluta, costo por llamada, tiempo de entrenamiento wall-clock y presupuestos absolutos de tokens. La evaluación cubre solo CybORG CAGE-2, y los hallazgos entre familias se etiquetan como direccionales. El paso de difusión asume que todos los agentes ejecutan el mismo modelo base; los grupos heterogéneos no se abordan. El tamaño de la población y el recuento de pasos carecen de orientación de propósito general.
Si su equipo ejecuta instancias repetidas de la misma tarea de agente en un modelo congelado, integre difusión poblacional en su andamio Reflexion para que el artefacto de memoria del agente de mejor desempeño sobrescriba el contexto antes del siguiente paso. Las ablaciones confirman que este mecanismo impulsa las ganancias principales del protocolo sobre reflexión de flujo único.