EnvFactory eleva la precisión de llamadas de herramientas del Qwen3 un 15% con datos sintéticos

Nuevo artículo aborda el cuello de botella en RL agentic: generar entornos de entrenamiento diversos y robustos sin depender de simuladores LLM propensos a alucinaciones o APIs reales costosas. EnvFactory auto-sintetiza entornos ejecutables e incluye un pipeline RL robusto—patrón implementable para equipos entrenando agentes de uso de herramientas en distribuciones de tareas del mundo real.

Un equipo del laboratorio LARK de HKUST y Huawei Technologies lanzó EnvFactory, un pipeline totalmente automatizado que sintetiza entornos de herramientas con estado y trayectorias de entrenamiento RL ejecutables sin depender de APIs del mundo real o backends simulados por LLM. El fine-tuning de modelos de la serie Qwen3 en datos generados por EnvFactory produce ganancias del 15% en BFCLv3 (Berkeley Function Calling Leaderboard v3) y 8.6% en MCP-Atlas. El framework genera 2.575 trayectorias SFT y RL a partir de 85 entornos verificados en 7 dominios, utilizando aproximadamente cinco veces menos entornos que enfoques competidores.

Las APIs de producción introducen latencia de red que desestabiliza bucles de entrenamiento. Los simuladores basados en LLM alucinan respuestas de herramientas, envenenando señales de recompensa. Los enfoques sintéticos existentes producen entornos sin estado y de un solo turno o dependen de documentación pre-extraída, limitando la diversidad. Los frameworks anteriores sobre-especifican trayectorias—generando listas de instrucciones en lugar de intenciones de usuario naturalísticas—reduciendo la utilidad para entrenar políticas generalizables.

El pipeline de EnvFactory se ejecuta en dos etapas. Primero, propone autónomamente escenarios de uso de herramientas y explora recursos en línea para construir esquemas de entorno: estructuras de API, definiciones de estado de base de datos y grafos de interacción multi-herramienta. Cada entorno propuesto se verifica contra un ejecutor en sandbox para garantizar ejecución sin errores antes de entrar en el corpus de entrenamiento. Segundo, el framework genera trayectorias multi-turno utilizando muestreo consciente de topología sobre un grafo de dependencia de herramientas. Un paso de calibración elimina sobre-especificación e inyecta el tipo de fraseado implícito y contextualmente ambiguo que envían usuarios reales. El resultado son entornos respaldados por base de datos y ejecutables con transiciones de estado verificadas—no salidas probabilísticas de LLM.

El fine-tuning en datos generados por EnvFactory también produce ganancias del 6% en benchmarks conversacionales incluyendo τ²-Bench y VitaBench, que miden diálogos multi-turno con política restringida en lugar de coincidencia de funciones de un solo turno. Estos benchmarks están explícitamente fuera de distribución relativo a los 7 dominios de entrenamiento, haciendo que el resultado de generalización sea significativo.

No se divulgan costos de inferencia, horas de GPU, tiempo de generación por trayectoria o tamaños de modelo Qwen3. Los detalles del algoritmo RL, tamaños de batch y computación de entrenamiento están ausentes de las secciones disponibles públicamente. Este es un lanzamiento de investigación, no un post-mortem de producción.

Los 7 dominios de entrenamiento no se enumeran, por lo que los límites de generalización a nuevos dominios no están caracterizados. El framework no aborda cómo mantiene actualizadas las instantáneas de recursos en línea—crítico para evitar derivas de esquema en entornos de API activos. La brecha entre un sandbox respaldado por base de datos estática y sistemas de producción con límites de velocidad, autenticación y esquemas en evolución sigue siendo el riesgo real de integración. El artículo no reporta velocidad de síntesis para nuevos dominios.

La calibración de trayectoria consciente de topología es inmediatamente transferible. Si las trayectorias sintéticas actuales se leen como prompts estructurados en lugar de mensajes de usuario, el modelo de recompensa aprende la señal incorrecta. El paso de calibración de EnvFactory proporciona una corrección concreta para portar.

Sources

EnvFactory uses 85 verified environments across 7 domains to generate 2,575 SFT and RL trajectories
"Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories."
arxiv.org ↗
Fine-tuning Qwen3-series models yields up to +15% on BFCLv3 and +8.6% on MCP-Atlas
"improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ2-Bench and VitaBench"
arxiv.org ↗
EnvFactory achieves results using roughly five times fewer environments than prior work often uses
"Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance"
arxiv.org ↗
LLM-based simulators are hallucination-prone, making RL training difficult to generalize
"Simulated environments use LLMs to emulate tool behavior, enabling rapid prototyping but often suffering from hallucination, which makes RL training difficult to generalize in real-world application"
arxiv.org ↗
Production APIs remain costly to scale and destabilize RL training due to network latency
"Production environments, such as real-world APIs or MCPs, provide authentic execution, but remain costly to scale and destabilize RL training due to potential network latency."
arxiv.org ↗
Existing synthetic trajectories are over-specified, resembling instruction sequences rather than natural human intents
"synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training"
arxiv.org ↗
EnvFactory autonomously explores authentic online resources to build environment schemas and verifies them via sandboxed execution
"EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents."
arxiv.org ↗
The paper is from LARK lab at HKUST (GZ) with co-authors from Huawei Technologies
"Minrui Xu LARK, HKUST (GZ) ... Heyuan Deng Huawei Technologies Co., Ltd Fei Mi Huawei Technologies Co., Ltd Lifeng Shang Huawei Technologies Co., Ltd Xingshan Zeng Huawei Technologies Co., Ltd"
arxiv.org ↗
Fine-tuning yields +6% on conversational benchmarks including τ²-Bench and VitaBench
"improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ2-Bench and VitaBench"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

EnvFactory eleva la precisión de llamadas de herramientas del Qwen3 un 15% con datos sintéticos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.