EnvFactory eleva precisão de chamada de ferramentas do Qwen3 em 15% com dados sintéticos

Novo artigo aborda o gargalo em RL agentic: gerar ambientes de treinamento diversos e robustos sem depender de simuladores LLM propensos a alucinações ou APIs reais caras. EnvFactory auto-sintetiza ambientes executáveis e inclui um pipeline RL robusto—padrão implementável para equipes treinando agentes de uso de ferramentas em distribuições de tarefas do mundo real.

Uma equipe do lab LARK da HKUST e Huawei Technologies lançou EnvFactory, um pipeline totalmente automatizado que sintetiza ambientes de ferramentas com estado e trajetórias de treinamento RL executáveis sem depender de APIs do mundo real ou backends simulados por LLM. O fine-tuning de modelos da série Qwen3 em dados gerados por EnvFactory produz ganhos de 15% no BFCLv3 (Berkeley Function Calling Leaderboard v3) e 8.6% no MCP-Atlas. O framework gera 2.575 trajetórias SFT e RL a partir de 85 ambientes verificados em 7 domínios, utilizando aproximadamente cinco vezes menos ambientes que abordagens concorrentes.

APIs de produção introduzem latência de rede que desestabiliza loops de treinamento. Simuladores baseados em LLM alucinam respostas de ferramentas, envenenando sinais de recompensa. Abordagens sintéticas existentes produzem ambientes sem estado e de turno único ou dependem de documentação pré-coletada, limitando diversidade. Frameworks anteriores especificam excessivamente trajetórias—gerando listas de instruções em vez de intenções de usuário naturalísticas—reduzindo utilidade para treinar políticas generalizáveis.

O pipeline do EnvFactory funciona em dois estágios. Primeiro, ele propõe autonomamente cenários de uso de ferramentas e explora recursos online para construir esquemas de ambiente: estruturas de API, definições de estado de banco de dados e grafos de interação multi-ferramenta. Cada ambiente proposto é verificado contra um executor em sandbox para garantir execução livre de erros antes de entrar no corpus de treinamento. Segundo, o framework gera trajetórias multi-turno usando amostragem consciente de topologia sobre um grafo de dependência de ferramentas. Uma etapa de calibração remove especificação excessiva e injeta o tipo de fraseado implícito e contextualmente ambíguo que usuários reais enviam. A saída são ambientes com suporte em banco de dados e executáveis com transições de estado verificadas—não outputs probabilísticos de LLM.

O fine-tuning em dados gerados por EnvFactory também produz ganhos de 6% em benchmarks conversacionais incluindo τ²-Bench e VitaBench, que medem diálogo multi-turno com política constrangida em vez de correspondência de função de turno único. Esses benchmarks estão explicitamente fora da distribuição relativa aos 7 domínios de treinamento, tornando o resultado de generalização significativo.

Nenhum custo de inferência, horas de GPU, tempo de geração por trajetória ou tamanhos de modelo Qwen3 são divulgados. Detalhes do algoritmo RL, tamanhos de batch e computação de treinamento estão ausentes das seções publicamente disponíveis. Este é um lançamento de pesquisa, não um post-mortem de produção.

Os 7 domínios de treinamento não são enumerados, portanto os limites de generalização para novos domínios são não caracterizados. O framework não aborda como mantém snapshots de recursos online atualizados—crítico para evitar desvio de schema em ambientes de API ao vivo. A lacuna entre um sandbox com suporte em banco de dados estático e sistemas de produção com limites de taxa, autenticação e schemas em evolução continua sendo o risco real de integração. O artigo não relata velocidade de síntese para novos domínios.

A calibração de trajetória consciente de topologia é imediatamente transferível. Se trajetórias sintéticas atuais parecem prompts estruturados em vez de mensagens de usuário, o modelo de recompensa aprende o sinal errado. A etapa de calibração do EnvFactory fornece uma correção concreta para portar.

Sources

EnvFactory uses 85 verified environments across 7 domains to generate 2,575 SFT and RL trajectories
"Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories."
arxiv.org ↗
Fine-tuning Qwen3-series models yields up to +15% on BFCLv3 and +8.6% on MCP-Atlas
"improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ2-Bench and VitaBench"
arxiv.org ↗
EnvFactory achieves results using roughly five times fewer environments than prior work often uses
"Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance"
arxiv.org ↗
LLM-based simulators are hallucination-prone, making RL training difficult to generalize
"Simulated environments use LLMs to emulate tool behavior, enabling rapid prototyping but often suffering from hallucination, which makes RL training difficult to generalize in real-world application"
arxiv.org ↗
Production APIs remain costly to scale and destabilize RL training due to network latency
"Production environments, such as real-world APIs or MCPs, provide authentic execution, but remain costly to scale and destabilize RL training due to potential network latency."
arxiv.org ↗
Existing synthetic trajectories are over-specified, resembling instruction sequences rather than natural human intents
"synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training"
arxiv.org ↗
EnvFactory autonomously explores authentic online resources to build environment schemas and verifies them via sandboxed execution
"EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents."
arxiv.org ↗
The paper is from LARK lab at HKUST (GZ) with co-authors from Huawei Technologies
"Minrui Xu LARK, HKUST (GZ) ... Heyuan Deng Huawei Technologies Co., Ltd Fei Mi Huawei Technologies Co., Ltd Lifeng Shang Huawei Technologies Co., Ltd Xingshan Zeng Huawei Technologies Co., Ltd"
arxiv.org ↗
Fine-tuning yields +6% on conversational benchmarks including τ²-Bench and VitaBench
"improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ2-Bench and VitaBench"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

EnvFactory eleva precisão de chamada de ferramentas do Qwen3 em 15% com dados sintéticos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.