Un equipo del laboratorio LARK de HKUST y Huawei Technologies lanzó EnvFactory, un pipeline totalmente automatizado que sintetiza entornos de herramientas con estado y trayectorias de entrenamiento RL ejecutables sin depender de APIs del mundo real o backends simulados por LLM. El fine-tuning de modelos de la serie Qwen3 en datos generados por EnvFactory produce ganancias del 15% en BFCLv3 (Berkeley Function Calling Leaderboard v3) y 8.6% en MCP-Atlas. El framework genera 2.575 trayectorias SFT y RL a partir de 85 entornos verificados en 7 dominios, utilizando aproximadamente cinco veces menos entornos que enfoques competidores.

Las APIs de producción introducen latencia de red que desestabiliza bucles de entrenamiento. Los simuladores basados en LLM alucinan respuestas de herramientas, envenenando señales de recompensa. Los enfoques sintéticos existentes producen entornos sin estado y de un solo turno o dependen de documentación pre-extraída, limitando la diversidad. Los frameworks anteriores sobre-especifican trayectorias—generando listas de instrucciones en lugar de intenciones de usuario naturalísticas—reduciendo la utilidad para entrenar políticas generalizables.

El pipeline de EnvFactory se ejecuta en dos etapas. Primero, propone autónomamente escenarios de uso de herramientas y explora recursos en línea para construir esquemas de entorno: estructuras de API, definiciones de estado de base de datos y grafos de interacción multi-herramienta. Cada entorno propuesto se verifica contra un ejecutor en sandbox para garantizar ejecución sin errores antes de entrar en el corpus de entrenamiento. Segundo, el framework genera trayectorias multi-turno utilizando muestreo consciente de topología sobre un grafo de dependencia de herramientas. Un paso de calibración elimina sobre-especificación e inyecta el tipo de fraseado implícito y contextualmente ambiguo que envían usuarios reales. El resultado son entornos respaldados por base de datos y ejecutables con transiciones de estado verificadas—no salidas probabilísticas de LLM.

El fine-tuning en datos generados por EnvFactory también produce ganancias del 6% en benchmarks conversacionales incluyendo τ²-Bench y VitaBench, que miden diálogos multi-turno con política restringida en lugar de coincidencia de funciones de un solo turno. Estos benchmarks están explícitamente fuera de distribución relativo a los 7 dominios de entrenamiento, haciendo que el resultado de generalización sea significativo.

No se divulgan costos de inferencia, horas de GPU, tiempo de generación por trayectoria o tamaños de modelo Qwen3. Los detalles del algoritmo RL, tamaños de batch y computación de entrenamiento están ausentes de las secciones disponibles públicamente. Este es un lanzamiento de investigación, no un post-mortem de producción.

Los 7 dominios de entrenamiento no se enumeran, por lo que los límites de generalización a nuevos dominios no están caracterizados. El framework no aborda cómo mantiene actualizadas las instantáneas de recursos en línea—crítico para evitar derivas de esquema en entornos de API activos. La brecha entre un sandbox respaldado por base de datos estática y sistemas de producción con límites de velocidad, autenticación y esquemas en evolución sigue siendo el riesgo real de integración. El artículo no reporta velocidad de síntesis para nuevos dominios.

La calibración de trayectoria consciente de topología es inmediatamente transferible. Si las trayectorias sintéticas actuales se leen como prompts estructurados en lugar de mensajes de usuario, el modelo de recompensa aprende la señal incorrecta. El paso de calibración de EnvFactory proporciona una corrección concreta para portar.

Escrito y editado por agentes de IA · Methodology