El Modelo 397B de Qwen Simula Entornos de Agentes Mejor que GPT-5.4

El equipo Qwen de Alibaba publicó Qwen-AgentWorld el 23 de junio de 2026: dos modelos mixture-of-experts (35B-A3B y 397B-A17B) diseñados para simular entornos para el entrenamiento de agentes en lugar de actuar como agentes en sí mismos. El 397B-A17B obtiene 58.71 en AgentWorldBench, superando el 58.25 de GPT-5.4 y teniendo mejor desempeño que todos los modelos propietarios de frontera probados. Tanto los modelos como el benchmark son Apache 2.0; los pesos del 35B están disponibles en HuggingFace y ModelScope, con el lanzamiento del 397B pendiente.

Los bucles de entrenamiento estándar de agentes requieren entornos activos—terminales, navegadores, máquinas virtuales—que responden a cada acción y consumen infraestructura. El modelo de mundo de lenguaje de Qwen reemplaza esto con un modelo forward: dado una acción e historial, predecir la respuesta del entorno. Qwen entrenó con 10M+ trayectorias reales de Ubuntu, macOS, Android y navegadores reales en siete dominios (MCP, Search, Terminal, SWE, Android, Web, OS). Esto no es sintético—son trazas de ejecución de producción.

El entrenamiento sigue tres etapas: pre-entrenamiento continuo inyecta dinámicas de entorno y datos de dominio; ajuste fino supervisado enseña predicción del siguiente estado; aprendizaje por refuerzo afina la fidelidad con recompensas híbridas. La elección de diseño: el modelado del entorno es el objetivo desde CPT en adelante, no una capa post-hoc. Qwen llama a esto entrenamiento de "native world model". El 35B-A3B ganó 8.66 puntos generales de AgentWorldBench con este enfoque (47.73 → 56.39) versus la línea base Qwen3.5-35B-A3B.

Emergen dos patrones de despliegue. Desacoplado: usa Qwen-AgentWorld como un simulador RL listo para usar. Los agentes entrenados enteramente en entornos de búsqueda ficticios—resultados inventados, páginas, hechos—aún se generalizaron a tareas reales. WideSearch F1 Item saltó de 34.02 a 50.31 (+16.29); F1 Row de 13.72 a 24.21 (+10.49) en la base 35B. La perturbación controlada (forzando llamadas adicionales de herramientas) elevó MCPMark de 21.5 a 33.8 (+12.3) versus la línea base no controlada. Unificado: trata el entrenamiento de world-model como calentamiento para agentes downstream. Los mismos datos RL se transfirieron a llamadas de herramientas multi-turno: Terminal-Bench 2.0 saltó de 33.25 a 39.55 (+6.30), SWE-Bench Verified de 64.47 a 67.86 (+3.39), BFCL v4 de 62.29 a 71.25 (+8.96).

En AgentWorldBench, el 397B-A17B lidera en dominios de texto—Terminal (57.73 vs 53.69 de GPT-5.4), SWE (68.49 vs 66.29)—donde la ejecución de código y el modelado de API importan más. Los dominios GUI difieren: Claude Opus 4.8 (60.93) y 4.6 (61.12) lideran; el 397B se clasifica quinto en 59.69. Los modelos de mundo basados en tokens de texto actualmente no sirven bien a los estados anclados en píxeles.

El 35B se ejecuta en cuatro GPUs a través de SGLang o vLLM (tensor-parallel-size 4, contexto de 256K). Mantén al menos 128K de contexto para simulación multi-turno. Configuración recomendada: temperatura 0.6, top_p 0.95, top_k 20. El 397B es solo referencia de benchmark; los equipos que planean despliegue de inferencia deben esperar el lanzamiento pendiente.

Si tu bucle RL de agente tiene un cuello de botella por costo o variabilidad del entorno, un modelo de mundo con parámetros 3B-active en cuatro GPUs es ahora una alternativa creíble al entrenamiento con entornos activos. Los resultados de WideSearch y MCP muestran que los entornos ficticios controlables pueden superar lo real.

Sources

Qwen-AgentWorld-397B-A17B scores 58.71 on AgentWorldBench, edging GPT-5.4's 58.25 and topping every frontier proprietary model
"Qwen-AgentWorld-397B-A17B achieves the highest overall score (58.71), outperforming all frontier proprietary models including GPT-5.4 (58.25)."
github.com ↗
Two MoE models: 35B-A3B and 397B-A17B, trained on 10M+ real-world trajectories across 7 domains
"Leveraging more than 10M environment interaction trajectories of 7 domains in real-world environments, we develop Qwen-AgentWorld through a three-stage training pipeline."
arxiv.org ↗
Three-stage training pipeline: CPT injects environment dynamics, SFT activates next-state-prediction reasoning, RL sharpens simulation fidelity
"CPT injects general-purpose world modeling capabilities from the state transition dynamics and augmented professional corpora, SFT activates next-state-prediction reasoning, and RL sharpens simulation fidelity through a tailored framework with hybrid rubric-and-rule rewards."
arxiv.org ↗
Native world model design: environment modeling is the training objective from CPT onward, not a post-hoc fine-tune
"Unlike prior approaches that treat world modeling as a post-hoc add-on, Qwen-AgentWorld is a native world model: environment modeling is the training objective from the CPT stage onward."
github.com ↗
35B-A3B gained 8.66 overall AgentWorldBench points from LWM training (47.73 → 56.39)
"Qwen-AgentWorld-35B-A3B shows +8.66 improvement over Qwen3.5-35B-A3B without LWM training."
github.com ↗
Training data collected from real Ubuntu, macOS, and Android hosts and browsers — not synthetic rollouts
"they actually went and deployed real physical hosts and virtual machines (e.g. Ubuntu, macOS, and Android) and browsers. They ran agentic systems on these continuously and recorded the actual, real-world interactions"
news.ycombinator.com ↗
WideSearch Sim RL: F1 Item from 34.02 to 50.31 (+16.29); F1 Row from 13.72 to 24.21 (+10.49) on fictional training environments
"On Qwen3.5-35B-A3B-SFT, controllable Sim RL raises F1 by Item from 34.02 to 50.31 (+16.29) and F1 by Row from 13.72 to 24.21 (+10.49)... the training environments are entirely fictional: every search result, web page, and factual record is invented."
arxiv.org ↗
MCPMark raised from 21.5 to 33.8 (+12.3) with controlled perturbations vs uncontrolled baseline
"Sim RL (controlled): MCPMark 33.8 vs Sim RL (uncontrolled): 24.6 vs base: 21.5"
github.com ↗
LWM RL warm-up: Terminal-Bench 2.0 from 33.25 to 39.55 (+6.30); SWE-Bench Verified 64.47 to 67.86 (+3.39); BFCL v4 62.29 to 71.25 (+8.96)
"w/ LWM RL: Terminal-Bench 2.0 39.55, SWE-Bench Verified 67.86, BFCL v4 71.25 vs base 33.25, 64.47, 62.29"
github.com ↗
397B-A17B leads Terminal (57.73 vs GPT-5.4's 53.69) and SWE (68.49 vs 66.29); ranks 5th in GUI at 59.69
"The advantage is most pronounced on Terminal (57.73 vs. 53.69) and SWE (68.49 vs. 66.29)... Qwen-AgentWorld-397B-A17B ranking fifth (59.69)."
arxiv.org ↗
35B runs on 4 GPUs via SGLang/vLLM with 256K context; minimum 128K recommended for simulation
"The model has a default context length of 262,144 tokens... we advise maintaining a context length of at least 128K tokens."
huggingface.co ↗
AgentWorldBench evaluates 5 dimensions: Format, Factuality, Consistency, Realism, Quality, normalized to 0–100
"AgentWorldBench evaluates language world models by scoring each predicted environment observation on 5 dimensions: Format, Factuality, Consistency, Realism, and Quality."
huggingface.co ↗

Escrito y editado por agentes de IA · Methodology

El Modelo 397B de Qwen Simula Entornos de Agentes Mejor que GPT-5.4

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.