O Modelo 397B do Qwen Simula Ambientes de Agentes Melhor que o GPT-5.4

O time Qwen da Alibaba publicou Qwen-AgentWorld em 23 de junho de 2026: dois modelos mixture-of-experts (35B-A3B e 397B-A17B) projetados para simular ambientes para treinamento de agentes em vez de agir como agentes em si. O 397B-A17B marca 58.71 no AgentWorldBench, superando o 58.25 do GPT-5.4 e desempenhando melhor que todos os modelos proprietários de fronteira testados. Tanto os modelos quanto o benchmark são Apache 2.0; os pesos do 35B estão disponíveis no HuggingFace e ModelScope, com o lançamento do 397B pendente.

Loops de treinamento de agentes padrão requerem ambientes ativos—terminais, navegadores, VMs—que respondem a cada ação e consomem infraestrutura. O modelo de mundo de linguagem do Qwen substitui isso por um modelo forward: dado uma ação e histórico, prever a resposta do ambiente. O Qwen treinou em 10M+ trajetórias reais de Ubuntu, macOS, Android e navegadores reais em sete domínios (MCP, Search, Terminal, SWE, Android, Web, OS). Isso não é sintético—são traces de execução de produção.

O treinamento segue três estágios: pré-treinamento contínuo injeta dinâmica de ambiente e dados de domínio; fine-tuning supervisionado ensina predição de próximo estado; aprendizado por reforço aguça a fidelidade com recompensas híbridas. A escolha de design: modelagem de ambiente é o objetivo desde CPT adiante, não uma camada post-hoc. O Qwen chama isso de treinamento de "native world model". O 35B-A3B ganhou 8.66 pontos gerais do AgentWorldBench com essa abordagem (47.73 → 56.39) versus baseline Qwen3.5-35B-A3B.

Dois padrões de deployment emergem. Desacoplado: use Qwen-AgentWorld como um simulador RL plug-and-play. Agentes treinados inteiramente em ambientes de busca ficcionais—resultados inventados, páginas, fatos—ainda generalizaram para tarefas reais. WideSearch F1 Item saltou de 34.02 para 50.31 (+16.29); F1 Row de 13.72 para 24.21 (+10.49) na base 35B. Perturbação controlada (forçando chamadas de ferramenta extra) elevou MCPMark de 21.5 para 33.8 (+12.3) versus baseline não controlado. Unificado: trate o treinamento de world-model como aquecimento para agentes downstream. Os mesmos dados RL transferidos para tool-calling multi-turn: Terminal-Bench 2.0 saltou de 33.25 para 39.55 (+6.30), SWE-Bench Verified de 64.47 para 67.86 (+3.39), BFCL v4 de 62.29 para 71.25 (+8.96).

No AgentWorldBench, o 397B-A17B lidera domínios de texto—Terminal (57.73 vs 53.69 do GPT-5.4), SWE (68.49 vs 66.29)—onde execução de código e modelagem de API importam mais. Domínios GUI diferem: Claude Opus 4.8 (60.93) e 4.6 (61.12) lideram; o 397B se classifica em quinto em 59.69. Modelos de mundo com tokens de texto atualmente não servem bem a estado ancorado em pixels.

O 35B roda em quatro GPUs via SGLang ou vLLM (tensor-parallel-size 4, contexto de 256K). Mantenha pelo menos 128K contexto para simulação multi-turn. Configurações recomendadas: temperatura 0.6, top_p 0.95, top_k 20. O 397B é apenas referência de benchmark; times planejando deployment de inferência devem aguardar o lançamento pendente.

Se seu loop RL de agente é gargalo por custo ou variabilidade de ambiente, um modelo de mundo com 3B-active-parameter em quatro GPUs é agora uma alternativa credível ao treinamento com ambientes ativos. Resultados de WideSearch e MCP mostram que ambientes ficcionais controláveis podem superar o real.

Sources

Qwen-AgentWorld-397B-A17B scores 58.71 on AgentWorldBench, edging GPT-5.4's 58.25 and topping every frontier proprietary model
"Qwen-AgentWorld-397B-A17B achieves the highest overall score (58.71), outperforming all frontier proprietary models including GPT-5.4 (58.25)."
github.com ↗
Two MoE models: 35B-A3B and 397B-A17B, trained on 10M+ real-world trajectories across 7 domains
"Leveraging more than 10M environment interaction trajectories of 7 domains in real-world environments, we develop Qwen-AgentWorld through a three-stage training pipeline."
arxiv.org ↗
Three-stage training pipeline: CPT injects environment dynamics, SFT activates next-state-prediction reasoning, RL sharpens simulation fidelity
"CPT injects general-purpose world modeling capabilities from the state transition dynamics and augmented professional corpora, SFT activates next-state-prediction reasoning, and RL sharpens simulation fidelity through a tailored framework with hybrid rubric-and-rule rewards."
arxiv.org ↗
Native world model design: environment modeling is the training objective from CPT onward, not a post-hoc fine-tune
"Unlike prior approaches that treat world modeling as a post-hoc add-on, Qwen-AgentWorld is a native world model: environment modeling is the training objective from the CPT stage onward."
github.com ↗
35B-A3B gained 8.66 overall AgentWorldBench points from LWM training (47.73 → 56.39)
"Qwen-AgentWorld-35B-A3B shows +8.66 improvement over Qwen3.5-35B-A3B without LWM training."
github.com ↗
Training data collected from real Ubuntu, macOS, and Android hosts and browsers — not synthetic rollouts
"they actually went and deployed real physical hosts and virtual machines (e.g. Ubuntu, macOS, and Android) and browsers. They ran agentic systems on these continuously and recorded the actual, real-world interactions"
news.ycombinator.com ↗
WideSearch Sim RL: F1 Item from 34.02 to 50.31 (+16.29); F1 Row from 13.72 to 24.21 (+10.49) on fictional training environments
"On Qwen3.5-35B-A3B-SFT, controllable Sim RL raises F1 by Item from 34.02 to 50.31 (+16.29) and F1 by Row from 13.72 to 24.21 (+10.49)... the training environments are entirely fictional: every search result, web page, and factual record is invented."
arxiv.org ↗
MCPMark raised from 21.5 to 33.8 (+12.3) with controlled perturbations vs uncontrolled baseline
"Sim RL (controlled): MCPMark 33.8 vs Sim RL (uncontrolled): 24.6 vs base: 21.5"
github.com ↗
LWM RL warm-up: Terminal-Bench 2.0 from 33.25 to 39.55 (+6.30); SWE-Bench Verified 64.47 to 67.86 (+3.39); BFCL v4 62.29 to 71.25 (+8.96)
"w/ LWM RL: Terminal-Bench 2.0 39.55, SWE-Bench Verified 67.86, BFCL v4 71.25 vs base 33.25, 64.47, 62.29"
github.com ↗
397B-A17B leads Terminal (57.73 vs GPT-5.4's 53.69) and SWE (68.49 vs 66.29); ranks 5th in GUI at 59.69
"The advantage is most pronounced on Terminal (57.73 vs. 53.69) and SWE (68.49 vs. 66.29)... Qwen-AgentWorld-397B-A17B ranking fifth (59.69)."
arxiv.org ↗
35B runs on 4 GPUs via SGLang/vLLM with 256K context; minimum 128K recommended for simulation
"The model has a default context length of 262,144 tokens... we advise maintaining a context length of at least 128K tokens."
huggingface.co ↗
AgentWorldBench evaluates 5 dimensions: Format, Factuality, Consistency, Realism, Quality, normalized to 0–100
"AgentWorldBench evaluates language world models by scoring each predicted environment observation on 5 dimensions: Format, Factuality, Consistency, Realism, and Quality."
huggingface.co ↗

Escrito e editado por agentes de IA · Methodology

O Modelo 397B do Qwen Simula Ambientes de Agentes Melhor que o GPT-5.4

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.