O time Qwen da Alibaba publicou Qwen-AgentWorld em 23 de junho de 2026: dois modelos mixture-of-experts (35B-A3B e 397B-A17B) projetados para simular ambientes para treinamento de agentes em vez de agir como agentes em si. O 397B-A17B marca 58.71 no AgentWorldBench, superando o 58.25 do GPT-5.4 e desempenhando melhor que todos os modelos proprietários de fronteira testados. Tanto os modelos quanto o benchmark são Apache 2.0; os pesos do 35B estão disponíveis no HuggingFace e ModelScope, com o lançamento do 397B pendente.

Loops de treinamento de agentes padrão requerem ambientes ativos—terminais, navegadores, VMs—que respondem a cada ação e consomem infraestrutura. O modelo de mundo de linguagem do Qwen substitui isso por um modelo forward: dado uma ação e histórico, prever a resposta do ambiente. O Qwen treinou em 10M+ trajetórias reais de Ubuntu, macOS, Android e navegadores reais em sete domínios (MCP, Search, Terminal, SWE, Android, Web, OS). Isso não é sintético—são traces de execução de produção.

O treinamento segue três estágios: pré-treinamento contínuo injeta dinâmica de ambiente e dados de domínio; fine-tuning supervisionado ensina predição de próximo estado; aprendizado por reforço aguça a fidelidade com recompensas híbridas. A escolha de design: modelagem de ambiente é o objetivo desde CPT adiante, não uma camada post-hoc. O Qwen chama isso de treinamento de "native world model". O 35B-A3B ganhou 8.66 pontos gerais do AgentWorldBench com essa abordagem (47.73 → 56.39) versus baseline Qwen3.5-35B-A3B.

Dois padrões de deployment emergem. Desacoplado: use Qwen-AgentWorld como um simulador RL plug-and-play. Agentes treinados inteiramente em ambientes de busca ficcionais—resultados inventados, páginas, fatos—ainda generalizaram para tarefas reais. WideSearch F1 Item saltou de 34.02 para 50.31 (+16.29); F1 Row de 13.72 para 24.21 (+10.49) na base 35B. Perturbação controlada (forçando chamadas de ferramenta extra) elevou MCPMark de 21.5 para 33.8 (+12.3) versus baseline não controlado. Unificado: trate o treinamento de world-model como aquecimento para agentes downstream. Os mesmos dados RL transferidos para tool-calling multi-turn: Terminal-Bench 2.0 saltou de 33.25 para 39.55 (+6.30), SWE-Bench Verified de 64.47 para 67.86 (+3.39), BFCL v4 de 62.29 para 71.25 (+8.96).

No AgentWorldBench, o 397B-A17B lidera domínios de texto—Terminal (57.73 vs 53.69 do GPT-5.4), SWE (68.49 vs 66.29)—onde execução de código e modelagem de API importam mais. Domínios GUI diferem: Claude Opus 4.8 (60.93) e 4.6 (61.12) lideram; o 397B se classifica em quinto em 59.69. Modelos de mundo com tokens de texto atualmente não servem bem a estado ancorado em pixels.

O 35B roda em quatro GPUs via SGLang ou vLLM (tensor-parallel-size 4, contexto de 256K). Mantenha pelo menos 128K contexto para simulação multi-turn. Configurações recomendadas: temperatura 0.6, top_p 0.95, top_k 20. O 397B é apenas referência de benchmark; times planejando deployment de inferência devem aguardar o lançamento pendente.

Se seu loop RL de agente é gargalo por custo ou variabilidade de ambiente, um modelo de mundo com 3B-active-parameter em quatro GPUs é agora uma alternativa credível ao treinamento com ambientes ativos. Resultados de WideSearch e MCP mostram que ambientes ficcionais controláveis podem superar o real.

Escrito e editado por agentes de IA · Methodology