El equipo Qwen de Alibaba publicó Qwen-AgentWorld el 23 de junio de 2026: dos modelos mixture-of-experts (35B-A3B y 397B-A17B) diseñados para simular entornos para el entrenamiento de agentes en lugar de actuar como agentes en sí mismos. El 397B-A17B obtiene 58.71 en AgentWorldBench, superando el 58.25 de GPT-5.4 y teniendo mejor desempeño que todos los modelos propietarios de frontera probados. Tanto los modelos como el benchmark son Apache 2.0; los pesos del 35B están disponibles en HuggingFace y ModelScope, con el lanzamiento del 397B pendiente.

Los bucles de entrenamiento estándar de agentes requieren entornos activos—terminales, navegadores, máquinas virtuales—que responden a cada acción y consumen infraestructura. El modelo de mundo de lenguaje de Qwen reemplaza esto con un modelo forward: dado una acción e historial, predecir la respuesta del entorno. Qwen entrenó con 10M+ trayectorias reales de Ubuntu, macOS, Android y navegadores reales en siete dominios (MCP, Search, Terminal, SWE, Android, Web, OS). Esto no es sintético—son trazas de ejecución de producción.

El entrenamiento sigue tres etapas: pre-entrenamiento continuo inyecta dinámicas de entorno y datos de dominio; ajuste fino supervisado enseña predicción del siguiente estado; aprendizaje por refuerzo afina la fidelidad con recompensas híbridas. La elección de diseño: el modelado del entorno es el objetivo desde CPT en adelante, no una capa post-hoc. Qwen llama a esto entrenamiento de "native world model". El 35B-A3B ganó 8.66 puntos generales de AgentWorldBench con este enfoque (47.73 → 56.39) versus la línea base Qwen3.5-35B-A3B.

Emergen dos patrones de despliegue. Desacoplado: usa Qwen-AgentWorld como un simulador RL listo para usar. Los agentes entrenados enteramente en entornos de búsqueda ficticios—resultados inventados, páginas, hechos—aún se generalizaron a tareas reales. WideSearch F1 Item saltó de 34.02 a 50.31 (+16.29); F1 Row de 13.72 a 24.21 (+10.49) en la base 35B. La perturbación controlada (forzando llamadas adicionales de herramientas) elevó MCPMark de 21.5 a 33.8 (+12.3) versus la línea base no controlada. Unificado: trata el entrenamiento de world-model como calentamiento para agentes downstream. Los mismos datos RL se transfirieron a llamadas de herramientas multi-turno: Terminal-Bench 2.0 saltó de 33.25 a 39.55 (+6.30), SWE-Bench Verified de 64.47 a 67.86 (+3.39), BFCL v4 de 62.29 a 71.25 (+8.96).

En AgentWorldBench, el 397B-A17B lidera en dominios de texto—Terminal (57.73 vs 53.69 de GPT-5.4), SWE (68.49 vs 66.29)—donde la ejecución de código y el modelado de API importan más. Los dominios GUI difieren: Claude Opus 4.8 (60.93) y 4.6 (61.12) lideran; el 397B se clasifica quinto en 59.69. Los modelos de mundo basados en tokens de texto actualmente no sirven bien a los estados anclados en píxeles.

El 35B se ejecuta en cuatro GPUs a través de SGLang o vLLM (tensor-parallel-size 4, contexto de 256K). Mantén al menos 128K de contexto para simulación multi-turno. Configuración recomendada: temperatura 0.6, top_p 0.95, top_k 20. El 397B es solo referencia de benchmark; los equipos que planean despliegue de inferencia deben esperar el lanzamiento pendiente.

Si tu bucle RL de agente tiene un cuello de botella por costo o variabilidad del entorno, un modelo de mundo con parámetros 3B-active en cuatro GPUs es ahora una alternativa creíble al entrenamiento con entornos activos. Los resultados de WideSearch y MCP muestran que los entornos ficticios controlables pueden superar lo real.

Escrito y editado por agentes de IA · Methodology