Microsoft genera 1.000 computadoras sintéticas para entrenar agentes

Investigadores de Microsoft publicaron una metodología para generar entornos de computadora sintéticos a escala con jerarquías de carpetas realistas, documentos y artefactos para entrenar modelos de agentes de largo horizonte. El enfoque permite desarrollo de agentes rentable y preservador de privacidad a escala.

Investigadores de Microsoft publicaron una metodología para generar entornos de computadora sintéticos a escala para entrenar agentes de productividad de largo horizonte, evitando riesgos de privacidad y los costos de colectar datos de usuarios reales.

El trabajo, "Synthetic Computers at Scale for Long-Horizon Productivity Simulation", introduce un pipeline de dos agentes. El primer agente construye una persona de usuario realista, completa con jerarquías de carpetas y artefactos ricos en contenido — documentos, hojas de cálculo y presentaciones — reflejando el contexto profesional de esa persona. Un segundo agente habita el espacio de trabajo simulado, recibiendo objetivos de productividad que abarcan múltiples entregables y aproximadamente un mes de trabajo equivalente a humanos. Navega el sistema de archivos, coordina con colaboradores simulados y produce artefactos finalizados hasta que se cumplan los objetivos.

Cada simulación requiere más de 8 horas de tiempo de ejecución del agente y cubre más de 2.000 turnos de conversación en promedio. El equipo generó 1.000 computadoras sintéticas y ejecutó la suite de simulación completa en cada una. Las señales de entrenamiento impulsaron mejoras significativas en el desempeño del agente en evaluaciones dentro y fuera del dominio. Los resultados validaron que los entornos sintéticos se transfieren a configuraciones de tareas reales.

Para equipos empresariales que construyen agentes de escritorio, orquestadores de flujo de trabajo o automatización estilo copilot, la implicación es clara. Datos de entrenamiento que reflejan entornos de usuario genuinos — carpetas de proyecto anidadas, dependencias de múltiples archivos, hilos de correo de colaboradores — históricamente han requerido acceso riesgoso a datos de empleados o curación manual costosa. Esta metodología reemplaza ambas opciones con una alternativa escalable por computación que preserva la privacidad por construcción.

Los autores señalan que personas humanas existen a escala de miles de millones. En principio, la metodología puede generar millones o miles de millones de mundos de usuarios sintéticos distintos con computación suficiente. Ese techo importa para organizaciones que construyen agentes robustos en toda la amplitud de roles empresariales, industrias y flujos de trabajo, en lugar de optimizados para comportamiento observado estrecho.

Preguntas abiertas permanecen sobre los límites de fidelidad. Las jerarquías de carpetas sintéticas y las respuestas de colaboradores simulados pueden no capturar casos extremos en entornos empresariales activos — formatos de archivo heredados, convenciones de nomenclatura idiosincrásicas, integraciones entre sistemas. El trabajo no cuantifica brechas de desempeño específicas en evaluaciones fuera del dominio, dejando ambiguas las magnitudes de generalización.

La investigación posiciona la generación de datos sintéticos escalable como infraestructura fundamental para el aprendizaje por refuerzo de agentes. Los equipos que evalúan arquitecturas de agentes de largo horizonte deben tratar el presupuesto de computación para generación de entornos sintéticos como un costo de entrenamiento de primera clase, no como una consideración secundaria.

Sources

Microsoft researchers introduced 'Synthetic Computers at Scale,' a methodology for creating synthetic environments with realistic folder hierarchies and content-rich artifacts
"we introduce Synthetic Computers at Scale, a scalable methodology for creating such environments with realistic folder hierarchies and content-rich artifacts (e.g., documents, spreadsheets, and presentations)"
arxiv.org ↗
Each simulation run requires over 8 hours of agent runtime and spans more than 2,000 turns on average
"each run requires over 8 hours of agent runtime and spans more than 2,000 turns on average"
arxiv.org ↗
Preliminary experiments created 1,000 synthetic computers and ran long-horizon simulations on each
"we create 1,000 synthetic computers and run long-horizon simulations on them"
arxiv.org ↗
Simulations produced significant improvements in agent performance on both in-domain and out-of-domain productivity evaluations
"whose effectiveness is validated by significant improvements in agent performance on both in-domain and out-of-domain productivity evaluations"
arxiv.org ↗
Productivity objectives span multiple professional deliverables and approximately one month of human work
"one agent creates productivity objectives that are specific to the computer's user and require multiple professional deliverables and about a month of human work"
arxiv.org ↗
Personas are abundant at billion scale, enabling the methodology to scale to millions or billions of synthetic user worlds
"Given that personas are abundant at billion scale, this methodology can in principle scale to millions or even billions of synthetic user worlds with sufficient compute"
arxiv.org ↗
The authors position scalable synthetic data as foundational for agent self-improvement and agentic reinforcement learning
"scalable synthetic computer creation, together with at-scale simulations, is highly promising as a foundational substrate for agent self-improvement and agentic reinforcement learning in long-horizon productivity scenarios"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Microsoft genera 1.000 computadoras sintéticas para entrenar agentes

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.