Microsoft gera 1.000 computadores sintéticos para treinar agentes

Pesquisadores da Microsoft divulgaram uma metodologia para gerar ambientes de computador sintéticos em larga escala com hierarquias de pastas realistas, documentos e artefatos para treinar modelos de agentes de longo horizonte. A abordagem viabiliza desenvolvimento de agentes de forma econômica e que preserva a privacidade em escala.

Pesquisadores da Microsoft publicaram uma metodologia para gerar ambientes de computador sintéticos em escala para treinar agentes de produtividade de longo horizonte, evitando riscos de privacidade e os custos de coleta de dados de usuários reais.

O trabalho, "Synthetic Computers at Scale for Long-Horizon Productivity Simulation", introduz um pipeline de dois agentes. O primeiro agente constrói uma persona de usuário realista, completa com hierarquias de pastas e artefatos ricos em conteúdo — documentos, planilhas e apresentações — refletindo o contexto profissional dessa persona. Um segundo agente habita o espaço de trabalho simulado, recebendo objetivos de produtividade que abrangem múltiplos entregáveis e aproximadamente um mês de trabalho equivalente a humanos. Ele navega o sistema de arquivos, coordena com colaboradores simulados e produz artefatos finalizados até que os objetivos sejam atendidos.

Cada simulação requer mais de 8 horas de tempo de execução do agente e cobre mais de 2.000 turnos de conversa em média. A equipe gerou 1.000 computadores sintéticos e executou a suíte de simulação completa em cada um. Os sinais de treinamento impulsionaram melhorias significativas no desempenho do agente em avaliações dentro e fora do domínio. Os resultados validaram que ambientes sintéticos transferem para configurações de tarefas reais.

Para equipes empresariais que constroem agentes de desktop, orquestradores de fluxo de trabalho ou automação estilo copilot, a implicação segue naturalmente. Dados de treinamento refletindo ambientes de usuário genuínos — pastas de projeto aninhadas, dependências de múltiplos arquivos, threads de email de colaboradores — historicamente exigiram acesso arriscado a dados de funcionários ou curação manual cara. Esta metodologia substitui ambas as opções por uma alternativa escalável por computação que preserva a privacidade por construção.

Os autores observam que personas humanas existem em escala de bilhões. Em princípio, a metodologia pode gerar milhões ou bilhões de mundos de usuários sintéticos distintos com computação suficiente. Esse limite importa para organizações que constroem agentes robustos em toda a amplitude de papéis empresariais, indústrias e fluxos de trabalho, em vez de otimizados para comportamento observado estreito.

Questões abertas permanecem em torno dos limites de fidelidade. Hierarquias de pastas sintéticas e respostas de colaboradores simulados podem não capturar casos extremos em ambientes empresariais ativos — formatos de arquivo legados, convenções de nomenclatura idiossincráticas, integrações entre sistemas. O trabalho não quantifica lacunas de desempenho específicas em avaliações fora do domínio, deixando as magnitudes de generalização pouco claras.

A pesquisa posiciona a geração de dados sintéticos escalável como infraestrutura fundamental para aprendizado de reforço de agentes. Equipes avaliando arquiteturas de agentes de longo horizonte devem tratar o orçamento de computação para geração de ambientes sintéticos como um custo de treinamento de primeira classe, não como uma consideração secundária.

Sources

Microsoft researchers introduced 'Synthetic Computers at Scale,' a methodology for creating synthetic environments with realistic folder hierarchies and content-rich artifacts
"we introduce Synthetic Computers at Scale, a scalable methodology for creating such environments with realistic folder hierarchies and content-rich artifacts (e.g., documents, spreadsheets, and presentations)"
arxiv.org ↗
Each simulation run requires over 8 hours of agent runtime and spans more than 2,000 turns on average
"each run requires over 8 hours of agent runtime and spans more than 2,000 turns on average"
arxiv.org ↗
Preliminary experiments created 1,000 synthetic computers and ran long-horizon simulations on each
"we create 1,000 synthetic computers and run long-horizon simulations on them"
arxiv.org ↗
Simulations produced significant improvements in agent performance on both in-domain and out-of-domain productivity evaluations
"whose effectiveness is validated by significant improvements in agent performance on both in-domain and out-of-domain productivity evaluations"
arxiv.org ↗
Productivity objectives span multiple professional deliverables and approximately one month of human work
"one agent creates productivity objectives that are specific to the computer's user and require multiple professional deliverables and about a month of human work"
arxiv.org ↗
Personas are abundant at billion scale, enabling the methodology to scale to millions or billions of synthetic user worlds
"Given that personas are abundant at billion scale, this methodology can in principle scale to millions or even billions of synthetic user worlds with sufficient compute"
arxiv.org ↗
The authors position scalable synthetic data as foundational for agent self-improvement and agentic reinforcement learning
"scalable synthetic computer creation, together with at-scale simulations, is highly promising as a foundational substrate for agent self-improvement and agentic reinforcement learning in long-horizon productivity scenarios"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Microsoft gera 1.000 computadores sintéticos para treinar agentes

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.