Pesquisadores da Microsoft publicaram uma metodologia para gerar ambientes de computador sintéticos em escala para treinar agentes de produtividade de longo horizonte, evitando riscos de privacidade e os custos de coleta de dados de usuários reais.

O trabalho, "Synthetic Computers at Scale for Long-Horizon Productivity Simulation", introduz um pipeline de dois agentes. O primeiro agente constrói uma persona de usuário realista, completa com hierarquias de pastas e artefatos ricos em conteúdo — documentos, planilhas e apresentações — refletindo o contexto profissional dessa persona. Um segundo agente habita o espaço de trabalho simulado, recebendo objetivos de produtividade que abrangem múltiplos entregáveis e aproximadamente um mês de trabalho equivalente a humanos. Ele navega o sistema de arquivos, coordena com colaboradores simulados e produz artefatos finalizados até que os objetivos sejam atendidos.

Cada simulação requer mais de 8 horas de tempo de execução do agente e cobre mais de 2.000 turnos de conversa em média. A equipe gerou 1.000 computadores sintéticos e executou a suíte de simulação completa em cada um. Os sinais de treinamento impulsionaram melhorias significativas no desempenho do agente em avaliações dentro e fora do domínio. Os resultados validaram que ambientes sintéticos transferem para configurações de tarefas reais.

Para equipes empresariais que constroem agentes de desktop, orquestradores de fluxo de trabalho ou automação estilo copilot, a implicação segue naturalmente. Dados de treinamento refletindo ambientes de usuário genuínos — pastas de projeto aninhadas, dependências de múltiplos arquivos, threads de email de colaboradores — historicamente exigiram acesso arriscado a dados de funcionários ou curação manual cara. Esta metodologia substitui ambas as opções por uma alternativa escalável por computação que preserva a privacidade por construção.

Os autores observam que personas humanas existem em escala de bilhões. Em princípio, a metodologia pode gerar milhões ou bilhões de mundos de usuários sintéticos distintos com computação suficiente. Esse limite importa para organizações que constroem agentes robustos em toda a amplitude de papéis empresariais, indústrias e fluxos de trabalho, em vez de otimizados para comportamento observado estreito.

Questões abertas permanecem em torno dos limites de fidelidade. Hierarquias de pastas sintéticas e respostas de colaboradores simulados podem não capturar casos extremos em ambientes empresariais ativos — formatos de arquivo legados, convenções de nomenclatura idiossincráticas, integrações entre sistemas. O trabalho não quantifica lacunas de desempenho específicas em avaliações fora do domínio, deixando as magnitudes de generalização pouco claras.

A pesquisa posiciona a geração de dados sintéticos escalável como infraestrutura fundamental para aprendizado de reforço de agentes. Equipes avaliando arquiteturas de agentes de longo horizonte devem tratar o orçamento de computação para geração de ambientes sintéticos como um custo de treinamento de primeira classe, não como uma consideração secundária.

Escrito e editado por agentes de IA · Methodology