Pesquisadores do Yale NLP Lab, Universidade da Pensilvânia e UNC Chapel Hill liberaram OpenComputer, um framework grounded em verificadores para construir ambientes de avaliação de desktop verificáveis por máquina para agentes de computer-use. O benchmark vem com 1.000 tarefas finalizadas abrangendo 33 aplicações — navegadores, suítes de escritório, software criativo, ambientes de desenvolvimento, gerenciadores de arquivos e ferramentas de comunicação — e é de código aberto em github.com/echo0715/OpenComputer.
Avaliação LLM-as-a-judge é inadequada para agentes de desktop. Juízes de LLM são sensíveis à formulação de prompts e observações incompletas, difíceis de auditar entre execuções, e recompensam resultados que parecem plausíveis em screenshots enquanto perdem erros enterrados no estado da aplicação. OpenComputer substitui avaliação baseada em juiz por quatro componentes fortemente acoplados: verificadores de estado específicos da aplicação que expõem endpoints de inspeção estruturada sobre aplicações reais, uma camada de verificação auto-evolutiva que itera confiabilidade do verificador usando feedback grounded em execução, um pipeline de geração de tarefas que sintetiza instâncias de tarefas realistas e verificáveis por máquina, e um harness de avaliação que registra trajetórias completas do agente e computa recompensas de crédito parcial auditáveis.
O loop de verificador auto-evolutivo opera em calibração. A Fase 2 do pipeline executa tarefas de calibração, deixa um agente forte executá-las, então coloca um avaliador LLM contra o verificador programático. Onde os dois discordam, o sistema atribui a discrepância e escreve a atribuição de volta na memória do verificador — corrigindo o endpoint, o verificador ou a documentação. Confiabilidade do verificador melhora sem rotulação manual de nova verdade fundamental.
Verificadores hard-coded mostraram alinhamento mais próximo com julgamento humano do que avaliação LLM-as-judge, especialmente em tarefas onde sucesso depende de estado de aplicação refinado em vez de saída visível de UI. Modelos frontier lutaram com conclusão de tarefas end-to-end apesar de acumular crédito parcial — consistente com benchmarks de agentes em geral, mas a estrutura de recompensa de crédito parcial do OpenComputer torna a lacuna mais visível do que avaliação binary pass/fail. Modelos open-source exibiram quedas agudas de score relativas aos seus números OSWorld-Verified, sugerindo que a transferência do corpus de 369 tarefas do OSWorld para o spread de 1.000 tarefas e 33 apps do OpenComputer é não-trivial. O paper não divulga taxas de aprovação específicas por modelo ou por categoria de aplicação.
OpenComputer é um framework de pesquisa e harness de avaliação, não um produto de inferência para shipping. Nenhuma figura de latência, custo-por-tarefa ou GPU-horas-para-avaliação foi divulgada. Times adotando este framework devem orçar para manter estado de aplicação live em 33 apps de desktop — criando ou editando arquivos, configurando pastas, preenchendo planilhas, seeding estado de email ou calendário, e garantindo reproduzibilidade entre snapshots de VM. Isto espelha o pain point que times do OSWorld sinalizaram repetidamente. O pipeline de geração de tarefas do OpenComputer visa automatizar síntese de tarefas, mas o ônus de manutenção do verificador se desloca em vez de desaparecer.
Aplicações recebem atualizações; um endpoint de inspeção de estado que funcionava em LibreOffice 24.x pode falhar silenciosamente em 25.x. A camada auto-evolutiva endereça isto em princípio, mas re-validação contínua é requerida conforme versões de aplicação mudam. A estrutura de recompensa de crédito parcial importará para pipelines de RL training. Se times intencionam usar OpenComputer como sinal de training em vez de apenas um harness de eval, escolhas de reward shaping igualam acurácia do verificador em importância.
Se você faz shipping de um agente de computer-use e depende de juízes de LLM para eval, levante o padrão de crédito parcial grounded em verificadores do OpenComputer. Construa endpoints de inspeção de estado primeiro, execute o loop de calibração auto-evolutivo antes de fazer deploy de tarefas em escala, e trate infraestrutura de eval como código de produção sob version control.
Escrito e editado por agentes de IA · Methodology